文章列表页
高考试题的难度、区分度、信度和效度
时间: 2018-04-09 11:47:15 来源: 来源:网络

高考试题的难度、区分度、信度和效度

. 试题的难度

(一)什么是难度

难度是指试题的难易程度,是评价考试的一个非常重要的一个指标。一个题目,如果大部分考生都能答对,那么这个题目的难度就小;如果大部分考生都不能答对,那么这个题目的难度就大。

客观题难度计算公式P难度指数)=试题答对人数/考生人数;主观题难度计算公式P=试题平均得分/试题满分。试卷难度计算公式:P=为平均分,K为试卷满分值。易、中、难的标准为:易:P≥0.7,中:0.4≤P≤0.69,难:P≤0.39P值越大,难度越低,P值越小,难度越高。一般来说,难度值平均在0.5最佳,难度值过高或过低,都会降低测验的信度。当然,在实际的评价过程中,测验的难度水平多高才合适,也还要取决于测验的目的。如果教师要对学生的知识准备状况进行一次诊断性测验,为了真实、准确地了解学生的知识掌握情况,测验难度大一点也是正常的。

(二)难度的计算

1)客观性试题难度P(这时也称通过率)计算公式:

P=k/Nk为答对该题的人数,N为参加测验的总人数)

2)主观性试题难度P计算公式:

P=X/MX为试题平均得分;M为试题满分)

3)适用于主、客观试题的计算公式:

P=PH+PL/2PHPL分别为试题针对高分组和低分组考生的难度值)

在大群体标准化中,此法较为方便。具体步骤为:①将考生的总分由高至低排列;②从最高分开始向下取全部试卷的27%作为高分组;③从最低分开始向上取全部试卷的27%作为低分组;④按上面的公式计算。

1:一次生物测试中,在100名学生中,高低分组各有27人,其中高分组答对第一题有20人,低分组答对第一题的有5分,这道题的难度为:

PH=20/27=0.74    PL=5/27=0.19   P=(0.74+0.19)/2=0.47

整个试卷的难度等于所有试题难度之平均值(包括主、客观试题)。

(三)试题难度的一般要求

就高考来说,难度以适中为宜,单个试题的难度以0.3--0.7之间为好,整卷以0.5--0.6之间为最佳。

一般将难度值大于和等于0.7的试题定为容易题;大于0.4和小于0.7的定为中档题;小于和等于0.4的试题定为难题。

命题时难度一般要按一定比例分配,如361352,一般说来,容易题、难度系数为0.95-0.75,中档题为0.74-0.6,难题为0.59-0.20

. 试题的区分度

(一)什么是区分度

区分度是指考试题目对考生心理特征的区分能力。区分度高的试题能将不同水平的考生区分开来,水平高的考生得高分,水平低的考生得低分。区分度高的考试,优秀、一般、差三个层次的学生都有一定比例,如果某一分数区间学生相对集中,高分太多或不及格太多的考试,区分度则低。

(二)区分度的计算

1.单个选择题目区分度的计算

将全体考生总分从高到低排列,将总分最高的27%考生定为高分组,总分最低的27%考生定为低分组,分别计算两组考生在某道题目上的通过率,两个通过率之差就是这道题的区分度(又叫鉴别指数)。

计算公式为:D=PH-PL. PHPL分别为高分组和低分组的通过率。

2整个试题的区分度计算(常用)

计算公式为:D=2XHXL/W

其中D为试卷区分度,XH 27%高分组平均分,XL 27%低分组平均分,W 为试卷总分。

一般也将全体考生总分从高到低排列,将总分最高的27%的考生定为高分组,总分最低的27%考生定为低分组,再分别计算各组的平均分。

如:一份满分100分的试卷,高分组平均得分90分,低分组平均得分60分,则区分度为290-60/100=0.6

一道题值2分的试题,高分组平均得分1.5分,低分组平均得分0.5分,则区分度为21.5-0.5/2=1

(三)试题区分度的一般要求

区分度(D)的取值范围介于-1.00+1.00之间。通常D为正值,称为积极区分;D为负值称为消极区分;D值为0称为无区分作用。具有积极区分作用的试题,其D值越大,区分的效果越好。

试题的区分度在0.4以上表明此题的区分度很好,0.30.39表明此题的区分度较好,0.20.29表明此题的区分度不太好需要修改,0.19以下表明此题的区分度不好应淘汰。

高考的区分度一般要求在0.3以上,表示高分组的学生比低分组的学生能多得30%的分数。一般认为,区分度的数值达到了0.3,便可以接受;低于0.3的题目,区分能力就差了。

. 试题的信度

信度是指使用同一试卷对考生重复测验时,或两个平行试卷对考生测验时,所得测验分数的一致性和稳定性程度。信度除了要说明成绩的真实性之外,还要说明题目涉及的内容与教学的相关程度。

信度系数愈高即表示该测验的结果愈一致、稳定与可靠。系统误差对信度没什么影响,因为系统误差总是以相同的方式影响测量值的,因此不会造成不一致性。反之,随机误差可能导致不致性,从而降低信度。信度可以定义为随机误差R影响测量值的程度。如果R=0,就认为测量是完全可信的,信度最高。

高考试题的难度、区分度、信度和效度信度的定义

信度主要是指测量结果的可靠性、一致性和稳定性,即测验结果是否反映了被测者的稳定的、一贯性的真实特征。和信度相关的一个概念是效度,信度是效度的前提条件。 

信度只受随机误差的影响,随机误差越大,信度越低。因此,信度可以视为测试结果受随机误差影响的程度。系统误差产生恒定效应,不影响信度。 

测试信度(test reliability)也叫测试的可靠性,指的是测试结果是否稳定可靠。也就是说,测试的成绩是不是反映了受试者的实际语言水平。例如,如果同一套测试在对同一测试对象(即受试者本身没有变化)进行的数次测试中,受试者的分数忽高忽低的话,则说明该测试缺乏信度。测试的信度与测试的效度有着密切的关系。一般说来,只有信度较高的测试才能有较高的效度,但效度较高不能保证信度也一定较高。测试的信度主要涉及到试题本身的可靠性和评分的可靠性这两个方面。试题本身是否可靠主要取决于试题的范围、数量、试题的区分度等因素;评分是否可靠则要看评分标准是否客观和准确。 

测试的信度通常用一种相关系数(即两个数之间的比例关系)来表示,相关系数越大,信度则越高。当系数为1.00时,说明测试的可靠性达到最高程度;而系数是0.00时,则测试的可靠性降到最低程度。在一般情况下,系数不会高到1.00,也不会降到0.00,而是在两者之间。对信度指数的要求因测试类别的不同而不同,人们通常对标准化测试的信度系数要求在0.90以上,例如托福的信度大致为0.95,而课堂测试的信度系数则以0.70-0.80之间为可接受性系数。测试信度的计算方法有很多种,以下仅介绍三种易于操作的方法: 

1)重测法(the retesting method)。用同一套试卷在两个不同时间内来测试同一批受试者,这样便获得两组分数,然后计算出两组分数的相关系数。当然,在两次测试中,学生第二次的测试成绩理应比第一次的要高,因为在第二次测试时学生已经有了进步而且临场经验也更丰富了。但是若该试题是比较可靠的,每个学生在两次测试中的排名次序应该是基本不变的。 

2)交替形式法(the alternative method)。对同一批受试者使用试题类型完全相同,难易程度相当,但具体题目不同的两套对等试卷先后进行两次测试,然后计算出两次得分的相关系数。 

3)对半法(the splithalf method)。测试只进行一次,但将整份试卷的题目按单、双数分成两组来分别计分,算出两组分数的相关系数,然后再用SpearmanBrown的公式计算整份试卷的信度系数。具体计算步骤是:将两组分数的相关系数乘以2,再除以1加两组分数的相关系数。 

每一个测试的实得分数(X)总是由真实分数(T)和误差(E)两部分构成的,用公式表示如下: 

X=T+E 

如果我们讨论一组测验分数的特性时,可用方差代表具体分数,得到公式: 

S^2x=S^2(t)+S^2(e)

公式中,S^2x)是实得分数的方差,S^2(t)是真分数的方差,S^2(e)是误差的方差 

在测量理论中,信度被定义为:一组测量分数的真分数方差与中方差(实得方差)的比率。即: 

r(xx)=S^2(t)/S^2x 

由于真实分数的方差是无法统计的,因此转化为: 

r(xx)=S^2(x)-S^2(e)/S^2(x)

=1-S^2(e)/S^2(x) 

因此,信度也可以看做是总方差中非测量误差的方差所占的比例 

信度的指标

一、信度系数与信度指数 

大部分情况下,信度是以信度系数为指标,它是一种相关系数。常常是同一被试样本所得到的两组资料的相关,理论上说就是真分数方差与实得分数方差的比值,公式为: 

r(xx)=r^2(xt)=S^2(t)/S^2x 

公式中r^2(xt)是真分数标准差与实得分数标准差的比值,称作信度系数,公式为: 

r(xt)=S(t)/S(x) 

可见信度指数的平方就是信度系数。 

二、测量标准误 

信度系数仅表示一组测量的实得分数与真分数的符合程度,但并没有直接指出个人测验分数的变异量。我们可以用一组被试两次测量结果来代替对同一个人的反复施测,于是有了信度的另一个指标,公式为: 

SE=S(x)1-r(xx) 

公式中SE为测量的标准误,S(x)是所得分数的标准差,r(xx)为测验的信度系数,从公式我们可以看出测量的标准误与信度之间有互为消长的关系:信度越高,标准误越小,信度越低,标准误越大。 

影响信度的因素

一、样本特征 

1、样本团体异质性的影响 

2、样本团体的平均能力水平的影响 

二、测量长度 

一般来说,在一个测试中增加同质的题目,可以使信度提高。 

需注意的是,增加测验长度的效果应当遵循报酬递减原则。通过斯皮尔曼-布朗公式的导出公式可以计算出最少应增加的题目: 

K=r(kk)*(1-r(xx))/r(xx)*(r(kk)-1) 

K为改变后的长度与原长度之比,r(xx)为原测试的信度,r(kk)为测验长度是原来的K倍时的信度估计。 

三、测验难度 

理论上说,只有测验难度为50%时,才能使测验分数分布范围最大,求得的信度也最高。事实上,难度为0.50只适合于简答型题目,对于选择题目由于猜测因素,难度值应当提高,洛德提出在学习成绩中,为了保证其可靠性,各类选择题的理想平均难度为:五择一测,0.70;四择一测,0.74;三择一测,0.77;是非题。0.85

在实际情况下,如果某个测验适用范围广,其难度水平通常适用于中等能力水平的被试,而对较高水平的被试和较低水平的被试可能较易或较难,使得分数分布范围缩小,信度水平降低,因此一个标准化的测验,应根据不同能力水平的报告测验的难度,以作为选择测验的参考 

四、时间间隔 

时间间隔只对重测信度和不同时测量时的复本信度有影响,对其余的信度来说,不存在时间间隔问题。 

注:我们对一套问卷的信度检验值(一般是指克隆巴赫阿尔法信度系数)有时会出现过低的情况,可能的原因有: 

1、试卷本身设计不合理,不是围绕一个主题或是有矛盾的题目。如果试卷中有题目让完全相同的人选择不同的答案,试卷的信度会降低。 

2、题目区分度过低,特别指有对错之分的题目。如果一道题正确率或错误率达到90%,可以从新审视题目设计是否合理。区分度过低的题目中真实偏差的成分较少,随机偏差的成分相对较多,试卷的信度会降低。 

3、无关变量进入信度检验。除了重测信度,其他信度检验方法都只考虑有序变量,无序变量,如出身城市,喜好颜色等,如果我们没有对城市或颜色排序的话,带入信度检验意义难明,可能会导致试卷的信度降低。 

4、题目选项反序。对有序变量,如果变量值之间序的意义相反,会降低甚至得出负的信度。比如检验老师对学生评分的信度,如果一个老师的评分以10分为最高分,1分最低,另一个以1分最高,10分最低。如果不经处理带入信度计算,信度会降低。 

信度评估的方法

一、重测信度,又称为稳定性系数,它的计量方法是采用重测法:用同一测验,在不同时间对同一群体施测两次,这两次测量分数的相关系数即为重测系数。 

重测信度所考察的误差来源是时间的变化所带来的随机影响。在评估重测信度时,必须注意重测间隔的时间。对于人格测验,重测间隔在两周到6个月之间比较合适。 

在进行重测信度的评估时,还应注意以下两个重要问题:⑴重测信度一般只反映由随机因素导致的变化,而不反映被试行为的长久变化。⑵不同的行为受随机误差影响不同。 

二、复本信度,是以两个测验复本来测量同一群体,然后求得应试者在这两个测验上得分的相关系数。复本信度的高低反映了这两个测验复本在内容上的等值性程度。两个等值的测验互为复本。 

计算复本信度的主要目的在于考察两个测验复本的题目取样或内容取样是否等值。复本信度也考虑两个复本实施的时间间隔。 

复本信度的主要优点在于:⑴能够避免重测信度的一些问题,如记忆效果、练习效应等;⑵适用于进行长期追踪研究或调查某些干涉变量对测验成绩影响;⑶减少了辅导或作弊的可能性。☆复本信度的局限性在于:⑴如果测量的行为易受练习的影响,则复本信度只能减少而不能消除这种影响;⑵有些测验的性质会由于重复而发生改变;⑶有些测验很难找到合适的复本。 

三、内部一致性信度,主要反映的是测验内部题目之间的关系,考察测验的各个题目是否测量了相同的内容或特质。内部一致性信度又分为分半信度和同质性信度。 

分半信度系数是通过将测验分成两半,计算这两半测验之间的相关性而获得的信度系数。测验愈长,信度系数愈高。同质性信度是指测验内部的各题目在多大程度上考察了同一内容。同质性信度低时,即使各个测试题看起来似乎是测量同一特质,但测验实际上是异质的,即测验测量了不止一种特质。同质性分析与项目分析中的内部一致性分析相类似。 

四、评分者信度,是指不同评分者对同样对象进行评定时的一致性。最简单的估计方法就是随机抽取若干份答卷,由两个独立的评分者打分,再求每份答卷两个评判分数的相关系数。这种相关系数的计算可以用积差相关方法,也可以采用斯皮尔曼等级相关方法。 

. 试题的效度

效度是指考试有效性或正确性的质量指标,即是否考了要考的内容,试题难度、区分度是否适宜,考试最终是否达到了它的预定目的等。

测试效度(test validity)亦称测试的有效性,指一套测试对应该测试的内容所测的程度。也就是说,一套测试是否达到了它预定的目的以及是否测量了它要测量的内容。例如:“Is photography an art orscienceDiscuss这种题目以摄影的知识为前提和主要内容,用来考语言能力,就不具有效性。又如用听写来测量学生的听觉能力,其效度也是不理想的,因为书面记录有声语言不仅涉及学生的听觉能力,而且还与他们的书写速度、拼写能力、语法知识、记忆能力和对全文的理解能力等有关。 

测试的效度一般可分为以下几类: 

1)表面效度(face validity)。指测试应达到的卷面标准,即一套测试题从表面看来是否是合适的。例如,若一次阅读理解力的测试包括许多受试者没有学过的方言词汇,则可认为这次测试缺乏表面效度。表面效度是测试出受试者正常水平的一种保证因素。 

2)内容效度(content validity)。指一套测试题是否测试了应该测试的内容或者说所测试的内容是否反映了测试的要求,即测试的代表性和覆盖面的程度。例如,如果某一套发音技能测试题仅仅考查发音所必须具备的某些技能,如只考单一音素的发音,而不考查重读、语调或音素在词语中的发音,那么,该测试的内容效度就很低。 

3)编制效度(construct validity)。指一套测试题的诸项目对编制该测试所依据的理论的各个基本方面的反映程度。例如,以结构主义语言理论为基础,认为系统的语言习惯是通过句型而获得的,那么,强调词汇和语法环境的测试题目就失去了编制效度。 

4)经验效度(empirical validity)。经验效度是一种衡量测试有效性的量度,通过把一次测试与一个或多个标准尺度相对照而得出。经验效度可分为两种:一是共时效度(concurrent validity),即将一次测试的结果同另一次时间相近的有效测试的结果相比较,或同教师的鉴定相比较而得出的系数;二是预测效度(predictive validity),即将一次测试的结果同后来的语言能力相比较,或是同教师后来对学生的鉴定相比较而得出的系数。 

一般来说,对某次测试的效度进行检验时,除了要根据教学大纲的要求和观念有效性的理论对试卷的内容进行考查以外,还须采用计算相关系数的定量方法,即计算出本次试卷与另一份已被确定能正确反映受试者水平的试卷之间的相关系数。系数高则有效性大。课堂测试的效度应在0.4-0.7之间,规模较大的测试其效度应在0.7以上。

. 高考题的信度、效度、难度和区分度

高考的性质最主要的在两个方面:一、高考是一种选拔性考试,高考成绩是高等学校录取新生的依据,这是高考的选拔性质。二、高考是一种导向性考试,高考是中学教学的指挥棒,起着对中学教学的引导作用,这是高考的引导性质。高考性质的这两方面决定了高考试题应有的信度、效度、难度和区分度,而这些是我们进行高考复习首先要清楚的,能够避免我们在复习时的盲目。

信度是指使用同一试卷对考生重复测验时,或两个平行试卷对考生测验时,所得测验分数的一致性和稳定性程度。

效度是指考试有效性或正确性的质量指标,考试效度的高低反映着考试是否达到它的预定目的,是否考了要考的内容。

难度指试卷()的难易程度。一般用试卷()的得分率或答对率表示,所以难度事实上是容易度或通过率。其值在01之间,数值越大,说明试卷()越容易。

区分度是指试题对不同考生的知识、能力水平的鉴别程度。如果一个题目的测试结果使水平高的考生答对(得高分),而水平较低的考生答错(得低分),它的区分能力就很强。题目的区分度反映了试题这种区分能力的高低。一般认为,区分度的数值达到了0.3,便可以接受;低于0.3的题目,区分能力差。

高考的性质决定了高考试题首先要保证信度,缺少信度或信度较低都无法向几百万考生交代,无法向考生家长交代,无法向社会交代。从这一角度看高考试题所考查的一定是确定性和稳定性的内容,对于现在还没有被确定的内容或者说有争议内容是不能作为高考命题依据的。复习时,不要让这样的问题浪费你的精力!同时要注意,有些题目看起来让你回答的是假设和猜想,你可不要忘记高考试题的确定性,不要得意忘形呀,还是老老实实从学科的基本原理来回答,只有这样你才能得分。

高考的效度要求高考试题是有效和正确的,考查的是考纲规定的内容。你想想牵动着百万考生、千万家庭、亿万人员,如果哪位命题大人在命题中出了错误或者超出了考试要求,会怎么样呢?哪他可就大了,他将成为千夫所指,这样的事情是每一位命题人都不会干的。鉴于此,我们的复习一定要紧紧盯住考试纲要,对考试纲要要求的内容理解、记牢,让它扎根心田;对于违背考试纲要或超出纲要要求的内容,则不要理睬;一些脑筋急转弯、文字游戏类的问题就让它见鬼去吧。

高考试题要有难度,这个难度有多大,平时复习需要用什么样的态度去对待不同难度的试题呢?高考试题的难度与参加考试人数和当年高等学校的录取人数是密切关联的。比如山东省高考报名人数是70多万,实际录取人数接近40万,高考试题的难度定位应该是有利于把这40万考生选拔出来,因此,试题的难度系数应在0.6左右。这意味着什么?意味着将有60%左右的考生通过高考被定位在基础较好、能力较强、具有学习潜能;而90年代只有10%左右的考生能够进入高校相比,那时10%左右的考生通过高考被定位在基础较好、能力较强、具有学习潜能。这不是说现在学生中优秀的比例提高了,而是高考试题的难度变了,高考试题的侧重点变了。变成什么样了呢?变成60%的试题是基础题目了。你只有能把基础概念、基本原理、基本事实掌握了你就至少能拿到60%的分,你就进入了优秀基础较好、能力较强、具有学习潜能的考生的行列。高三复习,特别是一轮复习的重点和目标就确定了——基本概念、基本生物事实、基本生物学原理、基本生物学方法、基本生物学思想。记住了,抓基础,把60%先抓在手中。

高考是选拔性考试,高考试题一定要有区分度,以利于不同层次学校对人才的选拔。因此高考还要有中档题和难度较大的题目,根据考生人数和录取人数的比例,这两类题目所占的比例将在40%左右。要想在这部分试题中得高分也不难,需要在平时复习时注意在做题目的同时总结方法,逐步建立起科学的思维方法和熟练试题的解题技巧。前60%是进入高校的保证,后40%则是进入较好大学所必需的,谁不想上大学,谁不想上好大学,因此这部分试题往往成了香饽饽。这部分确实很重要,但要有前面的60%作基础,切不可逐末舍根。