最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 正文

考试成绩评价的区分度、信度、效度等概念

来源:动视网 责编:小OO 时间:2025-10-01 19:31:47
文档

考试成绩评价的区分度、信度、效度等概念

目录考试成绩评价的区分度、信度、效度等概念1高一化学备课组2009.3.2考试成绩评价的区分度、信度、效度等概念1、试卷的区分度试卷的区分度指测试题目对被测试者实际水平的区分能力。区分度高的试题,能将不同水平的被试者区分开来;区分度低的试题则对被试者水平不能很好地鉴别。区分度是指试题对被试者情况的分辨能力的大小。一般在-1~+1之间,值越大区分度越好。试题的区分度在0.4以上表明此题的区分度很好,0.3~0.39表明此题的区分度较好,0.2~0.29表明此题的区分度不太好需修改,0.19以
推荐度:
导读目录考试成绩评价的区分度、信度、效度等概念1高一化学备课组2009.3.2考试成绩评价的区分度、信度、效度等概念1、试卷的区分度试卷的区分度指测试题目对被测试者实际水平的区分能力。区分度高的试题,能将不同水平的被试者区分开来;区分度低的试题则对被试者水平不能很好地鉴别。区分度是指试题对被试者情况的分辨能力的大小。一般在-1~+1之间,值越大区分度越好。试题的区分度在0.4以上表明此题的区分度很好,0.3~0.39表明此题的区分度较好,0.2~0.29表明此题的区分度不太好需修改,0.19以
目  录

考试成绩评价的区分度、信度、效度等概念    1

高一化学备课组    2009.3.26    4

考试成绩评价的区分度、信度、效度等概念

 1、试卷的区分度

        试卷的区分度指测试题目对被测试者实际水平的区分能力。区分度高的试题,能将不同水平的被试者区分开来;区分度低的试题则对被试者水平不能很好地鉴别。

区分度是指试题对被试者情况的分辨能力的大小。一般在 -1~+1之间,值越大区分度越好。试题的区分度在0.4以上表明此题的区分度很好,0.3 ~ 0.39表明此题的区分度较好,0.2 ~ 0.29表明此题的区分度不太好需修改,0.19以下表明此题的区分度不好应淘汰。

计算区分度的方法很多,特别需要注意的是对同一个试题的考试成绩采用不同的方法所得到的区分度的值是不同的。

我们可以使用下面的两种方法计算区分度:

(1)先将分数排序,P1=27﹪高分组的难度 ,P2= 27﹪低分组的难度

区分度D =P1- P2

或区分度 D = (27﹪高分组的平均分- 27﹪低分组的平均分)?/font>满分值

(2)利用积差系数r 计算区分度D

当两个变量都是正态连续变量,而且两者之间呈线性关系,表示这两个变量之间的相关成为积差相关。

积差相关的使用条件

a、两个变量都是由测量获得的连续性数据。如百分制分数。

b、两个变量的总体都呈正态分布,或接近正态分布,至少是单峰对称的分布。

c、必须是成对的数据,而且每对数据之间是相互的。

d 、两个变量之间呈线性关系。

积差相关系数r的计算在计算机上是很容易进行的。积差相关系数r的公式如下:

r=(无法显示)原谅!

2、试卷的信度

        试卷的信度主要从两个方面进行分析,一方面是考试成绩期望值与实际成绩平均值的差异,考试成绩期望值一般应以平时成绩的平均值为依据确定.另一方面是考试成绩的预期及格率与实际及格率的差异,考试成绩及格率的预期值同样以平时成绩的及格率为确定依据.两个方面的差异性较小,说明试卷信度较高.

考试信度,简单地说是考试结果的可信程度,是推测考试可信与否的最重要的量化指标。任何考试结果都会因考试误差的客观存在而受到或多或少的影响,这种误差到底有多大,可用考试信度来刻画。

    考试信度越高,说明考试分数的误差越小,考试成绩越能代表学生个体的真实水平。譬如:信度为0.8的考试就意味着,学生群体的成绩波动有80% 由真实水平的差异性引起,另外20%则由各种误差引起。一般认为,标准化考试的信度系数应该在0.9以上。据研究,托福考试的信度在0.95 以上,HSK 考试(中国汉语水平考试)的信度一般都在0.98左右,大学英语四、六级考试客观题的信度达到0.9 以上。

    考试信度越高,说明考试分数的误差越小,考试成绩越能代表学生个体的真实水平。譬如:信度为0.8的考试就意味着,学生群体的成绩波动有80% 由真实水平的差异性引起,另外20%则由各种误差引起。一般认为,标准化考试的信度系数应该在0.9以上。据研究,托福考试的信度在0.95 以上,HSK 考试(中国汉语水平考试)的信度一般都在0.98左右,大学英语四、六级考试客观题的信度达到0.9 以上。

3、试卷的效度

试卷的效度主要从内容效度和结构效度两方面进行分析.内容效度Z1表示,是试题所含知识点数与教学大纲中应试内容知识点数之比;结构效度用Z2表示,是指试题考核学生的记忆,分析和运用的各种方法以及各方面解决问题的能力点数与应试包含的各方面广泛与能力点数之比.比例较高则说明效度较高.根据当前情况,对于试卷效度的分析主要从内容效度进行分析,鼓励同时进行结构效度的分析.

高考试题的效度 信度 (区分度 难度)什么意思?

高考的性质最主要的在两个方面:一、高考是一种选拔性考试,高考成绩是高等学校录取新生的依据,这是高考的选拔性质。二、高考是一种导向性考试,高考是中学教学的指挥棒,起着对中学教学的引导作用,这是高考的引导性质。高考性质的这两方面决定了高考试题应有的信度、效度、难度和区分度,而这些是我们进行高考生物复习首先要清楚的,能够避免我们在复习时的盲目。

下面我先简单地介绍一下信度、效度、难度和区分度四个概念:

信度是指使用同一试卷对考生重复测验时,或两个平行试卷对考生测验时,所得测验分数的一致性和稳定性程度。

效度是指考试有效性或正确性的质量指标,考试效度的高低反映着考试是否达到它的预定目的,是否考了要考的内容。

难度指试卷(题)的难易程度。一般用试卷(题)的得分率或答对率表示,所以难度事实上是容易度或通过率。其值在0~1之间,数值越大,说明试卷(题)越容易。

区分度是指试题对不同考生的知识、能力水平的鉴别程度。如果一个题目的测试结果使水平高的考生答对(得高分),而水平较低的考生答错(得低分),它的区分能力就很强。题目的区分度反映了试题这种区分能力的高低。一般认为,区分度的数值达到了0.3,便可以接受;低于0.3的题目,区分能力差。

高考的性质决定了高考试题首先要保证信度,缺少信度或信度较低都无法向几百万考生交代,无法向考生家长交代,无法向社会交代。从这一角度看高考试题所考查的一定是确定性和稳定性的内容,对于现在还没有被确定的内容或者说有争议内容是不能作为高考命题依据的。你知道了吗?复习时,可不要让这样的问题浪费你的精力呀!同时要注意,有些题目看起来让你回答的是假设和猜想,你可不要忘记高考试题的确定性,不要得意忘形呀,还是老老实实从生物学的基本原理来回答,只有这样你才能得分。OK!

高考的效度要求高考试题是有效和正确的,考查的是考纲规定的内容。你想想牵动着百万考生、千万家庭、亿万人员,如果哪位命题大人在命题中出了错误或者超出了考试要求,会怎么样呢?哪他可就大了,他将成为千夫所指,这样的事情是每一位命题人都不会干的。鉴于此,我们的复习一定要紧紧盯住考试纲要,对考试纲要要求的内容理解、记牢,让它扎根心田;对于违背考试纲要或超出纲要要求的内容,则不要理睬;一些脑筋急转弯、文字游戏类的问题就让它见鬼去吧。

高考试题要有难度,这个难度有多大,平时复习需要用什么样的态度去对待不同难度的试题呢?高考试题的难度与参加考试人数和当年高等学校的录取人数是密切关联的。去年山东省高考报名人数是70多万,实际录取人数接近40万,高考试题的难度定位应该是有利于把这40万考生选拔出来,因此,试题的难度系数应在0.6左右。这意味着什么?意味着将有60%左右的考生通过高考被定位在基础较好、能力较强、具有学习潜能;而90年代只有10%左右的考生能够进入高校相比,那时10%左右的考生通过高考被定位在基础较好、能力较强、具有学习潜能。这不是说现在学生中优秀的比例提高了,而是高考试题的难度变了,高考试题的侧重点变了。变成什么样了呢?变成60%的试题是基础题目了。你只有能把基础概念、基本原理、基本事实掌握了你就至少能拿到60%的分,你就进入了优秀基础较好、能力较强、具有学习潜能的考生的行列。高三复习,特别是一轮复习的重点和目标就确定了——基本概念、基本生物事实、基本生物学原理、基本生物学方法、基本生物学思想。记住了,抓基础,把60%先抓在手中。

高考是选拔性考试,高考试题一定要有区分度,以利于不同层次学校对人才的选拔。因此高考还要有中档题和难度较大的题目,根据考生人数和录取人数的比例,这两类题目所占的比例将在40%左右。对于生物学科讲,这部分试题的难度主要体现在生物科学思想和生物知识的运用,以及生物试题的解题技巧上。要想在这部分试题中得高分也不难,需要在平时复习时注意在做题目的同时总结方法,逐步建立起生物科学的思维方法和熟练生物学试题的解题技巧。前60%是进入高校的保证,后40%则是进入较好大学所必需的,谁不想上大学,谁不想上好大学,因此这部分试题往往成了香饽饽,为此,今后每期我们都专门开设专门栏目进行辅导,设计专门的创新题供大家热身。这部分确实很重要,但要有前面的60%作基础,切不可逐末舍根呀。

高一化学备课组    2009.3.26  

什么是试题难度系数?考试难度系数如何计算?

难度系数反映试题的难易程度,即考生在一个试题或一份试卷中的失分程度。如满分  

150分的试题,考生平均得分108分,平均失分42分,则难度系数为42/150=0.28。难度  

系数的计算公式为:  

L=1—X/W  

其中,L为难度系数,X为样本平均得分,W为试卷总分(一般为100分或150分)。  

什么是试题区分度?试卷区分度计算公式是什么?

试卷区分度反映试题区分不同水平受试者的程度,即考出学生的不同水平,把优秀、  

一般、差三个层次的学生真正分别开。区分度高的考试,优秀、一般、差三个层次的学生都  

有一定比例,如果某一分数区间学生相对集中,高分太多或不及格太多的考试,区分度则低  

如果把成绩从高往低排序,前50%的考生为高分组,后50%为低分组,其计算公式为:

D=2(XH—XL)/W  

其中,D为区分度,XH为高分组平均分,XL为低分组平均分,W为试卷总分(一般  

为100分或150分)。

从以上公式可以看出试题难度系数和区分度并没有直接联系,因为前者是反映样本总  

体的一个参数,后者是反映样本2个部分的参数。  

测试的命题质量如何,否对考生的知识程度和能力进行有效的测量,除了上面介绍的试题难度和区分度知识外,还需要对试卷做整体分析,试卷整体分析的指标主要是信度和效度。  

测试信度也叫测试的可靠性,指的是测试结果是否稳定可靠。也就是说,测试的成绩是不是反映了受试者的实际语言水平。例如,如果同一套测试在对同一测试对象进行的数次测试中,受试者的分数忽高忽低的话,则说明该测试缺乏信度。测试的信度与测试的效度有着密切的关系。一般说来,只有信度较高的测试才能有较高的效度,但效度较高不能保证信度也一定较高。测试的信度主要涉及到试题本身的可靠性和评分的可靠性这两个方面。试题本身是否可靠主要取决于试题的范围、数量、试题的区分度等因素;评分是否可靠则要看评分标准是否客观和准确。 

     测试的信度通常用一种相关系数(即两个数之间的比例关系)来表示,相关系数越大,信度则越高。当系数为1.00时,说明测试的可靠性达到最高程度;而系数是0.00时,则测试的可靠性降到最低程度。在一般情况下,系数不会高到1.00,也不会降到0.00,而是在两者之间。对信度指数的要求因测试类别的不同而不同,人们通常对标准化测试的信度系数要求在0.90以上,例如“托福”的信度大致为0.95,而课堂测试的信度系数则以0.70-0.80之间为可接受性系数。测试信度的计算方法有很多种,以下仅介绍三种易于操作的方法:  

1) 重测法。用同一套试卷在两个不同时间内来测试同一批受试者,这样便获得两组分数,然后计算出两组分数的相关系数。当然,在两次测试中,学生第二次的测试成绩理应比第一次的要高,因为在第二次测试时学生已经有了进步而且临场经验也更丰富了。但是若该试题是比较可靠的,每个学生在两次测试中的排名次序应该是基本不变的。   

2)交替形式法。对同一批受试者使用试题类型完全相同,难易程度相当,但具体题目不同的两套对等试卷先后进行两次测试,然后计算出两次得分的相关系数。   

3)对半法。测试只进行一次,但将整份试卷的题目按单、双数分成两组来分别计分,算出两组分数的相关系数,然后再用Spearman-Brown的公式计算整份试卷的信度系数。具体计算步骤是:将两组分数的相关系数乘以2,再除以1加两组分数的相关系数。

测试效度亦称测试的有效性,指一套测试对应该测试的内容所测的程度。也就是说,  

一套测试是否达到了它预定的目的以及是否测量了它要测量的内容。例如用听写来测量学生的听觉能力,其效度是不理想的,因为书面记录有声语言不仅涉及学生的听觉能力,而且还与他们的书写速度、拼写能力、语法知识、记忆能力和对全文的理解能力等有关。

测试的效度一般可分为以下几类:

1)表面效度。指测试应达到的卷面标准,即一套测试题从表面看来是否是合适的。例如,  

若一次阅读理解力的测试包括许多受试者没有学过的方言词汇,则可认为这次测试缺乏  

表面效度。表面效度是测试出受试者正常水平的一种保证因素。

2)内容效度。指一套测试题是否测试了应该测试的内容或者说所测试的内容是否反映了测  

试的要求,即测试的代表性和覆盖面的程度。例如,如果某一套发音技能测试题仅仅考  

查发音所必须具备的某些技能,如只考单一音素的发音,而不考查重读、语调或音素在  

词语中的发音,那么,该测试的内容效度就很低。

3)编制效度。指一套测试题的诸项目对编制该测试所依据的理论的各个基本方面的反映程  

度。例如,以结构主义语言理论为基础,认为系统的语言习惯是通过句型而获得的,那  

么,强调词汇和语法环境的测试题目就失去了编制效度。

4)经验效度。经验效度是一种衡量测试有效性的量度,通过把一次测试与一个或多个标准  

尺度相对照而得出。经验效度可分为两种:一是共时效度,即将一次测试的结果同另一  

次时间相近的有效测试的结果相比较,或同教师的鉴定相比较而得出的系数;二是预测  

效度,即将一次测试的结果同后来的语言能力相比较,或是同教师后来对学生的鉴定相  

比较而得出的系数。

一般来说,对某次测试的效度进行检验时,除了要根据教学大纲的要求和观念有效性  

的理论对试卷的内容进行考查以外,还须采用计算相关系数的定量方法,即计算出本次  

试卷与另一份已被确定能正确反映受试者水平的试卷之间的相关系数。系数高则有效性  

大。课堂测试的效度应在0.4-0.7之间,规模较大的测试其效度应在0.7以上。  

信度与效度的关系:  

1.信度低,效度不可能高。因为如果测量的数据不准确,也并不能有效地说明所研究的对象

2.信度高,效度未必高。例如,如果我们准确地测量出某人的经济收入,也未必能够说明他的消费水平。

3.效度低,信度很可能高。例如,即是一项研究未能说明社会流动的原因,但它很有可能很精确很可靠地调查各个时期各种类型的人的流动数量。

4.效度高,信度也必然高。 

引用 试卷分析的四个度:难度、区分度、信度、效度

 一、难度

 难度是指试题的难易程度,它是衡量试题质量的一个重要指标参数,它和区分度共同影响并决定试卷的鉴别性。

 一般认为,试题的难度指数在0.3-0.7之间比较合适,整份试卷的平均难度最好在0.5左右,高于0.7和低于0.3的试题不能太多。

 1、难度的两种定义:

(1)P=1—x/w    x为某题得分的平均分数,w为该题的满分。这种定义法,难度值小时表明试题容易,值大时表明试题难,最小值为0,最大值为1。

(2)P=x/w    这种定义法,难度值小时表明试题难,值大时表明试题容易,最小值为0,最大值为1。

2、难度的计算:

(1)主观性试题的难度

 A   基本公式法:P=1—x/w

 B 极端分组法 P=1—(XH+XL)∕2W    XH :高分组的平均得分(前27%),XL:低分组的平均得分(后27%)。

(2)客观性试题的难度

A  基本公式法 :P=1—R/N      R 为答对人数,N 为全体人数。

B  极端分组法: P=1—(PH+PL)∕2  

 PH=RH/n 叫高分组通过率,RH:高分组答对人数,n:总人数的前27%。PL=RL/n 叫低分组通过率,RL:低分组答对人数。

二、区分度

 区分度是区分应试者能力水平高低的指标。试题区分度高,可以拉开不同水平应试者分数的距离,使高水平者得高分,低水平者得低分,而区分度低则反映不出不同应试者的水平差异。

 试题的区分度与试题的难度直接相关,通常来说,中等难度的试题区分度较大。另外,试题的区分度也与应试者的水平密切相关,试题难度只有等于或略低于应试者的实际能力,其区分性能才能充分显现出来。

   区分度指标的评价: -1.00≤D≤+1.00,区分度指数越高,试题的区分度就越强。一般认为,区分度指数高于0.3,试题便可以被接受。

 2、 区分度的计算方法:

 基本公式法 :D=(H-L)÷N(D代表区分度指数,H代表高分组答对题的人数,L代表低分组答对题的人数,N代表一个组的人数即高分组与低分组人数之和)。

 极端分组法:

(1)主观性试题:D=SH—SL∕n(WH-WL)

 SH:高分组得分总数,SL:低分组得分总数,WH:该题的最高得分,WL:该题的最低得分,n为高分组(或低分组)的人数,即总人数的27%。

(2) 客观性试题:D= PH—PL  ,或D= RH—RL∕n

(3) 一般也可以用D=XH—XL∕X满 计算。XH:高分组某试题的平均分,XL:低分组某试题的平均分,X满:该题的满分。

三、信度

 信度是指测得结果的一致性或稳定性,稳定性越大,意味着测评结果越可靠。相反,如果用某套试题对同一应试者先后进行两次测试,结果第一次得80分,第二次得50分,结果的可靠性就值得怀疑了。

 信度通常以两次测评结果的相关系数来表示。相关系数为1,表明测评工具如试卷完全可靠;相关系数为0,则表明该试卷完全不可靠。一般来说,要求信度在0.7以上。

 1、评价信度的方法:

 (1)重测法,(2)复本法—副题,(3)折半法,或者说:用再测信度、复本信度和内部一致信度三种方法来进行评估。

 再测信度是指将同一试卷在相同的条件下对同一组考生先后实施两次,两次测评结果的相关系数。

 复本信度是指用两份或几份在构想、内容、难度、题型和题量等方面都平行的试卷进行测试,测评结果之间的相关系数。

 内部一致信度是指试卷内部各题之间的一致性,通常是将试卷一分为二,然后计算一半试卷与另一半试卷之间的相关系数。

 2、  信度系数  γxx=ST2∕SX2     ST2  叫真分数方差,SX2  为获得分数方差。信度系数的最大值为1,表示测验的可靠性高,最小值为0,表示测验的信度低。当γxx≥0.70时,测验可用于团体间的比较。当γxx≥0.85时,测验可用于个体之间的比较。

四、效度

 效度是一个测试能够测试出它所要测试的东西的程度,即测试结果与测试目标的符合程度.

 任何测试工具,无论其它方面有多好,若效度太低,测试的结果不是它要测试的东西(如用英语试卷测试学生的数学能力),那么,对目前所要测试的东西,这个测试将是无价值的。

 由于心理现象本身的特点,测评的效度尤为重要。心理属于精神方面的东西,目前人们还无法直接观察它,只能通过一个人的行为模式或者对测试题目的反应,来推论其心理特质。如智力水于主要是借助于个体对一些问题的反应及正误等结果来推断的。

 效度是一个相对概念,即效度只有高低之分,没有全部有效和全部无效之分。效度从种类上可分为卷面效度、内容效度、构想效度、预测效度和共时效度。

 

 

  试卷质量分析的两个类:试题分析和试卷分析

 一、 试题分析 

对试题(考试)的性质、来源、内容范围、难度等进行概述。

 1、  测验内容的覆盖面如何,

2、  各知识点所占的比例是否恰当,

3、  试题内容的选择是否合理,是否有错题,超纲等题目。

4、  各层次行为目标所占的分数比例是否恰当。如果是自命题,列出试题的双向细目表。如果是非自命题,要对试题分析列出考查知识的细目表,或者是直条图(各部分知识所占比例)。

从效度、信度(考试成绩),难度、区分度(试题)四个角度分析。

    二、  试卷分析

分定量分析和定性分析两部分。

(一)   定量分析:

1、逐题统计分析(可用列表法、或统计图法)

填空题,统计答对率。如:

题号12345总计
 全对人数

半对人数      
答错人数      
平均分     
难度
选择题,按选项统计,如:

题号选项12345
A     
B     
C     
D     
平均分     
难度
计算题,按等级统计。如得零分人数,得满分人数,得部分分的人数,计算出难度和平均分。

 2、  统计学生成绩频率分布情况(次数分布图)。

3、  三率一分,即优秀率、及格率、低分段率及平均分。要注明试卷的总分是多少,最高和最低分是多少。

 (二)  定性分析

1、诊断:指出问题,分析原因。问题应分共性和个性,找出共性问题及原因,教与学两方面都要分析。

2、制定措施:改进、矫正。

文档

考试成绩评价的区分度、信度、效度等概念

目录考试成绩评价的区分度、信度、效度等概念1高一化学备课组2009.3.2考试成绩评价的区分度、信度、效度等概念1、试卷的区分度试卷的区分度指测试题目对被测试者实际水平的区分能力。区分度高的试题,能将不同水平的被试者区分开来;区分度低的试题则对被试者水平不能很好地鉴别。区分度是指试题对被试者情况的分辨能力的大小。一般在-1~+1之间,值越大区分度越好。试题的区分度在0.4以上表明此题的区分度很好,0.3~0.39表明此题的区分度较好,0.2~0.29表明此题的区分度不太好需修改,0.19以
推荐度:
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top