信度效度难度区分度是什么-睿知好学

如果你做过问卷，或者当过老师，那你很可能听过信度、效度、难度、区分度这几个词。听起来都挺专业的，好像很高深。其实拆开来看，讲的都是大白话，而且对我们理解一个考试或者一份调查问-卷到底靠不靠谱，很有用。

先说信度：你的尺子稳不稳？

信度 (Reliability)，说白了就是可靠性和稳定性。

想象一下，你家里有个体重秤。你早上起来站上去，显示60公斤。过了两分钟你觉得不准，又站上去一次，结果显示65公斤。再测一次，变成了58公斤。这体重秤你还敢用吗？肯定不敢。因为它太不稳定了，每次测量的结果都差很多。这就是信度低。

换成考试也一样。假设有个学生，他的真实英语水平能考85分。今天让他做一份试卷，他考了86分。明天再让他做一份难度完全一样、考点也一样的试卷，结果考了60分。后天又来一次，考了95分。这个考试的信度就很值得怀疑了。一个信度高的测试，应该是同一个人在短时间内，能力没有发生变化的情况下，反复去考，分数都应该差不多。

所以，信度不关心你测得准不准，它只关心你测得稳不稳。那个体重秤可能本身就坏了，永远比真实体重轻5公斤，但如果它每次测量都稳定地显示“轻5公斤”的那个数字，那它的信度其实是高的。

在实际操作中，评估信度的方法有好几种：

再测信度：最直接的方法，让同一群人在不同时间做同一份问卷两次，看两次结果的相关性高不高。就像上面说的反复称体重。

分半信度：把一份问卷的题目按奇偶数分成两半，然后看这两半得分的相关性。如果相关性高，说明这份问卷内部的题目问的是同一个东西，一致性好。

信度是所有测量的基础。如果一个工具连稳定都做不到，那它测出来的结果就没有任何意义，完全是随机的。

接着是效度：你的尺子准不准？

效度 (Validity)，讲的是有效性和准确性。它回答的问题是：你的测量工具，到底有没有测到你真正想测的东西？

再回到体重秤的例子。假设那个体重秤信度很高，你连着站上去三次，显示的都是55公斤，非常稳定。但你的真实体重其实是60公斤。那这个体重秤就是“信度高，效度低”。它很稳定，但是不准。它稳定地测错了。

考试也一样。比如，我想办一场物理竞赛，目的是选拔物理天才。结果我出的卷子里全是复杂的数学计算题，物理概念反而没几个。一个数学很好但物理一般的学生可能考了高分，而一个物理概念理解很深但计算能力稍弱的学生可能分数不高。那么这场考试的效度就很低，因为它没能有效地测量出学生的“物理能力”，反而测了一堆数学计算能力。

所以你看，效度是比信度更核心的要求。一个测量首先必须是有效的，否则就算再稳定也没用。我们可以总结一下它们的关系：

信度低，效度一定低。一个不稳定的工具，结果忽高忽低，它不可能准确地测到真实的东西。连稳定都做不到，谈何准确。

信度高，效度不一定高。就像那个总是少5公斤的体重秤，它很稳定，但是不准。

效度高，信度一定高。如果一个工具能准确地测出真实值，那它每次测出来的结果必然是稳定且一致的。

效度也有不同类型，常见的有：

内容效度：指测量内容是不是覆盖了所有该测的方面。比如期末考试的卷子，应该要覆盖这学期教过的所有重要知识点，而不是只考其中某一章。

建构效度：指这个测试是不是真的测量了它声称要测量的那个理论上的概念。比如，一套用来测量“幸福感”的问卷，里面的问题应该真的都和心理学上对幸福感的定义有关，而不是问一些无关的问题。

再聊聊难度：这道题到底有多少人会？

难度 (Difficulty) 这个概念最直观，就是指题目的难易程度。但在专业的评估里，它有一个非常简单的计算公式。最常用的就是通过率。

公式是：P = R / N

P 代表难度值。

R 代表答对这道题的人数。

N 代表参加考试的总人数。

举个例子，一个班有100个人参加考试，第5题有80个人答对了。那这道题的难度P值就是 80 / 100 = 0.8。

这里要注意一个反直觉的地方：P值越大，题目越简单；P值越小，题目越难。

P = 0.9，说明90%的人都做对了，这是道送分题。

P = 0.2，说明只有20%的人做对，这是道难题。

一份好的试卷，不是所有题目都应该是一种难度。它应该包含不同难度的题目，容易题、中档题和难题都要有，形成一个合理的梯度。通常认为，整份卷子的平均难度值P控制在0.5左右比较合适。难度太高（P值太小）或太低（P值太大）的题目占比都不能太多。

最后是区分度：这道题能把高手和小白分开吗？

区分度 (Discrimination) 是衡量一道题目质量的另一个关键指标。它看的是这道题能不能有效地把水平高的学生和水平低的学生分开。

一道具备良好区分度的题目，应该是学习好的学生大部分都能做对，而学习差的学生大部分都做不对。如果一道题，好学生和差学生答对的比例差不多，那这道题的区分度就很低，它没起到筛选的作用。

区分度的计算方法也很直接。

1. 首先，把所有考生的总分从高到低排序。

2. 然后，取出分数最高的27%作为“高分组”，分数最低的27%作为“低分组”。

3. 计算这道题在高分组的通过率（Ph）和在低分组的通过率（Pl）。

4. 区分度指数D的公式是：D = Ph – Pl

举个例子：100人考试，我们取前27名（高分组）和后27名（低分组）。

对于A题，高分组有25人答对（Ph ≈ 0.93），低分组有5人答对（Pl ≈ 0.19）。那么A题的区分度 D = 0.93 – 0.19 = 0.74。这个值非常高，说明这道题很好地分开了学霸和学渣。

对于B题，高分组有15人答对（Ph ≈ 0.56），低分组也有13人答对（Pl ≈ 0.48）。那么B题的区分度 D = 0.56 – 0.48 = 0.08。这个值就非常低，说明这道题对好学生和差学生来说，难度差不多，没分出差别。

甚至还有可能出现一种极端情况，高分组答对的人比低分组还少，D值会是负数。这通常意味着题目本身有问题，比如题干有歧义或者正确答案印错了，导致好学生想多了反而做错。

一般来说，区分度指数（D值）越高越好。通常认为D值在0.4以上就算很好，0.3到0.39算良好，而0.2以下则很差，需要修改或删除。

最后要说的是，难度和区分度是相关的。太难的题（所有人都不会）和太简单的题（所有人都会），区分度一定是零。因为大家都一样，根本分不开。所以，中等难度的题目，通常才具有最高的区分度。这也是为什么一份好的选拔性考试，比如高考，必须要有大量难度适中的题目。

信度效度难度区分度是什么

本站部分图片和内容来自网友上传和分享，版权归原作者所有，如有侵权，请联系删除！若转载，请注明出处：https://www.rzedutec.com/p/64496/

信度效度难度区分度是什么

先说信度：你的尺子稳不稳？

接着是效度：你的尺子准不准？

再聊聊难度：这道题到底有多少人会？

最后是区分度：这道题能把高手和小白分开吗？

相关推荐

发表回复