计算机自适应测验简介
近年来市场上对于认知能力的测评有新的模式或者玩法,叫计算机自适应测验(computer adaptive testing,CAT)。特别是北森的强大市场宣传能力,将旗下的CATA进行了有效的宣传。但是纵观国内外的人才测评企业,北森并不是第一家做CAT的。SHL在很久之前就开始做CAT了,猎聘才测旗下也有一款认知测验产品是CAT模式。前两年智鼎优源也筹备做CAT。
CAT原用于教育测评领域,比如我们熟知的TOFEL和GRE就是CAT模式。国内学术界做CAT从80年代开始也有近30年的时间了。在应用领域,对人才的评价用CAT模式也不是新鲜事物,只是没有用于市场当中。例如我国的征兵心理测验系统当中,就有CAT技术。还有某些公务员系统内部的胜任力情景判断测验也有用到该技术。
CAT到底有什么吸引力?本文简单的对CAT做一个科普介绍。
1.计算机自适应测验的基本介绍
因为认知测验是最高行为测验,所以就有最高分和最低分的区分,题目也就有了难易度的区分。如果我们根据被试者的能力水平,出相对应难度的题目是不是就可以更为精准,也可以不用出那些与他们能力相差较大的题目。比如对于一个低能力水平的被试者,出高难度的题目纯粹就是浪费。 这就是CAT的基本逻辑。
但是这里面有技术问题,就是传统测验理论,被试者的能力基准是原始分,题目难度是被试者群体的答对率。如果换一批人,算出来的难度值可能就不同。所以就需要新型测验理论的支持,本文重点不讲述这里的技术问题,大家只需要知道用了一种测验理论叫项目反应理论(item response theory,IRT)即可,感兴趣者可看相应的专业书籍。
在IRT理论下,考生的能力值和题目的难度值可以通过一个公式建立关系,则就可以实现根据考生能力去自动挑选不同难度的题。这只是宏观逻辑上得到解决。
那要自动挑选题,是不是需要一个庞大的题库。那题库建设就是一个技术性的问题,题库不是题堆或者题集,而是需要进行试测,用IRT的模型计算题目参数的题库。
所以,可以总结说,计算机自适应测验是建立在项目反应理论(IRT)基础上, 用项目反应理论建立题库 , 由计算机根据被试能力水平自动选择测题,从而对被试能力做出估计的新型测验 。其目的在于通过被试正确回答题目难度的高低来评价其能力。
计算机自适应测验能根据被试对试题的不同回答,自动地从大型题库中调用难度跟被试相适应、测量性能优良的试题来施测,最终达到对被试能力做出最恰当的估计。因此,计算机自适应测验是主动适应被试水平,灵活的因人测验。
2.计算机自适应测验的优势
- 适当减少考生作答试题的题量(高效性): 依据考生不同能力水平来挑选不同的试题,高能力考生无须回答过多的简单题,低能力考生也无须回答太多难题,通过较少题目就能对考生的能力水平做出有效的测量。相关研究表明它甚至能够以一半的测验长度达到与纸笔测验同样的测量信度和效度。
- 有效提高测量的精度: 传统纸笔测验中,事实上难度不同的试题对能力不同的被试者而言,其估计误差是不同的。CAT能因人而异地选题,题目针对性强,选择与考生能力匹配的题目,较精确地估计被试的能力。
- 有利于提高考试的安全性: 题库的试题管理由计算机控制,测验时根据被试者的能力动态选择相应试题的,所以很难提前窍取试题,也很难在考试过程中相互抄袭。 这点是CAT受很多用户欢迎的原因之一。
- 不必统一规定测验举行的时间,考试部门一年可以组织多次测验: 考生可根据自己的情况选择其中的一次或多次测验,这是因为计算机自适应测验是因人而异的,不必因害怕泄露试题而规定统一的测验时间。
3.CAT建设的前提——有一个庞大的题库
只有一个庞大的有题目质量参数的题库才有可能在题库中抽取不同难度的题目去因人施测。 没有题目质量参数的题库充其量只能称为“题堆”,无法作为计算机自适应测验的题库。因人而异,讲究的是选择与人的能力相匹配的题目(适当的题目难度的题目),能较准确(较少误差)的估计考生能力。而难度的获得需要进行预测,选择与正式施测考生水平分布相当的样本进行预测,估计题目难度。
题库的题量要足够多,不可能让考生完全做完所有的题目,因此只能分批次的让部分考生作答部分的题目,那么根据传统心理测量理论计算的难度值——通过率就存在较大问题。 不同考生群体的能力水平不同,同一批题目给不同水平的考生群体作答,计算的难度值就不同。因此题库中的题目难度值就不具有唯一性,实践应用上就存在较大问题。
但是基于IRT理论估计的题目难度值与考生建立在统一量尺上,并且可以通过等值技术将不同群体计算出来的难度值转换到统一量尺上,这样题库中的难度值才具有唯一性。基于IRT理论构建的题库才是可用于计算机自适应测验的题库。 (IRT理论基础上的等值等技术是必不可少的技术,这里不详细展开)
4.CAT施测的步骤和逻辑
建立好题库之后,有计算机平台就可以进行施测了。
被试者登录之后,系统并不知道他的能力值,那前期需要几道题去探测一下他的能力。
知道被试者能力之后,然后在题库中进行选题,是不是选择与被试能力相适应难度的题目就行呢?这里选题可能需要考虑到题库安全性、题库曝光率等因素,可能不止一种策略(不详细展开说)。采用一种可行的选题策略后,让考生开始作答,这个过程反复进行,直到考生能力水平的精度值达到一定标准为止就结束测验。
笔者曾经被人问过不止一次这样的问题:“如果被试者作答时表现出来能力忽高忽低的情况,最后估计能力值会有影响吗?”这样的问题。
笔者的回答是:每个人的能力水平总有一个最高阈限值(稳定值),超过阈限值才会表现的不稳定,因为掌握的不够精确,会有猜测的成分所在,猜中了就答对了,估计能力就高,猜错了答错了,估计能力就低。但是不断的做题过程中总会稳定到一个水平。如果真的有一个人一直忽高忽低,那就不是认知能力的问题了,可能是其他方面的问题。
这里面涉及的重点技术: 初始考生能力的估计、选题策略、考生能力估计方法、终止规则、涉及到保护题库安全的技术(题目曝光、使用率等)
以上是对CAT情况的简单描述。