知识域的理解可以是有限问题(知识点)的集合Q ={q1,q2,q3,q4}
试题之间的前提关系如右图所示:q1是q3的前提,q2是q3的前提,q3是q4的前提
知识空间:所有Q的子集
知识状态:问题之间的关系
知识结构:知识状态的集合,以右图q1、q2、q3、q4为例,单独的{q3}并不是一个知识状态,因为有q1、q2前驱,只有加上前驱,才能构成知识状态,最终知识状态的集合形成知识结构(Q,K)={
{∅},{q1},{q2},{q1,q2},{q1,q3},{q2,q3},{q1,q2,q3},{q2,q3,q4},{q1,q3,q4},{q1,q2,q3,q4}}
目标
:已知知识域(题库)和知识结构,通过测试题序列确定被测者的知识状态
起始
:被测者初始的知识状态为空,或者根据以前的做题历史得到初始知识状态
选题策略
:通过计算知识状态的邻居以及边界,从边界中选择一道之前未测过的题作为下一道测试题
终止策略
:边界中不存在以前未测过的试题,则终止
补充:知识状态k的
邻居N(k)
:k’∈N(k) 当且仅当d(k,k’)=1, 其中d定义为集合对称差知识状态k’的集合,k’需满足k’和k只相差一个题目
知识状态k的
边界F(k)
: F(k) =∪N(k)\∩N(k) 邻居的并集去掉邻居的交集
下面还以图q1,q2,q3,q4为例
已知:知识领域Q={q1,q2,q3,q4},知识结构(Q,K)={
{∅},{q1},{q2},{q1,q2},{q1,q3},
{q2,q3},{q1,q2,q3},{q2,q3,q4},{q1,q3,q4},{q1,q2,q3,q4}},
被测者初始知识状态为∅
选择下一题
:找到被测者当前知识状态∅的邻居,d(∅, {q1}) =1, d(∅, {q2}) =1, N(∅)={
{q1},{q2}} , ∪N(∅)={
{ ={q1,q2},∩N(∅)= ∅, 计算当前知识状态∅的边界F(∅)= ∪N(∅)\∩N(∅)={q1,q2}。从边界中选择题q1,或者q2。假设选择q2
根据下一题的作答情况
更新被测者知识状态
,假设q2答对,则知识状态变为{q2},否则仍然是∅
继续
下一题的选择
:假设当前的知识状态为{q2},依据上述的方法计算得到其边界为{q1,q2,q3},q1两次出现,所以其区分度高,作为下一道题
以此类推,如下图可以看出,测试从易往难,能力较弱者,测试提前结束,测试序列较短,能力较强者,测试序列较长,最后获得学生的知识状态。
那么获得学生的知识状态,如何得到学生掌握的技能情况?
下面就来诊断学生的技能掌握情况
基本概念
-
技能集合S
-
技能函数𝛄:γ(k)表示解决试题集合k所需要的最小技能集合
-
问题函数𝛅:δ(t)表示需要技能t进行求解的试题集合
-
技能状态函数𝛈:η(t)表示技能t可能解决的知识状态的集合
技能状态函数𝛈计算过程:
-
由教师或领域专家建立问题函数δ(t)
-
从知识结构中找出δ(t)的超集
-
这些超集的集合就是函数η(t)的值。
技能函数γ(k)计算过程:
-
V= ∅
-
获取所有技能的技能状态函数值
-
遍历这些技能函数的值域,若k∈η(t),那么V= V∪{t}
-
γ(k) =V
下面就来举个例子
例:上述例子中假设得到被测者的知识状态为{q2,q3}
已知:技能集合S={x,y,z}
问题函数: δ(x)={
{q1},{q4}}, δ(y)={
{q2}},δ(z)={
{q2},{q3}}
根据问题函数,找出 δ(x)、δ(y)、δ(z)超集即可
技能状态函数:
η(x)={
{q1},{q4},{q1,q2},{q2,q4},{q1,q3},{q2,q3,q4},{q1,q3,q4},{q1,q2,q3,q4}}
η(y)={({q2} ,{q1,q2} ,{q2,q3},{q2,q3,q4},{q1,q2,q3,q4} )}
η(z)={
{q2},{q1,q2}, {q1,q3}, {q2,q3}, {q2,q3,q4},{q1,q3,q4},{q1,q2,q3,q4}}
下面就来计算技能函数
在η(x)、η(y)、η(z)中找到符合知识状态{q2,q3}的,取并集
最终得到技能函数γ({q2,q3})={y,z}
选择的问题X* 被提供给学生,并获得他/她的答案。该答案将变量X 的状态从未观察状态更改为观察状态x *。接下来,将问题及其答案插入证据向量e。我们用更新的证据e更新技能变量的概率分布P(Si | e)。我们还重新计算了熵H(e)的值。还将问题X *从Xs中删除,从而形成下一步s的一组未观察变量Xs + 1,并且可以重复选择过程。
下图是将整个过程进行简化
选题的标准:信息增益
可以看到这个y是没有观察到的,是可能作为下一题,我们现在计算这个时候的熵值
然后上面这个差值,就是信息增益。
最后在每一步选择能给他最大期望信息增益的问题
停止规则:当熵低于预先设定的阈值时,测试结束
目前主流的CAT的选题策略如下图所示,主要是认知诊断模型+选题策略,从IRT模型到MIRT,由一维的拓展到多维的,还有贝叶斯网络等模型
我相信自适应测评(CAT)技术会发展的越来越成熟,也会应用到各个学习场景中,同时,我也会在这个方向上继续学习研究,迎接新挑战,进行新突破!
考试发展的新方向:
计算机化
自适应
性考试(1998文)主持“托福”考试和GRE考试的美国教育
测验
服务中心(ETS)已经宣布,将在1998年7月在全世界大部分地区用
计算机化
自适应
性的“托福”考试取代现行的纸笔考试,并在2001年在全球完全取消纸笔“托福”考试。ETS已于1993年推出了
计算机化
的GRE考试,于1994年推出了
自适应
性的GRE考试。今天,ETS已经在美国本土取消了纸笔的GRE考试。负责承...
原标题:PISA2018阅读素养
计算机化
自适应
测试的技术与方法探析 摘要:PISA2018阅读素养的
计算机化
自适应
测试采用核心阶段、阶段1和阶段2的3阶段
自适应
测试,题库设定有245道题目,组成45个测试单元,并将其组合成若干题组,用于不同阶段的测试。在路径设计上,为避免位置效应问题,除核心阶段→阶段1→阶段2的标准路径之外,还采用核心阶段→阶段2→阶段1的替代路径。PISA2018阅读素养
计算机
...
CAT
–
计算机
自适应
测评
主要目标:创建更短的测试,因此它在不牺牲可靠性的情况下花费更少的时间。
测试过程:模型是在以往学生样本的基础上构建的。在测试过程中,模型会进行更新,以反映正在测试的某个特定学生的能力。我们使用该模型
自适应
地选择下一个要问的问题,以便提出最合适的问题。
Data Collection
设计方案:一份针对文法学校学生数学知识的纸质测试,内容主
此外,计算能够增加测试分析题目得分的准确度用
cat
,来代替给每一个被试者固定的测试题,在
cat
中,每个人能力评估的变化后,给出每个新的回答和在随后在新的最价的评估中每个题目给出最佳。这个
cat
的想法当然不是现在有的,在这个1905年的西蒙,题目的
分类
是通过精神年纪,该
分类
用于题目的选择,根据男人被试的回答早期的题目,直到符合年龄,能被足够准确的识别,实际,这个
cat
的想法像口语考试的事件一样老,任何敏感的口语考官知道怎么讲出他的问题,他或者她影响,这口语检查官的年纪判断。
Aritra Ghosh and Andrew Lan University of Massachusetts Amherst
这篇文章是2021年在IJCAI会议上被录用的
Abstract
计算机
自适应
测试 (
CAT
) 是指一种针对每个学生/考生进行个性化的测试形式。
CAT
方法根据每个学生对之前问题的回答,
自适应
地为每个学生选择下一个信息量最大的问题/项目,有效地缩短了测试时间。现有的
CAT
方法使用项目反应理论 (IRT) 模型将学生的能力与他们对问题的反应联系起来,以及旨在尽快减少能力估计误差的
CD-
CAT
常用认知诊断模型
规则
空间模型
测验
项目可以用特定的认知属性来刻画,而个体的某种认知结构,可用一组通常无法直接观察的认知属性掌握模式来表征。同时,这种不可观察的认知属性掌握模式,又能用恰当的可观察的项目反应模式来表征不可观察的认知属性。----Q矩阵的理论提出
项目与属性间的关系(题目和知识点之间的关系)
该理论主要是要确定
测验
项目所测的不可观察的认知属性,并把它转化为可观察的项目反应模式。首先,要建立项目与所测认知属性的关系:若项目
测验
了某属性用“1”表示,未
测验
某属
本发明涉及一种检测方法,特别是涉及一种
计算机
自适应
测验
方法。背景技术::当前最普遍的
自适应
测验
方法是最大信息法、a分层法、影子题库等等。最大信息法即根据被试作答结果计算出来的特质值,计算题库里每一道试题的信息函数值,然后选择信息函数值最大的试题。a分层法是一种克服最大信息法抽不到低区分度试题的算法,a分层法依据试题的区分度对试题进行分层,然后对每一层或每几层进行最大信息法或难度值与特质值的最小绝对...
1.软件系统经过单元、集成、系统测试,分别达到单元、集成、系统测试停止标准。
2.软件系统通过验收测试,并已得出验收测试结论。
3.软件项目需暂停以进行调整时,测试应随之暂停,并备份暂停点数据。
4.软件项目在其开发生命周期内出现重大估算,进度偏差,需暂停或终止时,测试应随之暂停或终止,并备份暂停或终止点数据。
二. 单元测试停止标准
1.单元测试用例设计已经通过评审
2.按照单元测试计划完成了所有规定单元的测试
3.达到了测试计划中关于单元测试所规定的覆盖率的要求
4.被测试的单元
每位参加CISSP
CAT
考试的考生均会由一个远低于及格标准的考题开始。在考生对某道题作答之后,评分算法会根据所有题目的难度和作答情况重新估算考生的能力。每多作答一道题,
计算机
对考生能力就会估算更加精确——与传统的线性考试相比,它能更有效、尽可能多地收集有关考生真实能力水平的信息。这种更精确的评估使我们能够将最
长
考试时间从6小时缩短到4小时,并将准确评估考生能力所需的题目从线性、固定形式考试的250道减少到CISSP
CAT
考试中的125道。两种考试版本的考试大纲和及格标准完全相同。无论采用何种考试形式,都
6.在概化理论中,公式 (其中 ) 为测量目标效应方差,为绝对误差方差)表示的是(B )A.G系数 B.Φ系数 C.CV系数 D.W系数7.在项目反应理论三参数logistic模型 .数学表达式中,表示项目区分度参数的符号是(B )A. a B. b C. c D. d8.概化理论采用方差分析法分节测量数据的总体方差,通常把数据总方差分解为(ABC) A目标主效应方差 B测量侧面效应方差C各种交互...