威武的马克杯 · 万字超详细介绍认知诊断计算机自适应测验(CD ...· 5 小时前 · |
神勇威武的茶壶 · 山东建筑大学举办“就选山东”高校毕业生省级集 ...· 1 月前 · |
闷骚的蛋挞 · 【纪念币面面观】红色的鹰洋“工”字银元_中国 ...· 6 月前 · |
文质彬彬的斑马 · 钠电 update ~ 23.01.14 - 知乎· 1 年前 · |
热心的楼梯 · 澳教授:妖魔化中国学生 ...· 1 年前 · |
慷慨的匕首 · 男子入局“杀猪盘” ...· 1 年前 · |
大家好,我是还在研途中砥砺前行的的小曾,沿途漫漫,我们一起勉励前行。今天主要给大家分享一下目前正在看的认知诊断计算机自适应测验(CD-CAT), 相当于也是关于CD-CAT 的文献综述,希望能帮助大家!
认知诊断测验(CDT)是认知心理学与现代测量学相结合的产物。它对个体的评价不再只是对被试的能力层面的评估,而是对个体内部微观的认知状态(KS)进行诊断,进一步揭示个体内部心理加工过程和各种认知特征(医生通过各种检查而最终确认病人的疾病类型)
项目反应理论(IRT)测量目标是一个连续的变量 ——宏观能力(θ)
认知诊断模型 测量目标是一个离散向量 ——认知状态 (KS)
属性
:认知诊断理论中的重要概念,表示测验项目的特征(知识点)
现状:需要被试宏观能力测量的结果,又需要被试微观认知层面的测量结果。
CD-CAT :将CAT和认知诊断测验这两种现代测量形式结合起来,将传统的CAT自适应化的原理嫁接到被试知识状态估计目标上。
优点:可以更精确、更迅速、更灵活的测量出被试的潜在知识结构。
发展过程:首先一开始都是传统的测量理论指导(CTT)纸笔测验–>微观的项目反应理论纸笔测验
我们将宏观的测量目标改为离散变量,这样就是认知诊断测验,就可以对被试者认知状态(KS)进行诊断。对于项目反应理论指导纸笔测验阶段,进行自适应化,形成计算机自适应测验(CAT),下一步再将测量目标也改为离散变量和认知诊断测验,形成认知诊断计算机自适应测验(CD-CAT)。
上面描述太抽象,下面就来举一个简单例子。
传统纸笔测验:试卷分数
项目反应理论纸笔测验:根据试卷分数可以估计出学生的能力
认知诊断测验:不仅知道学生的能力,同时还能够准确了解学生的知识状态,知道哪些知识点掌握的好,哪些知识点比较薄弱。
计算机化自适应测验:根据学生的能力掌握程度,尽量给学生出相匹配能力的题目。
认知诊断计算机化自适应测验:能够根据学生的能力和知识状态(KS),动态的给学生出相匹配的题目,能够更趋近于学生的能力和知识状态水平。
测验项目可以用特定的认知属性来刻画,而个体的某种认知结构,可用一组通常无法直接观察的认知属性掌握模式来表征。同时,这种不可观察的认知属性掌握模式,又能用恰当的可观察的项目反应模式来表征不可观察的认知属性。----
Q矩阵的理论提出
Q矩阵
项目与属性间的关系(题目和知识点之间的关系)
该理论主要是要确定测验项目所测的不可观察的认知属性,并把它转化为可观察的项目反应模式。首先,要建立项目与所测认知属性的关系:若项目测验了某属性用“1”表示,未测验某属性则用“0”来表示。这样,就可以构建一个N×K的矩阵(N个项目K个属性),用这个矩阵来表征项目与属性间的关系。
被试与属性的关系(用户与知识点关系):若被试对所测属性己经掌握,就用“1”表示,未掌握用“0”表示。这样,被试对测验所测属性的掌握与否可用一个K维的属性向量(attribute vector)来进行表征。Tatsuoka把这种属性向量称为知识状态(knowledge states,Tatsuoka,1990,1995),也即认知结构。
第二步是规则空间的构建及判别
构建:把由θ和ζ构成的二维空间称为规则空间,而将典型项目反应模式在规则空间中的位置称为纯规则点;在特定测验获取实测资料后,就可按前述距离判别法等将被试划归为上述纯规则点中的某一个,从而实现对被试认知结构的诊断。
判别:在规则空间中将被试的作答反应模式与理想反应模式(亦称典型项目反应模式),按距离判别法以及贝叶斯方法进行判别,对被试的认知结构进行诊断。
ζ是一个基于IRT的警戒指标,它表示能力为θ的被试偏离其能力水平相对应的典型项目反应模式的程度,用下面公式表示:
ζ
=
f
(
x
)
/
[
V
a
r
f
(
x
)
]
1
/
2
优点:该模型不仅能估出被试的能力(θ),还能对学生的掌握属性模式进行判别、诊断。
缺点:1、模型过于复杂、计算过于复杂 2、总有3%-18%的被试不能被它归为任何一类理论上的ks
统一模型是一个基于能力的题目参数和被试参数为特征的认知诊断模型,借鉴了先前的规则空间模型的Q矩阵和空间方法,在此基础上采用参数估计的方法,提高认知诊断的准确性。
K:属性(知识点)
Y
j
i
:被试的作答情况,答对为1,答错为0
α
j
:长度为K的0-1向量
θ
j
:潜在残余能力,就是Q矩阵以外所测量的认知属性
Q矩阵:描述题目和属性的之间的关系
q
ik
:表示第i题是否考察了属性K,考查了就是1,否则就是0
d
i
:二分变量,表示被试是否选择专家界定的Q矩阵所描述的解题策略来解答第i道题目
刻画项目答题策略的多样性
π
ik
:表示被试掌握属性k但在第i题上正确运用该属性的概率,
P\left(Y_{j i}=1 \mid \alpha_{j}, \theta_{j}\right)=d_{i} \prod_{k=1}^{K}\left[\pi_{i k}^{\alpha_{j k}}{ }^{q_{i k}} \cdot r_{j k}^{\left(1-\alpha_{jk}\right) q_{ik}}\right] P_{c_{i}}\left(\theta_{j}\right)+\left(1-d_{i}\right) P_{b_{i}}\left(\theta_{j}\right)
P
(
Y
j
i
=
1
∣
α
j
,
θ
j
)
=
d
i
k
=
1
∏
K
[
π
i
k
α
j
k
q
i
k
⋅
r
j
k
(
1
−
α
j
k
)
q
i
k
]
P
c
i
(
θ
j
)
+
(
1
−
d
i
)
P
b
i
(
θ
j
)
统一模型的优点:用一系列的参数对Q矩阵的完备性、项目答题策略的多样性、残余能力进行刻画。
缺点:过于复杂,并非所有参数都能在统计上被估计出,是一个
难以识别
的模型
再参数化的统一模型–FM
化简:
\begin{aligned}&d_{i}=1, \pi i^{*}=\prod_{k=1}^{K} \pi_{i k}=\prod_{k=1}^{K} P\left(Y_{j i k}=1 \mid \alpha_{j i}=1\right)^{q_{ik}}\\&\end{aligned}
d
i
=
1
,
π
i
∗
=
k
=
1
∏
K
π
i
k
=
k
=
1
∏
K
P
(
Y
j
i
k
=
1
∣
α
j
i
=
1
)
q
i
k
基线参数:被试正确运用第i题所有属性的概率,是以Q矩阵为基础的项目难度参数,值在[0,1]之间,值越大,说明越容易,一道题目只有一个难度参数。
r_{i k}^{*}=\frac{r_{i k}}{\pi_{i k}}=\frac{P\left(Y_{j i k}=1 \mid \alpha_{j i}=0\right)}{P\left(Y_{j i k}=1 \mid \alpha_{j i}=1\right)}
r
i
k
∗
=
π
i
k
r
i
k
=
P
(
Y
j
i
k
=
1
∣
α
j
i
=
1
)
P
(
Y
j
i
k
=
1
∣
α
j
i
=
0
)
惩罚参数:表示被试未掌握属性k却答对了第i题的概率与掌握了属性k并答对该题目的概率比,值越小说明第k个属性在第i道题目越重要。一道题目有多少属性就有多少区分度参数。
P\left(Y_{j i}=1 \mid \alpha_{j}, \theta_{j}\right)=\pi_{i}^{*} \prod_{k=1}^{K} r_{i k}^{*\left(1-\alpha_{lk}\right) q_{ik}} P_{c_{i}}\left(\theta_{j}\right)
P
(
Y
j
i
=
1
∣
α
j
,
θ
j
)
=
π
i
∗
k
=
1
∏
K
r
i
k
∗
(
1
−
α
l
k
)
q
i
k
P
c
i
(
θ
j
)
一道良好的试题应是高π
i
值、低r
iK
值,高c
i
值
缩减的再参数化统一模型–RRUM
P_{ji}=P\left(Y_{ji}=1 \mid \alpha_{j}\right)=\pi_{i}^{*} \prod_{n=1}^{K} r_{\alpha}^{*\left(1-\alpha_{jk}\right) q_{ik}}
P
j
i
=
P
(
Y
j
i
=
1
∣
α
j
)
=
π
i
∗
n
=
1
∏
K
r
α
∗
(
1
−
α
j
k
)
q
i
k
相比于RUM(FM)模型,删除了P
ci
(θ
j
) =0.5
对于在DINA模型中,被试答对题目有两种情况:一种是掌握了所考查的全部属性,那么答对的概率是(1-s i ),另一种是未掌握该题所测量的全部属性的被试者,为g i
DINA 与前面介绍的模型的区别:DINA模型不允许属性间有补偿作用,属于非补偿类型。前文提到的规则空间模型、统一模型、融合模型、RRUM模型都是允许属性间补偿作用的模型。
假设:所有未掌握该题目所测全部属性的被试答对该题目的概率相等
假设:认知属性之间相互独立,并从属于一个更高阶的能力θ;在给定认知属性的前提下,作答反应之间相互独立。
P\left(\alpha_{k} \mid \theta\right)=\frac{\exp \left(\lambda_{o t}+\lambda_{1} \theta\right)}{1+\exp \left(\lambda_{e k}+\lambda_{b} \theta\right)}
P
(
α
k
∣
θ
)
=
1
+
exp
(
λ
e
k
+
λ
b
θ
)
exp
(
λ
o
t
+
λ
1
θ
)
前面的认知诊断模型也介绍了很多,下面就介绍一下,计算机自适应测验的其他部分,主要包括选题策略、参数估计、终止规则等核心技术与算法。
选题策略是计算机自适应测验的关键,所选题目是否真的“适配”被试者当前的认知状态和能力,以及“适配”的程度,也是能够直接影响到效果因素。如果选出的题目不适配被试,那么错误诊断的概率就会变大,从而诊断评估的准确性就会降低。同时,为了确保准确性,就选的题目数量增多,也就大大降低了测试效率。
选题的最终目标:用最少的题目、最少的时间达到预定的诊断精度,充分发挥CD-CAT的高效、快速的特点。
根据目前测量的目标,我们可以将CD-CAT 选题分为 基于认知状态的选题 和 兼顾认知状态与能力的选题 两大类。
传统的CAT的方法有最大信息量、KL信息量、香农熵的选题方法,都是基于多维离散变量分布的信息量选题。对于CD-CAT,在认知状态的选题,是认知诊断与CAT两种测验在原理上的嫁接,将传统的CAT自适应被试能力的目标嫁接到被试估计的状态估计上。
香农熵是随机变量不确定性的测度,定义公式:
E
=
−
i
∑
(
p
i
⋅
lo
g
p
i
)
P
i
是第i种情况发生的概率。当随机变量为必然事件或者不可能事件的时候,不存在不确定性,因此熵就等于0。因此,在选题的时候,香农熵越小越好。
假设在贝叶斯情境中,KS向量α的先验分布已经设定。g是一个长度为K的向量,其中K是属性数量。a中毎个属性元素的取值都是0或1,代表了被试掌握或未掌握该属性。在做了n个题之后,通过让a后验分布的 香农熵最小化 来选出下一题,就可以让不确定性最小,让估计出的KS向量更接近于KS向量的真值。
后验分布的香农熵表示:
E\left(\pi_{j, n-1}\right)=-\sum_{i=1}^{2^{k}}\left[\pi_{j, n-1}\left(\boldsymbol{\alpha}_{l}\right)\right] \cdot \log \left[\pi_{j, n-1}\left(\boldsymbol{\alpha}_{l}\right)\right] E ( π j , n − 1 ) = − i = 1 ∑ 2 k [ π j , n − 1 ( α l ) ] ⋅ lo g [ π j , n − 1 ( α l ) ]π j , n − 1 ( α l ) 表 示 被 试 j 在 做 完 n − 1 个 题 目 后 的 K S 为 α l 的 后 验 概 率
与信息熵选题方法(选指标值最小的题)不同,KL法是选相应指标最大的题目。
KL信息量是用来描述两种可能的概率分布之间差异大小或‘距离’,两个分布相差越大,KL值也就越大;在特殊情况下,两个分布完全相同时,KL值等于0。
第i题对被试j的当前KS估计值的KL指标,定义为第i题对KS估计值和各种可能的KS向量之间的KL信息量之和:
K L_{i}\left(\hat{\alpha}_{j}\right)=\sum_{i=1}^{L}\left[\sum_{y=0}^{1} \log \left(\frac{P\left(Y_{j i}=y \mid \hat{\alpha}_{j}\right)}{P\left(Y_{j i}=y \mid \alpha_{l}\right)}\right) \cdot P\left(Y_{j i}=y \mid \hat{\alpha}_{j}\right)\right]
K
L
i
(
α
^
j
)
=
i
=
1
∑
L
[
y
=
0
∑
1
lo
g
(
P
(
Y
j
i
=
y
∣
α
l
)
P
(
Y
j
i
=
y
∣
α
^
j
)
)
⋅
P
(
Y
j
i
=
y
∣
α
^
j
)
]
Y
ji
是被试j在第i题上的作答情况,答对为1,答错为0,内测的连加号表示第i题对估计值和各种可能的KS向量之间的KL信息量。
=\sum_{i=1}^{L}\left[\log \left(\frac{P\left(Y_{j}=0 \mid \hat{\alpha}_{j}\right)}{P\left(Y_{j}=0 \mid \alpha_{l}\right)}\right) \cdot P\left(Y_{j i}=0 \mid \hat{\alpha}_{j}\right)+\log \left(\frac{P\left(Y_{j i}=1 \mid \hat{\alpha}_{j}\right)}{P\left(Y_{j i}=1 \mid \alpha_{t}\right)}\right) \cdot P\left(Y_{j}=1 \mid \hat{\alpha}_{j}\right)\right]
=
i
=
1
∑
L
[
lo
g
(
P
(
Y
j
=
0
∣
α
l
)
P
(
Y
j
=
0
∣
α
^
j
)
)
⋅
P
(
Y
j
i
=
0
∣
α
^
j
)
+
lo
g
(
P
(
Y
j
i
=
1
∣
α
t
)
P
(
Y
j
i
=
1
∣
α
^
j
)
)
⋅
P
(
Y
j
=
1
∣
α
^
j
)
]
P li 为第l种可能的KS答对第i题的概率,P ji ^为被试j答对第i题的概率估计值。KL值越大,表明该题区分该被试当前KS估计值与任意KS的能力越强。因此,我们将当前被试具有最大KL指标的题目选出来。
只考虑认知状态KS的CD-CAT,能够实现对 个体微观内部加工过程的评估 ,并 不能 在同时实现对 个体宏观能力水平的评估 ,因此就提出了 兼顾认知状态α和能力θ的CD-CAT 。
在测试过程中不断地同时估计被试的认知状态α与能力θ,选择更能同时精细辨认当前被试认知状态和能力的试题进一步施测。
个人想法:根据研究表明,宏观能力θ和微观认知状态α之间存在本质的相关,但这种相关离完全正相关有很大的差别,那么我就可以用多目标的算法,设定两个目标,同时满足宏观能力θ和微观状态α最优的情况,最终就选择两个目标最优的情况进行下一步选题。
算法一:先按估计的能力来选若干道适应当前被试能力的试题,构建影子测验(备选题库),再用香农熵法或KL法,按照估计的认知状态从影子测验中选出最适合当前被试认知状态的一道题目。
算法二:先用香农熵法,按估计的认知状态选出若干道题构成影子测验,再用IRT里的最大Fisher信息量法,按照估计的能力从影子测验中选出最适应当前被试能力的一道题目。
缺点:在第一第二步都会达到“局部最优”,但未必是“全局最优”,因此需要设计兼顾认知状态与能力的“综合指标” 的算法
算法思想:由θ的KL信息量和KS的KL信息量加权相加而来。
K L_{j}(\hat{\boldsymbol{\alpha}}, \hat{\boldsymbol{\theta}})=\omega \cdot K L_{j}(\hat{\boldsymbol{\alpha}})+(1-\omega) \cdot \mathrm{KL}_{j}(\hat{\boldsymbol{\theta}})
K
L
j
(
α
^
,
θ
^
)
=
ω
⋅
K
L
j
(
α
^
)
+
(
1
−
ω
)
⋅
K
L
j
(
θ
^
)
缺点:只要二者权重相对不要太极端,权重对估计精度的影响就很小。
基于最大信息量的方法是KS和能力估计精度最高的方法。提出了一个优先指标:
P
i
=
k
=
1
∑
K
(
u
k
−
x
k
)
d
i
k
Pi是第i题的优先指标;d ik 是第i题在属性k上的信息量指标,表示第i题对是否掌握属性k的被试的区分能力;U k 是属性k的上界,X k 是已经测过的属性k的信息量之和。U k -X k 是属性水平的信息量权重,表示属性k的信息量的重要性。最后把优先指标与项目反应理论中Fisher信息量相乘,并将剩余最大信息量结果的那道题目选出来即可。
根据前文已经知道在认知状态选题中,选择SHE最小化的作为最佳选题;在基于能力选题中,选择Fisher信息量最大的题。因此,将Fisher信息量除以SHE所得的结果,就是兼顾认知状态和能力的综合指标。提出带有信息量的有序度指标(DWI)
\mathrm{DWI}_{i}=\frac{I_{i}\left(\hat{\theta}_{j}\right)}{\mathrm{SHE}_{i}\left(\hat{\boldsymbol{\alpha}}_{j}\right)}
D
W
I
i
=
S
H
E
i
(
α
^
j
)
I
i
(
θ
^
j
)
优点:与其他几种方法相比,DWI在认知状态估计方面略优于MI算法,在能力估计方面后者略优于前者。在实际工作中,对认知状态估计的需求高于能力估计,DWI方法更加适合。
缺点:当所测量认知属性较多时(K=8),五种选题方法的能力估计误差都较大,不太适用于属性数量较多的测验。
对于认知诊断的参数估计方面,目前已经有学者提出的 MCMC、EM、最大后验概率(MAP)、期望后验概率(EAP)、判别分析等算法
对于CD-CAT实际应用场景来说,需要反复估计被试的认知状态(和能力值状态)。在线测验中,不能让被试做完题目等待太久。
CD-CAT参数估计的要求:要求能够快速选出适合被试的题目,参数估计算法必须快速、高效。
常用于估计被试认知状态的简便方法就是最大后验概率(MAP)、期望后验概率法(EAP)
思想:令Y j 为被试j的作答向量( Response Vector)。使用MAP法估计被试的KS,就是在给定Y j 的条件下,用具有最大后验概率的α l 作为被试j的KS的估计值。
P\left(\alpha_{j}=\alpha_{l} \mid \boldsymbol{Y}_{j}\right)=\frac{\lambda_{l} f\left(\boldsymbol{Y}_{j} \mid \alpha_{j}=\alpha_{l}\right)}{f\left(\boldsymbol{Y}_{j}\right)}=\frac{\lambda_{l} \prod_{i=1}^{I} p_{li}^{Y_{ji}}\left(1-p_{li}\right)^{1-\boldsymbol{Y}}}{\sum_{m=1}^{L} \lambda_{m} \prod_{i=1}^{1} p_{m}^{Y_{A}}\left(1-p_{m i}\right)^{1-\boldsymbol{Y}}} P ( α j = α l ∣ Y j ) = f ( Y j ) λ l f ( Y j ∣ α j = α l ) = ∑ m = 1 L λ m ∏ i = 1 1 p m Y A ( 1 − p m i ) 1 − Y λ l ∏ i = 1 I p l i Y j i ( 1 − p l i ) 1 − Y
原理:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
在CD-CAT中,MLE法就是将所有可能的KS代入似然函数中,看哪个KS对应的似然函数值最大,就将KS作为该被试的KS估计值。
与IRT-CAT一样,CD-CAT测验也需要精心设计测试长度,太长太短也都不太合适。
分为两种测验:定长测验、变长测验
定长测验:事先固定测验长度,让所有被试做的题数目都相等。
变长测验:可以让不同被试所做的题数各不相同,待达到一定条件就终止。
事先固定测验长度,当被试做的题目达到预设数值的时候就终止选题操作。CD-CAT的测验长度可以与测验所考察的属性数量成正比。
优点:简单、操作方便
在IRT-CAT中,思想是,当能力估计值精度达到预设精度时就终止。由此类推,变长测验的思想是,当KS估计精度达到预设的精度就终止,这样更符合自适应的思想。
当一个被试属于某一类KS的最大后验概率达到0.8时,就终止测验。
拓展版本:双重标准规则,当被试属于某个KS的最大后验概率不低于预设水平(如0.7),并且第二大后验概率不高于某个预设水平(0.1),测验终止
先计算出属K的标准误SE:
Pk为掌握属性的后验概率,当所有属性的标准误都小于某个预设水平,就终止测验。
还有一些比较常见的终止规则的方法,KL法、香农熵法、香农熵差法、临近后验概率之差法 等等,就不一一赘述了。其实我们知道看了上面介绍的变长测验,最终达到预设值,就终止测验,最关键的是这个
预设值是怎么确定的,怎么取?
这对于不同的数据集取的值也是不一样的,对于一个新的数据集而言,我们可以进行数据分析一下,可以根据我们测量的指标或者计算的某个标准,用曲线来展示出来,当我们看见在图像中某个值趋于稳定,比较平滑,那么这个值就是临界值,也就正是我们需要预设的值。
这就是我目前看的CD-CAT的相关内容,从认知诊断模型,到选题策略,再到参数估计、最后提到了终止规则,这也是IRT-CAT 的整个流程,且各个板块相互影响,共同来完成学生KS掌握度和能力的诊断,并自适应的为学生出‘适配’的题目。
写作不易,大部分公式和内容都是自己敲上去的,希望看到最后的点个赞,留个关注,我们一起进步,一起共勉!
文质彬彬的斑马 · 钠电 update ~ 23.01.14 - 知乎 1 年前 |