添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
1.1、AI+教育

在如今的发展中,各行各业也正在探索"AI+?"的模式,现在主要介绍一下“AI+教育”的自适应学习。人工智能自适应教育的价值对 于机构而言 ,可以提高教学质量、改善成本结构、增强扩张能力、维护团队稳定; 对于学生而言 ,可以及时精准地知道自己的薄弱知识点、清晰地知道自己与同龄人的学习行为差异; 对于老师而言 ,减轻负担,系统的协助授课,提高上课效率、同时准确知道学生的薄弱知识点。这也正契合了为学生的减负的目标,真正实现 降本提效 的需求。因此,自适应教育行业变革趋势不可阻挡。
目前的人工智能技术在教育领域应用识别类的应用已证明有用,且进入成熟期,但识别类的应用并未深入教学核心环节。 人工智能应用走向更核心环节是趋势
在这里插入图片描述

1.2、自适应教育

“自适应(Adaptive)”对于机器学习和人类学习都是非常重要的一个概念,它通过挖掘大量数据来对当前情境进行感知,并进一步融合多种知识和技术实现学习进程的动态自适应调整。
在这里插入图片描述
上图可以看到在机器学习中样本选择上,可以自适应的选择一些重要的样本;在参数优化的时候,也可以自适应的调节学习的步骤;在设计模型的时候,可以用自适应的方法来调节网络结构。
在教育行业,自适应教育也逐渐出现在大众视野,比如作业帮、猿题库等教育APP
在这里插入图片描述
现在可以看到上图是基于传统的老师因材施教和大量的学生数据的自适应学习教学的对比,我们可以思考一下它们之间的联系与区别。
联系:在输入端,都有学生的学习记录,都需要对学生的水平进行一个评估,最后给出自适应的解决方案。
区别:前者的话老师所看到的学习记录是有限的,是根据学生的学习成绩来做一个自适应的推荐,而后者对于机器而言,能够记录大量的学生记录,可以进行更加精细的诊断,可以分析学生在每个知识点的掌握水平,根据这个认知诊断,再给学生进行一些推荐。

1.3、挑战与机遇
  • 怎样准确的评估出学生的在每个知识点的掌握水平?
    在这里插入图片描述
    目标
    输入:学生的学习记录
    输出:学生在每个知识点的掌握水平
    难点:正如上面那张图,传统的机器学习模型能够解决类似的任务,能够预测出学生能不能做对每道题目,但是不能分析学生过程中间对每个知识点的掌握水平,机器学习得到的表示结果都是一些隐向量,是Embedding 的一些向量,也就相当于在神经网络中,过程是一个黑盒子。
    解决思路:提出 认知诊断模型 ,不仅能够预测学生的做题情况,而且还能够精准分析学生对某一个知识点的掌握情况。
  • 如何进行快速综合测试来评估学生的认知水平,根据诊断结果选题?
    假设现在能够进行精准的预测学生的情况,但是还是有速度的要求,不能让学生做大量的题目,希望能够是用少量的题来尽快的诊断出学生的水平。
    可以看到下图, 传统的机器学习是提供大量的数据,最后机器会给出一个诊断结果
    但是关于人的测试,往往是有限的数据,传统的测试是千人一面的,所有人考共同一张试卷,需要花大量的考试才能有一个全面的诊断。
    解决思路:计算机自适应测评,认知诊断模型+选题策略,能够更快速、更全面的诊断出学生的掌握水平,并根据诊断结果来动态出题。
    在这里插入图片描述
    根据上述两个问题,来介绍一下解决方案
    在这里插入图片描述
  • 对于准确的评估出学生的在每个知识点的掌握水平,解决方案是认知诊断(Cognitive Diagnosis)。
  • 对于快速综合测试来评估学生的认知水平,根据诊断结果出题,主要的解决方案是自适应测评(Adaptive Testing)

2、计算机自适应测评(CAT)

2.1、CAT介绍

传统的测评方式:就是一张考试卷,所有人都回答同一张试卷,来测出每个学生的能力以及掌握程度。
那么什么叫自适应测评呢?

  • 基于学生上一题及之前测评题上的作答情况,采用大数据及人工智能技术自适应选择下一道测评习题
  • 每个人最终形成一套个性化的测评题集
  • 高效:仅少量的题可测评出学生能力
    在这里插入图片描述
    如左图可以看到给学生一个问题Qt,根据学生做题目的对与错,然后有一个认知诊断模型进行诊断,然后再通过选题策略,选择与学生能力相匹配的题目,通过少量的题目能够快速诊断出学生的能力。同时避免了对一些低水平的同学,题目太难,使学生丧失信心,或者对于一些高水平的学生,题目太简单, 使学生变得无聊。

右图展示的是个性化测评题集,首先由两个同学e1、e2开始作答,第一题给相同的题目,根据两个同学的答题情况,e1同学答对了,那么就会从题库里选择比较难一点的题目。e2同学答错了,那么下一道题就从题库选择简单的题目。真正做到千人千面,不同的学生所对应的题目也有差异。

2.2、CAT流程

基于一个给定的题集,设计出题策略,其能够根据被测者的做题结果及底层认知诊断模型的输出,动态出下一道题,评估学生的知识掌握情况。
在这里插入图片描述
可以看到上图,首先初始化学生的能力估计值,先用选题策略从测评题库选出题目给学生作答,根据学生的作答情况,通过认知诊断模型更新的学生的能力值,再根据诊断结果再给学生选题,然后再诊断再选题,这样周而复始,这就是自适应测试的过程。

2.3、CAT关键要素
  • 底层的认知诊断模型 :在已有的测试数据下,能最大程度准确估计学生能力,且根据学生交互式的做题数据,快速更新模型。
  • 选题策略 :量化选题目标,基于底层认知诊断模型的输出,确定测试题
  • 能力评估 :估计能力参数的常用方法有极大似然估计法和贝叶斯期望后验估计(EAP)方法。
  • 终止规则 :固定测试长度,项目数累计到预设值即行停止;按预定的能力估计标准误的要求终止测验

3、CAT的发展

3.1、基于规则的方法

初代的自适应测评(CAT)更多的是出现在英语等专业类能力等级测评(比如语言的阅读、单词),比较有代表性的有熟知的流利说等语言类app ,那么,到底是基于什么规则呢?

基于二叉树或者多叉树的规则测试方法

对于测试前题库的准备

  • 设置1-n个能力等级
  • 每个skill level绑定奇数道试题(例如3)
    在测试的过程中,可以看下图,首先然后预设好能力等级进行测试,然后符合能力状态更新的规则进行更新,最后满足终止条件输出学生的能力等级。
    在这里插入图片描述
    主要规则:若被测者在当前能力等级全错,则其能力降2级,大部分题错降1级;若全对,则升2级,大部分对升1级
    在这里插入图片描述
    对于上面的一个具体图片而言,每个block对应一种skill level,并绑定奇数道试题,假设是三道题目,初始的能力比如是等级4,若被测者在当前block的3道题全错,则其skill level降2级(等级2),若被测者在当前block对2道题,则其skill level升1级(等级5),若被测者在当前block对3道题,则其skill level升2级(等级6)
3.2、基于知识空间理论的方法

国外在数学学科方面比较有名的计算机自适应测评就是ALEKS,它是一家以研究为基础,在线学习计划,提供课程产品为数学,化学,统计,和更多。ALEKS植根于20多年的研究和分析中,是一个行之有效的在线学习平台,可帮助教育工作者和家长深入了解每位学生的知识和学习进度,并为每位学生提供获得精通的个性化支持。其中采用的就是基于知识空间理论的方法,下面就来介绍一下知识空间理论:
在这里插入图片描述

3.2.1、基本概念

在这里插入图片描述
知识域的理解可以是有限问题(知识点)的集合Q ={q1,q2,q3,q4}
试题之间的前提关系如右图所示:q1是q3的前提,q2是q3的前提,q3是q4的前提
知识空间:所有Q的子集
知识状态:问题之间的关系
知识结构:知识状态的集合,以右图q1、q2、q3、q4为例,单独的{q3}并不是一个知识状态,因为有q1、q2前驱,只有加上前驱,才能构成知识状态,最终知识状态的集合形成知识结构(Q,K)={ {∅},{q1},{q2},{q1,q2},{q1,q3},{q2,q3},{q1,q2,q3},{q2,q3,q4},{q1,q3,q4},{q1,q2,q3,q4}}

3.2.2、知识空间理论框架:

目标 :已知知识域(题库)和知识结构,通过测试题序列确定被测者的知识状态
起始 :被测者初始的知识状态为空,或者根据以前的做题历史得到初始知识状态
选题策略 :通过计算知识状态的邻居以及边界,从边界中选择一道之前未测过的题作为下一道测试题
终止策略 :边界中不存在以前未测过的试题,则终止

补充:知识状态k的 邻居N(k) :k’∈N(k) 当且仅当d(k,k’)=1, 其中d定义为集合对称差知识状态k’的集合,k’需满足k’和k只相差一个题目
知识状态k的 边界F(k) : F(k) =∪N(k)\∩N(k) 邻居的并集去掉邻居的交集

在这里插入图片描述
下面还以图q1,q2,q3,q4为例
在这里插入图片描述
已知:知识领域Q={q1,q2,q3,q4},知识结构(Q,K)={ {∅},{q1},{q2},{q1,q2},{q1,q3},
{q2,q3},{q1,q2,q3},{q2,q3,q4},{q1,q3,q4},{q1,q2,q3,q4}},

被测者初始知识状态为∅
选择下一题 :找到被测者当前知识状态∅的邻居,d(∅, {q1}) =1, d(∅, {q2}) =1, N(∅)={ {q1},{q2}} , ∪N(∅)={ { ={q1,q2},∩N(∅)= ∅, 计算当前知识状态∅的边界F(∅)= ∪N(∅)\∩N(∅)={q1,q2}。从边界中选择题q1,或者q2。假设选择q2
根据下一题的作答情况 更新被测者知识状态 ,假设q2答对,则知识状态变为{q2},否则仍然是∅
继续 下一题的选择 :假设当前的知识状态为{q2},依据上述的方法计算得到其边界为{q1,q2,q3},q1两次出现,所以其区分度高,作为下一道题
以此类推,如下图可以看出,测试从易往难,能力较弱者,测试提前结束,测试序列较短,能力较强者,测试序列较长,最后获得学生的知识状态。
在这里插入图片描述

3.2.3、诊断

那么获得学生的知识状态,如何得到学生掌握的技能情况?
下面就来诊断学生的技能掌握情况
基本概念

  • 技能集合S
  • 技能函数𝛄:γ(k)表示解决试题集合k所需要的最小技能集合
  • 问题函数𝛅:δ(t)表示需要技能t进行求解的试题集合
  • 技能状态函数𝛈:η(t)表示技能t可能解决的知识状态的集合

技能状态函数𝛈计算过程:

  • 由教师或领域专家建立问题函数δ(t)
  • 从知识结构中找出δ(t)的超集
  • 这些超集的集合就是函数η(t)的值。

技能函数γ(k)计算过程:

  • V= ∅
  • 获取所有技能的技能状态函数值
  • 遍历这些技能函数的值域,若k∈η(t),那么V= V∪{t}
  • γ(k) =V

下面就来举个例子
例:上述例子中假设得到被测者的知识状态为{q2,q3}
已知:技能集合S={x,y,z}
问题函数: δ(x)={ {q1},{q4}}, δ(y)={ {q2}},δ(z)={ {q2},{q3}}
根据问题函数,找出 δ(x)、δ(y)、δ(z)超集即可
技能状态函数:
η(x)={ {q1},{q4},{q1,q2},{q2,q4},{q1,q3},{q2,q3,q4},{q1,q3,q4},{q1,q2,q3,q4}}
η(y)={({q2} ,{q1,q2} ,{q2,q3},{q2,q3,q4},{q1,q2,q3,q4} )}
η(z)={ {q2},{q1,q2}, {q1,q3}, {q2,q3}, {q2,q3,q4},{q1,q3,q4},{q1,q2,q3,q4}}
下面就来计算技能函数
在η(x)、η(y)、η(z)中找到符合知识状态{q2,q3}的,取并集
最终得到技能函数γ({q2,q3})={y,z}

3.3、基于认知诊断模型的CAT方法
3.3.1、认知诊断

认知诊断定义: 认知诊断是诊断用户在某项技能或某个知识点上的水平 ,其被广泛应用于游戏、体育运动、招聘和教育等领域。例如,江苏卫视的“最强大脑”每个选手出场时都会展示该选手各个维度认知能力的雷达图,该雷达图是基于选手做题结果形成的。那么,根据学生的做题结果诊断出该生对每个技能点和知识点的掌握水平,是认知诊断要解决的任务。
在这里插入图片描述
在教育方面, 认知诊断问题定义为:
在这里插入图片描述
输入学生的答题矩阵R,对应的是学生答的一些行为数据,加上试题与知识的关系矩阵Q-matrix,对应的是每道题目所包含的知识点
然后输出就是学生在每个知识点或技能上的水平

3.3.2、认知诊断模型

传统的认知诊断模型
在心理测量学上提出的项目反应理论(IRT),首先由三个假设条件:

  • 单技能维度:假设某个测试只测量被试的某一种能力
  • 立性假设:被试在项目上作答反应是相互独立、互不影响的
  • 模型假设:被试在项目上的正确反应概率与被试能力水平有一定关系

常用的是三参数模型
在这里插入图片描述
P(R=1)表示答对题目的概率,主要受到四个因素(α,β,θ,C)的影响,α代表区分度、β代表试题的难度、θ代表学生的能力,c代表猜测度。下图反应的是,能力越大,那么你做对题目的概率也会越大,是比较符合真实场景。
在这里插入图片描述
并且区分度α越大,那么越能够区分出学霸和学渣,可以从下图看出,区分度越大(橙色部分),区分学渣和学霸会越明显,差别也就越大。
在这里插入图片描述

3.3.3、基于IRT的CAT方法

测试前题库准备
单维度三参数IRT模型的形式:
在这里插入图片描述
精选题库:有用户答题行为,采用IRT模型训练估计试题的参数:区分度、难度
在这里插入图片描述
首先起始的时候是被测者起始θ值,通过Fisher信息选题策略选择信息量最大的一道题目,然后根据用户的答题情况,基于IRT模型,采用极大似然估计来对用户能力进行估计,最后判断是否满足终止条件,不满足终止条件则继续下一轮的选题。
终止条件:Fisher信息函数的均方根的倒数小于预先设置的值,即θ的最大似然估计的标准差足够小

3.3.4、基于贝叶斯网络的CAT方法

选择贝叶斯网络模型的模型,如果这个模型包含额外的信息变量,那么在我们开始选择和提问之前,有必要插入这些变量的观察状态。接下来,重复以下步骤:

  • step1 选择下一个要问的问题
  • step2 提出问题并获取结果
  • step3 将结果作为证据插入网络
  • step4该网络将使用此证据进行更新
  • step5 (可选)估计后续答案
    在这里插入图片描述
3.3.4.1 选择下一个题目

Xs代表未观察到(未回答)的变量
在这里插入图片描述

目标:从Xs中选择一个变量作为下一个问题,选择一个预期信息收益最大的问题。
在这里插入图片描述
假如我们决定回答问题X’,可能回答的结果x’,插入观察到的结果后,所有技能的熵都会改变。我们重新计算熵值,熵H(e,X’= x’j)是所有技能节点上各个熵的总和。
在这里插入图片描述

现在可以在回答问题X’之后计算期望的熵
在这里插入图片描述
我们选择一个问题X *来最大化信息增益IG(X’,e)
在这里插入图片描述

3.3.4.2更新

选择的问题X* 被提供给学生,并获得他/她的答案。该答案将变量X 的状态从未观察状态更改为观察状态x *。接下来,将问题及其答案插入证据向量e。我们用更新的证据e更新技能变量的概率分布P(Si | e)。我们还重新计算了熵H(e)的值。还将问题X *从Xs中删除,从而形成下一步s的一组未观察变量Xs + 1,并且可以重复选择过程。

下图是将整个过程进行简化

在这里插入图片描述
选题的标准:信息增益
可以看到这个y是没有观察到的,是可能作为下一题,我们现在计算这个时候的熵值
然后上面这个差值,就是信息增益。
最后在每一步选择能给他最大期望信息增益的问题
停止规则:当熵低于预先设定的阈值时,测试结束

目前主流的CAT的选题策略如下图所示,主要是认知诊断模型+选题策略,从IRT模型到MIRT,由一维的拓展到多维的,还有贝叶斯网络等模型
在这里插入图片描述
我相信自适应测评(CAT)技术会发展的越来越成熟,也会应用到各个学习场景中,同时,我也会在这个方向上继续学习研究,迎接新挑战,进行新突破!

考试发展的新方向: 计算机化 自适应 性考试(1998文)主持“托福”考试和GRE考试的美国教育 测验 服务中心(ETS)已经宣布,将在1998年7月在全世界大部分地区用 计算机化 自适应 性的“托福”考试取代现行的纸笔考试,并在2001年在全球完全取消纸笔“托福”考试。ETS已于1993年推出了 计算机化 的GRE考试,于1994年推出了 自适应 性的GRE考试。今天,ETS已经在美国本土取消了纸笔的GRE考试。负责承... 原标题:PISA2018阅读素养 计算机化 自适应 测试的技术与方法探析 摘要:PISA2018阅读素养的 计算机化 自适应 测试采用核心阶段、阶段1和阶段2的3阶段 自适应 测试,题库设定有245道题目,组成45个测试单元,并将其组合成若干题组,用于不同阶段的测试。在路径设计上,为避免位置效应问题,除核心阶段→阶段1→阶段2的标准路径之外,还采用核心阶段→阶段2→阶段1的替代路径。PISA2018阅读素养 计算机 ... CAT 计算机 自适应 测评 主要目标:创建更短的测试,因此它在不牺牲可靠性的情况下花费更少的时间。 测试过程:模型是在以往学生样本的基础上构建的。在测试过程中,模型会进行更新,以反映正在测试的某个特定学生的能力。我们使用该模型 自适应 地选择下一个要问的问题,以便提出最合适的问题。 Data Collection 设计方案:一份针对文法学校学生数学知识的纸质测试,内容主 此外,计算能够增加测试分析题目得分的准确度用 cat ,来代替给每一个被试者固定的测试题,在 cat 中,每个人能力评估的变化后,给出每个新的回答和在随后在新的最价的评估中每个题目给出最佳。这个 cat 的想法当然不是现在有的,在这个1905年的西蒙,题目的 分类 是通过精神年纪,该 分类 用于题目的选择,根据男人被试的回答早期的题目,直到符合年龄,能被足够准确的识别,实际,这个 cat 的想法像口语考试的事件一样老,任何敏感的口语考官知道怎么讲出他的问题,他或者她影响,这口语检查官的年纪判断。 Aritra Ghosh and Andrew Lan University of Massachusetts Amherst 这篇文章是2021年在IJCAI会议上被录用的 Abstract 计算机 自适应 测试 ( CAT ) 是指一种针对每个学生/考生进行个性化的测试形式。 CAT 方法根据每个学生对之前问题的回答, 自适应 地为每个学生选择下一个信息量最大的问题/项目,有效地缩短了测试时间。现有的 CAT 方法使用项目反应理论 (IRT) 模型将学生的能力与他们对问题的反应联系起来,以及旨在尽快减少能力估计误差的 CD- CAT 常用认知诊断模型 规则 空间模型 测验 项目可以用特定的认知属性来刻画,而个体的某种认知结构,可用一组通常无法直接观察的认知属性掌握模式来表征。同时,这种不可观察的认知属性掌握模式,又能用恰当的可观察的项目反应模式来表征不可观察的认知属性。----Q矩阵的理论提出 项目与属性间的关系(题目和知识点之间的关系) 该理论主要是要确定 测验 项目所测的不可观察的认知属性,并把它转化为可观察的项目反应模式。首先,要建立项目与所测认知属性的关系:若项目 测验 了某属性用“1”表示,未 测验 某属 本发明涉及一种检测方法,特别是涉及一种 计算机 自适应 测验 方法。背景技术::当前最普遍的 自适应 测验 方法是最大信息法、a分层法、影子题库等等。最大信息法即根据被试作答结果计算出来的特质值,计算题库里每一道试题的信息函数值,然后选择信息函数值最大的试题。a分层法是一种克服最大信息法抽不到低区分度试题的算法,a分层法依据试题的区分度对试题进行分层,然后对每一层或每几层进行最大信息法或难度值与特质值的最小绝对... 1.软件系统经过单元、集成、系统测试,分别达到单元、集成、系统测试停止标准。 2.软件系统通过验收测试,并已得出验收测试结论。 3.软件项目需暂停以进行调整时,测试应随之暂停,并备份暂停点数据。 4.软件项目在其开发生命周期内出现重大估算,进度偏差,需暂停或终止时,测试应随之暂停或终止,并备份暂停或终止点数据。 二. 单元测试停止标准 1.单元测试用例设计已经通过评审 2.按照单元测试计划完成了所有规定单元的测试 3.达到了测试计划中关于单元测试所规定的覆盖率的要求 4.被测试的单元 每位参加CISSP CAT 考试的考生均会由一个远低于及格标准的考题开始。在考生对某道题作答之后,评分算法会根据所有题目的难度和作答情况重新估算考生的能力。每多作答一道题, 计算机 对考生能力就会估算更加精确——与传统的线性考试相比,它能更有效、尽可能多地收集有关考生真实能力水平的信息。这种更精确的评估使我们能够将最 考试时间从6小时缩短到4小时,并将准确评估考生能力所需的题目从线性、固定形式考试的250道减少到CISSP CAT 考试中的125道。两种考试版本的考试大纲和及格标准完全相同。无论采用何种考试形式,都 6.在概化理论中,公式 (其中 ) 为测量目标效应方差,为绝对误差方差)表示的是(B )A.G系数 B.Φ系数 C.CV系数 D.W系数7.在项目反应理论三参数logistic模型 .数学表达式中,表示项目区分度参数的符号是(B )A. a B. b C. c D. d8.概化理论采用方差分析法分节测量数据的总体方差,通常把数据总方差分解为(ABC) A目标主效应方差 B测量侧面效应方差C各种交互...