有情有义的黑框眼镜 · sed替换双引号为空-掘金· 1 年前 · |
快乐的香菜 · Spring Data JPA ...· 1 年前 · |
帅气的葡萄 · 将pst文件转换为msg文件· 1 年前 · |
愤怒的毛巾 · java - ...· 1 年前 · |
淡定的菠萝 · 如何用Linux命令行工具解析和格式化输出J ...· 1 年前 · |
南京航空航天大学 计算机科学与技术学院(南京 211106), College of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, P. R. China 南京航空航天大学 模式分析与机器智能工信部重点实验室(南京 211106), MIIT Key Laboratory of Pattern Analysis and Machine Intelligence, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, P. R. China
南京航空航天大学 计算机科学与技术学院(南京 211106), College of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, P. R. China 南京航空航天大学 模式分析与机器智能工信部重点实验室(南京 211106), MIIT Key Laboratory of Pattern Analysis and Machine Intelligence, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, P. R. China
南京航空航天大学 计算机科学与技术学院(南京 211106), College of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, P. R. China 南京航空航天大学 模式分析与机器智能工信部重点实验室(南京 211106), MIIT Key Laboratory of Pattern Analysis and Machine Intelligence, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, P. R. China
南京航空航天大学 计算机科学与技术学院(南京 211106), College of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, P. R. China 南京航空航天大学 模式分析与机器智能工信部重点实验室(南京 211106), MIIT Key Laboratory of Pattern Analysis and Machine Intelligence, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, P. R. China
南京航空航天大学 计算机科学与技术学院(南京 211106), College of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, P. R. China 南京航空航天大学 模式分析与机器智能工信部重点实验室(南京 211106), MIIT Key Laboratory of Pattern Analysis and Machine Intelligence, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, P. R. China
南京航空航天大学 计算机科学与技术学院(南京 211106), College of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, P. R. China
南京航空航天大学 计算机科学与技术学院(南京 211106), College of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, P. R. China 南京航空航天大学 模式分析与机器智能工信部重点实验室(南京 211106), MIIT Key Laboratory of Pattern Analysis and Machine Intelligence, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, P. R. China
南京航空航天大学 计算机科学与技术学院(南京 211106), College of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, P. R. China 南京航空航天大学 模式分析与机器智能工信部重点实验室(南京 211106), MIIT Key Laboratory of Pattern Analysis and Machine Intelligence, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, P. R. China 南京航空航天大学 计算机科学与技术学院(南京 211106), College of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, P. R. China 南京航空航天大学 模式分析与机器智能工信部重点实验室(南京 211106), MIIT Key Laboratory of Pattern Analysis and Machine Intelligence, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, P. R. China 北京师范大学 人工智能学院(北京 100875), College of Artificial Intelligence, Beijing Normal University, Beijing 100875, P. R. China 北京师范大学 智能技术与教育应用教育部工程研究中心(北京 100875), MOE Engineering Research Center for Intelligent Technology and Educational Application, Beijing Normal University, Beijing 100875, P. R. China 南京医科大学附属南京脑科医院 精神科(南京 211106), Department of Psychiatry, Affiliated Nanjing Brain Hospital, Nanjing Medical University, Nanjing 211106, P. R. China
其中, 是脑电信号 x 和 y 的互谱, 和 分别是脑电信号 x 和 y 的功率谱, f 是离散频率。 衡量两信号 x 和 y 之间的相干性,取值范围为[0, 1]。对于每个被试的每个样本,计算得到59个电极在5个频段上的COH特征后,将所有特征拼接成一个特征向量,最终得到8 555维的功能连接特征[(59(电极数)×(59 − 1)/2)× 5(频段数)= 8 555]。
对于ERP特征,本研究只使用刺激发生后1 s的时域采样点作为ERP特征,对于每个被试的每个样本,可以得到14 750维的ERP特征[59(电极数)× 1 s × 250 Hz(采样率)= 14 750]。对于PSD特征,本研究使用Welch法计算五个频段(与COH特征相同)的平均PSD特征,对于每个被试的每个样本,可以得到295维的PSD特征[59(电极数)× 5(频段数)= 295]。
基于特征的领域自适应方法旨在找到一个特征映射函数 β ,通过映射减小源域和目标域数据的分布差异。假设 和 分别代表源域样本和目标域样本, 和 分别代表源域样本标签和目标域样本标签,领域自适应方法通过映射函数 β 尽可能减少源域和目标域数据边缘分布和条件分布的差异,即令: 和 。
本文采用主成分分析(principal component analysis,PCA)对源域和目标域的特征进行降维重构,在新的空间中最小化特征分布差异,从而获得新的特征表示。PCA是一种数据的线性降维方式,它可以将数据映射到一个新的空间,通过在新的空间里最大化样本协方差对数据进行降维重构。具体地说,记 是所有样本的矩阵; 是中心矩阵; m 为样本维度; n 为总样本数; 1 是 的全1矩阵。协方差矩阵可用 计算。PCA学习的目标是找到正交变换矩阵 ,最大化样本协方差,即:
tr()表示矩阵的迹。最优问题可通过对 进行分解得到,其中 是 q 个最大特征值。 是变换矩阵,源域和目标域降维后的特征矩阵可以由 得到。
本文使用最大均值差异(maximum mean discrepancy,MMD) [ 45 ] 作为源域和目标域的距离度量,并减小边缘概率分布 和 ,以及条件概率分布 和 所组成的联合概率分布 [ 46 ] 的差异。考虑到边缘分布自适应和条件分布自适应可能不是同等重要 [ 47 ] ,所以采用平衡因子 μ 动态调整两个分布的重要性,源域和目标域的MMD计算如式(3)所示:
其中, n s 为源域样本数, n t 为目标域样本数, c 表示样本类别, 、 和 、 分别表示源域和目标域中属于类别 c 的样本集合和样本数。式(3)的第一项表示源域和目标域的边缘概率分布差异,第二项表示源域和目标域的条件概率分布差异。
当源域和目标域的边缘分布相对接近时,迁移学习的性能高度依赖条件分布 [ 47 ] 。但平衡分布自适应在计算条件分布时,利用 近似 ,隐含假设此类在源域和目标域中的概率是相似的 [ 47 ] ,但在现实中通常不是这样。于是本文在计算条件概率分布时,对源域和目标域的类别根据比例加权,即:
其中, 和 为权值,由于该方法会减小边缘分布差异,所以假定 和 是相同的。则条件分布MMD距离可以计算为:
综上,源域和目标域的加权平衡分布自适应MMD距离为:
其中 M 0 是 MMD 矩阵:
其中 c ∈(1,2,⋯, C )表示样本类别, W c 为加权 MMD 矩阵:
通过进一步利用矩阵技巧和正则化,最优化目标可以表示为:
取拉格朗日乘子为 ,则上式的拉格朗日函数为:
令 ,得到广义特征值分解:
最后可以通过求解上式的 k 个最小特征向量获得最优变换矩阵 A 。
在通过加权平衡分布自适应方法减小降维后源域和目标域数据分布差异,得到新的特征矩阵后,本文采用SVR构建回归模型。对42个被试采用留一被试交叉验证,每次将41个被试的脑电数据作为训练集(源域),将剩下的1个被试的脑电数据作为测试集(目标域)。将经过特征降维和转换后的训练集特征矩阵输入到SVR训练,在测试集上得到每个被试五个人格维度上的预测分数。由于加权平衡分布自适应方法一般用来处理分类问题,在计算条件分布时需要用到标签信息,但人格自评分数是一个连续值,不适合直接作为标签,因此,将情绪图片的情绪标签(正、负、中)作为数据的标签信息用于计算条件分布。
在本文方法中,需要设置平衡因子 μ 、正则化参数 λ 、子空间维数 k 三个参数,为了找到最优值,对三个参数进行遍历,其中 μ {0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0}, k {10,20,30,40,50,60,70,80,90,100}, μ {0.01,0.1,1,10,100}。实验通过保持其中两个参数不变,改变第三个参数的值来寻找最优参数。
42名被试在大五人格五个维度分数的平均值和标准差为(采用均值±标准差,平均值的分布范围为0~4):神经质2.05 ± 0.51,外向性2.15 ± 0.35,开放性2.30 ± 0.25,宜人性2.48 ± 0.33,尽责性2.38 ± 0.37。五个人格维度的自评分数经Shapiro-Wilk正态分布检验验证,均满足正态分布。
本文使用两个指标衡量人格预测模型的性能:平均误差和相关性。平均误差为五个维度人格自评和人格预测结果的平均绝对值误差,相关性为五个维度人格自评和人格预测结果的皮尔森相关系数,范围为[−1, 1]。在人格评估模型的实际应用中,需要更关注平均误差的大小,平均误差越小,人格预测模型的性能越好。
为了说明所提出的领域自适应方法和COH功能连接特征对人格评估结果的影响,本文对比了之前研究所使用的ERP、PSD特征和弹性网稀疏正则化回归模型 [ 12 , 25 ] 。对于三种特征(COH、ERP、PSD)采取两种处理方式,一种是参照文献[ 25 ]的方法,对每个被试每种特征下的所有样本进行样本平均,使得每个被试在每种特征下只有一个样本。另一种不进行样本平均,使用每个被试每种特征下的所有样本。由于之前文献使用的方法需要设置相关性 P 值的阈值进行特征筛选 [ 12 , 25 ] ,为了找到最优 P 值,对 P 值进行遍历, P {0.01,0.02,0.03,0.04,0.05,0.06,0.07,0.08,0.09,0.1}。大五人格预测结果如 表1 所示(相关性取预测误差最小时的皮尔森相关系数)。由 表1 可知,对于ERP特征,样本平均+弹性网稀疏正则化回归方法中得到最小的大五人格平均预测误差;对于PSD特征和COH特征,本文方法在两种特征中均得到最小的大五人格平均预测误差。此外,在 表1 所有特征 + 方法的组合结果中,COH特征+本文方法的组合得到最小的大五人格平均预测误差。
方法 | 特征 | 神经质 | 开放性 | 外向性 | 宜人性 | 尽责性 |
大五人格平
均预测误差 |
|||||||||
误差 | 相关性 | 误差 | 相关性 | 误差 | 相关性 | 误差 | 相关性 | 误差 | 相关性 | |||||||
注:粗体数字表示该维度最小平均预测误差。采用 t 检验对 42 个被试人格自评分数和预测分数的相关性进行统计学分析, * : P < 0.05, ** : P < 0.01 | ||||||||||||||||
样本平均+弹性网
稀疏正则化回归 |
ERP | 0.352 0 | 0.541 8 ** | 0.247 0 | − 0.024 2 | 0.293 0 | 0.241 5 | 0.351 3 | − 0.024 5 | 0.262 9 | 0.474 5 ** | 0.301 2 | ||||
PSD | 0.342 9 | 0.410 4 ** | 0.257 0 | 0.095 2 | 0.325 1 | 0.038 1 | 0.298 6 | − 0.170 0 | 0.406 2 | − 0.493 7 ** | 0.326 0 | |||||
COH | 0.447 4 | 0.207 5 | 0.263 0 | − 0.148 8 | 0.341 5 | 0.129 1 | 0.293 5 | − 0.073 7 | 0.382 1 | 0.015 7 | 0.345 5 | |||||
所有样本+弹性网
稀疏正则化回归 |
ERP | 0.591 9 | 0.068 4 | 0.205 2 | 0.032 1 | 0.289 7 | 0.005 9 | 0.489 3 | − 0.112 4 | 0.294 7 | 0.343 6 * | 0.374 2 | ||||
PSD | 0.461 7 | − 0.025 9 | 0.234 1 | − 0.107 0 | 0.312 2 | 0.233 2 | 0.323 5 | − 0.156 1 | 0.396 0 | − 0.019 9 | 0.345 5 | |||||
COH | 0.419 8 | 0.265 5 | 0.243 2 | − 0.268 9 | 0.334 4 | − 0.139 1 | 0.327 6 | − 0.345 9 * | 0.326 6 | 0.074 7 | 0.330 3 | |||||
本文方法 | ERP | 0.424 1 | − 0.062 5 | 0.228 6 | − 0.559 7 ** | 0.312 8 | − 0.586 6 ** | 0.267 6 | − 0.450 2 ** | 0.309 7 | − 0.362 7 * | 0.308 6 | ||||
PSD | 0.410 3 | 0.046 6 | 0.207 8 | − 0.272 5 | 0.287 0 | − 0.193 2 | 0.254 6 | − 0.477 4 ** | 0.312 8 | − 0.077 3 | 0.294 5 | |||||
COH | 0.389 8 | 0.158 4 | 0.199 3 | 0.109 3 | 0.276 1 | 0.089 8 | 0.241 2 | − 0.064 6 | 0.286 2 | 0.310 1 * | 0.278 5 |
为了说明三种脑电特征在被试间是否存在分布差异,以及领域自适应方法对三种特征分布差异的改变,本研究使用t-随机邻近嵌入(t-distributed stochastic neighbor embedding,t-SNE)方法 [ 48 ] 降维可视化被试样本分布。t-SNE是一种数据降维和可视化方法之一,它将数据点之间的相似度转化为条件概率,然后最小化原始空间和嵌入空间的联合概率分布的KL散度,将高维空间中的数据映射到低维空间中,不仅可以减少信息冗余,还可以保持局部样本聚类的空间分布。本文使用t-SNE的目的是在二维空间中更好地观察三种特征的样本分布,从而说明本文方法的可行性。三种特征在不同情况下的样本分布如 图3 所示,其中第一列图中,每一种颜色的点分别代表一个被试的样本;第二列和第三列图中,训练集(源域)包含41个被试的样本,测试集(目标域)包含剩下的1个被试的样本。在 图3 中,PSD特征和COH特征的样本原始分布具有明显的被试数据分簇现象,在相关研究中被称为“个体聚集”,并被认为是脑电个体差异的表征 [ 49 ] 。因此对于跨被试人格评估,结合被试样本分布图和误差结果可知,当测试集被试样本同样集中于一簇时不利于人格评估,而分散分布于训练集样本中能得到更低的误差,这与文献[ 49 ]结论相似。
本研究提出一种利用脑电COH功能连接特征和领域自适应技术的人格评估方法。该方法利用脑区间交互信息,通过领域自适应技术减小脑电数据被试间的分布差异,提高回归模型的预测性能,并与以往人格评估研究中所使用的脑电特征和回归模型进行对比。
由 表1 可知,在样本平均 + 弹性网稀疏正则化回归方法的结果中,ERP特征得到三种特征中最小的大五人格平均预测误差,也是基于ERP特征所有结果中的最好结果。在样本平均 + 弹性网稀疏正则化方法中,ERP 和PSD特征比COH特征取得更低的误差,尤其是在神经质、尽责性上具有相关性,这与文献[ 12 , 25 ]的结果具有相同的趋势。在该方法中,对每种特征在三种情绪刺激下的所有样本分别经过平均和拼接后再进行模型训练和测试。对于ERP特征,ERP的平均响应方法被广泛使用 [ 50 ] ,在样本叠加平均之后可以去除背景噪声 [ 51 ] ,所以有较好结果。但是由于被试数量较少,ERP特征未能在五个人格维度上都具有相关性(文献[ 12 , 25 ]报道在五个人格维度上都具有相关性),模型性能受限。对于PSD特征,已有研究表明在静息态和情绪刺激状态下,样本平均后的PSD特征与人格之间具有相关性 [ 52 - 54 ] 。COH特征表现较差的原因可能是经过样本平均之后,丢失较多的单试次脑电信息,而基于单试次功能连接特征进行人格分类的研究已取得较好的结果 [ 26 ] 。
由 表1 可知,在所有样本+弹性网稀疏正则化回归方法的结果中,COH特征得到三种特征中最小的大五人格平均预测误差。分别对比三种特征在样本平均和所有样本两种情况下的结果可知,ERP和PSD特征在所有样本情况下的平均预测误差比样本平均情况下有较大增加,而COH特征在所有样本情况下的平均预测误差比样本平均情况下则略有减小。究其原因,对于ERP特征,单次ERP不显著,叠加平均之后才会有明显的现象。对于PSD特征,如 图3 所示,虽然所有被试样本的原始分布整体比较集中,但是对于每个被试而言,其大部分样本各自聚集成一簇,与 图3 中PSD特征使用领域自适应后的样本分布相比,测试集样本的原始分布“个体聚集”较为明显,由此推断出测试集样本分布越分散,得到的预测结果越好,而测试集样本分布越集中,可能越不利于人格预测。而且在PSD特征的所有被试样本原始分布中,仍有一些被试样本偏离总体分布。对于COH特征,所有样本的情况下具有更多的脑电数据样本,但是,如 图3 所示,COH特征在被试之间、训练集和测试集之间具有明显的分布差异,存在显著的个体聚集现象,受限于分布差异的影响,样本数量增加所带来的提升效果有限。
由 表1 可知,相比于所有样本+弹性网稀疏正则化回归方法,三种特征在本文方法都可以得到更小的大五人格平均预测误差。此外,PSD特征和COH特征在本文方法中分别得到三种方法中最好的结果。结果说明在全样本情况下,本文提出的方法适用于不同类型的特征,可以提升不同特征下人格评估结果的准确性。具体地说,对于ERP特征,如 图3 所示,虽然被试间原始样本分布不存在明显个体聚集现象,本文方法可以对每个人格维度的训练集和测试集样本分布进行调整,在部分人格维度上(神经质和宜人性)对结果有提升。但是受限于单次ERP不显著的影响,ERP在本文方法中的结果比样本平均+弹性网稀疏正则化回归方法的结果差。对于PSD特征,单试次PSD特征已经被广泛应用于人格评估中 [ 27 - 31 ] 。此外,如 图3 所示,领域自适应方法可以改变测试集样本分布,减小分布差异,并使其分散分布于训练集样本中,提升回归模型的预测性能,得到了PSD特征在三种方法中的最好结果。对于COH特征,如 图3 所示,使用领域自适应方法后,减小了训练集和测试集的分布差异,从而提升了跨被试人格评估的结果。相比于单样本不显著的ERP特征和维数有限的PSD特征,COH特征不需要样本叠加平均且特征维数较大(8 555维),而且COH特征可以表示大脑区域之间的相互作用。因此在使用领域自适应方法减小分布差异后,COH特征可以得到更好的人格评估结果。
本文针对脑电个体差异所导致的被试间数据分布差异,利用领域自适应方法减小这一差异,与之前相关文献使用的方法相比,本文提出的基于COH特征的领域自适应方法取得所有对比结果中最低的大五人格平均绝对值误差(0.278 5)。但是,本研究也存在一些不足之处。第一,本研究使用的被试数量相对较少,会导致数据的标签分布不均匀,可能产生数据和标签的非线性关系,影响模型预测结果(特别是线性回归模型),使得某些人格维度上的相关性较弱或没有相关性。第二,本文使用头皮脑电建立功能连接,对人格的神经机制探究相对受限。有研究认为,功能连接分析应该在大脑的源空间进行,而不是在头皮上,并且要有足够数量的传感器 [ 55 ] 。第三,领域自适应方法虽然减少了被试间数据分布差异,但在模型训练中使用了源域所有被试的所有样本,与目标域数据相比极为丰富。但可能不是所有被试的样本对于知识迁移和共享都是有益的,一些样本可能会对结果产生负迁移影响。因此,在未来进一步的工作中,可以采用源域选择 [ 37 ] 等方式减少源域中无关样本的负面影响。
此外,还有一些研究方向也许可以帮助建立更快速和准确的人格评估系统。第一,五个人格维度之间往往不是完全孤立的,存在一定相关性 [ 56 - 57 ] ,例如宜人性较高的个体,其开放性也偏高。因此,利用不同人格维度间的关联性有望提高人格评估结果。已有研究使用多任务学习方法利用人格维度间的关联性,基于手机使用数据对大五人格进行评估 [ 58 ] 。第二,现有基于脑电的人格评估研究多采用情绪刺激下的脑电数据(主要是情绪视频刺激),采集数据所需时间相对较长(25~90 min)。只有一项研究采用情绪词语作为刺激材料 [ 16 ] ,脑电数据采集时间仅需5 min左右。较短的数据采集时间有利于人格评估系统的实际应用,因此小样本学习 [ 59 ] 等方法,可以在减少刺激数量、缩短数据采集时间的同时保持人格评估系统的稳定性。
本文提出一种基于情绪刺激下脑电功能连接特征,利用领域自适应技术,进行跨被试人格评估的方法。该方法可以利用脑区间的交互信息并减小脑电个体差异导致的被试间数据分布差异,从而提升回归模型的预测性能。与以往相关文献相比,本文提出的方法得到了更优的跨被试人格评估结果。由于该方法通过不易伪造的客观生理数据对被试进行人格评估,不涉及被试的主观感受,因此可以应用到实际场景中,减少社会期许性的不良影响,为人格评估提供一种新的测量方法和手段。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:许子明主要负责数据分析、论文编写以及算法程序设计;周月莹和温旭云主要负责实验数据采集和论文修订;牛一帆和李子遇主要负责实验流程设计、数据预处理;徐西嘉、邬霞和张道强主要负责提供实验指导、数据分析指导、论文审阅修订。
伦理声明:本研究通过了南京医科大学附属南京脑科医院伦理委员会的审批(批文编号:2017-KY017)。
国家自然科学基金项目(62136004,61876082);国家重点研发计划(2018YFC2001600,2018YFC2001602);中国人工智能学会-华为MindSpore学术奖励基金;北京师范大学博士研究生跨学科研究基金(BNUXKJC2021)
the National Natural Science Foundation of China; the National Key Research and Development Program of China; the CAAI-Huawei MindSpore Open Fund; BNU Interdisciplinary Research Foundation for the Doctoral Candidates