吴 静依
北京大学公共卫生学院流行病与卫生统计学系,北京 100191,
Department of Epidemiology and Biostatistics, Peking University School of Public Health, Beijing 100191, China
浙江省北大信息技术高等研究院,杭州 311200,
Advanced Institute of Information Technology, Peking University, Hangzhou 311200, China
林 瑜
北京大学公共卫生学院流行病与卫生统计学系,北京 100191,
Department of Epidemiology and Biostatistics, Peking University School of Public Health, Beijing 100191, China
蔺 轲
北京大学公共卫生学院流行病与卫生统计学系,北京 100191,
Department of Epidemiology and Biostatistics, Peking University School of Public Health, Beijing 100191, China
胡 永华
北京大学公共卫生学院流行病与卫生统计学系,北京 100191,
Department of Epidemiology and Biostatistics, Peking University School of Public Health, Beijing 100191, China
北京大学医学信息学中心,北京 100191,
Peking University Medical Informatics Center, Beijing 100191, China
孔 桂兰
浙江省北大信息技术高等研究院,杭州 311200,
Advanced Institute of Information Technology, Peking University, Hangzhou 311200, China
北京大学健康医疗大数据国家研究院,北京 100191,
National Institute of Health Data Science, Peking University, Beijing 100191, China
北京大学公共卫生学院流行病与卫生统计学系,北京 100191,
Department of Epidemiology and Biostatistics, Peking University School of Public Health, Beijing 100191, China
浙江省北大信息技术高等研究院,杭州 311200,
Advanced Institute of Information Technology, Peking University, Hangzhou 311200, China
北京大学医学信息学中心,北京 100191,
Peking University Medical Informatics Center, Beijing 100191, China
北京大学健康医疗大数据国家研究院,北京 100191,
National Institute of Health Data Science, Peking University, Beijing 100191, China
SVM的学习目标是在投射后的高维空间内找到一个最大间隔超平面,使得支持向量到超平面的距离
R
最大。为了处理高维空间存在的爆炸性计算问题,SVM引入了核函数降低高维计算量。常用的核函数包括线性核函数、多项式核函数、径向基核函数和指数核函数。SVM模型在处理非线性可分、高维数据分类问题和泛化能力方面都表现出特有的优势
[
16
]
。
本研究中SVM模型的参数寻优结合五折交叉验证与网格搜索法。网格搜索法是指通过循环遍历给定的参数组合来实现参数寻优。最终采用的SVM模型的参数为:核函数为径向基核函数,惩罚因子
C
为100,核函数参数gamma为0.1,
C
和gamma共同控制SVM模型在训练集的拟合程度与泛化能力的平衡。
1.5. CART模型
CART是一种二分递归式的树状结构的决策树模型
[
17
]
。CART模型生成的决策树可解释性好,因此在临床决策中被广泛应用。CART模型的核心是通过计算信息增益选择决策树局部的最优划分特征建立决策节点,从而逐步构建决策树。一般来讲,一棵CART决策树包含一个根节点、若干个内部节点和若干个叶节点。其中,根节点包含样本全集,根节点与内部节点均为决策节点,每个决策节点对应于一个特征决策,每个叶节点对应于一种决策结果。CART算法采用二分递归分割算法,总是根据特征决策将当前样本集分割为两个子样本集,使得生成的决策树的每个非叶节点都只有两个分支,因此,CART算法生成的决策树是结构简洁的二叉树。
在每个决策节点,CART模型使用Gini指数减少量作为信息增益的度量指标来选择该节点的最优划分特征。若一个数据集
D
包含
J
个类别的样本,则该数据集
D
的Gini指数为:
其中,
p
j
为第
j
个类别的样本在数据集
D
中所占的比例。若根据某个特征
A
将数据集
D
划分为两个子数据集
D
1
和
D
2
,则该特征
A
对应的Gini指数减少量
S
=
Gini
(
D
)-
Gini
(
D
1
)-
Gini
(
D
2
)。Gini指数减少量最大的特征将用于划分该节点。相比于传统的线性回归模型,CART模型不需要预测变量与结局变量满足复杂的关系假设,并且适用于处理预测变量与结局变量之间的非线性相关关系
[
18
]
。
本研究中CART模型的参数寻优结合五折交叉验证与网格搜索法。最终采用的CART模型的参数为:决策树最大深度为6,内部节点再划分所需最小样本数为200。
1.6. RF模型
RF是由Breiman
[
19
]
提出的基于树模型构建的一种常见的集成学习模型。集成学习通过综合多个弱分类器的分类结果,可进一步提升模型的性能。研究表明,集成学习模型的性能一般优于单个的基础分类器
[
9
,
20
-
21
]
。RF使用决策树作为基础分类器,待分类样本的分类结果由所有相互独立的决策树的分类结果投票决定。RF的具体分类流程为:(1)训练样本随机采样:使用自助法(Bootstrap)在整个训练数据集
D
中重采样,随机产生
K
个训练子集
D
1
,
D
2
, …,
D
K
,采样比例为1-[1-1/
N
]
N
,其中,
N
为整个训练数据集
D
的样本总数,当
N
趋向无穷时,采样比例约为2/3。(2)随机特征训练决策树:基于每个重采样训练子集训练一棵决策树,在决策树的每个节点,从所有
M
个特征中随机选取
F
个特征作为当前节点的特征子集,并以特征子集中信息增益最大的特征对该节点进行分裂,从而逐步构建决策树
T
1
,
T
2
, …,
T
K
;决策树的生成依据信息增益最大化原则,常用的信息增益度量指标为Gini指数减少值。(3)决策树投票判别:采用投票法得到
K
个决策树中输出最多的类别作为待分类样本的分类结果。RF模型中的两次随机化过程——训练样本随机化和特征随机化,使得RF在处理高维数据问题时更有优势,也提供了更强大的泛化能力
[
22
]
。
本研究中RF模型的参数寻优结合五折交叉验证与网格搜索法。最终采用的RF模型参数为:决策树个数(
K
)为300,决策树每个节点选择的随机特征数量(
F
)为5,决策树最大深度为13。
1.7. 定制版SAPS-Ⅱ模型
SAPS-Ⅱ是Le Gall等
[
5
]
于1993年使用12 997例ICU患者的数据基于逻辑回归(Logistic regression,LR)算法开发的危重症评分系统。SAPS-Ⅱ模型由两部分组成:SAPS-Ⅱ评分和概率计算。SAPS-Ⅱ评分由17项变量构成,每项变量依据患者情况进行打分,最低0分,最高26分,总分0~163分。将所得SAPS-Ⅱ评分代入概率计算公式,即可得到ICU患者的死亡风险。具体公式为:
其中,
β
′
0
、
β
′
1
、
β
′
2
为基于MIMIC-Ⅲ数据库计算的各变量的系数,
P
pLOS-ICU
为ICU患者发生pLOS-ICU的风险概率。
1.8. 统计分析与模型比较
本研究中数据的提取与清洗使用Postgre SQL软件,数据分析与模型构建使用Python 3.3.6软件。各变量的缺失值使用该变量的正常值填补。变量的正常值定义为SAPS-Ⅱ评分系统中该变量评分为0时所对应的变量取值,或者变量值区间的最大值和最小值的平均值。
模型预测性能的比较基于五折交叉验证所得的预测性能的平均值。模型的预测性能使用三种指标进行评价:(1)Brier评分:评价模型的综合预测性能;(2)受试者工作特征曲线下面积(area under the receiver operation characteristic curve,AUROC):评价模型的区分度;(3)估计校准度指数(estimated calibration index,ECI):评价模型的校准度
[
23
-
24
]
。Brier评分反映模型的预测结果与实际结果之间的误差,Brier评分越小,模型的综合预测性能越优。模型的区分度是指模型能够正确区分正样本(发生pLOS-ICU)与负样本(不发生pLOS-ICU)的能力,AUROC越接近于1,模型的区分度越优。模型的校准度是指模型预测的结局发生风险与实际发生风险之间的一致性程度,ECI越小,模型的校准度越优。使用校准曲线图进一步直观化评价模型的校准度。校准曲线图的横坐标为实际的结局发生风险,纵坐标为模型预测的结局发生风险,理想的模型校准曲线应为一条对角线,即模型预测的结局发生风险与实际的结局发生风险完全一致。校准曲线图可以反映在由低到高不同的结局发生风险人群中,模型预测的结局发生风险与实际结局发生风险的差异。模型性能指标之间的比较使用双侧
t
检验,以
P
< 0.05为差异具有统计学意义的判断标准。使用本研究中预测性能最好的模型识别出来的各预测变量重要性排序结果,给出重要性排序前五位的预测变量。