研究领域:生物学年龄,深度学习,
医疗人工智能
论文题目:
Deep neural network-estimated electrocardiographic age as a mortality predictor
论文链接:
https://www.nature.com/articles/s41467-021-25351-7
人的年龄反映着身体健康状况,可以看成对人体这一复杂系统的降维。然而参加过毕业十年聚会的同学都明白,个人的时序年龄不等于身体的实际状况。为了更准确地描述身体状况,科学家提出了“
生物学年龄
”的概念,将生理指标及生活习惯通过算法整合,即可算出生物学年龄,可以看成是对复杂系统的自动化建模。如果依据的指标聚焦于某个组织器官,则计算的是相应组织或器官的年龄,例如
心血管年龄
描述心脏的健康水平,皮肤年龄描述皮肤状况相当于多少岁的人。
相比传统方法,深度学习模型的优势在于,它是一个端到端的模型,不需专家基于经验设置。训练过程也很简单,不需要手动标注的数据,只需要观测受试者7~10秒的心电图,将实际年龄做标签,使用多层卷积神经网络,就可以预测出对应的“
心电图年龄
”。
研究发现,如果一个人的心电图年龄大于时序年龄超过8岁,其全因死亡率是正常人群的1.79倍;如果心电图年龄小于实际年龄8岁,那么全因死亡率则只有正常人群的0.79倍。
图1:三个不同的数据集(a, b, c)中,心血管年龄与时序年龄的差值不同,对应显著的全因死亡率差异。绿线:心电图年龄小于时序年龄超过8岁;蓝线:心电图年龄与时序年龄差别在8岁以内;橙线:心电图年龄大于时序年龄超过8岁。
该研究用到的三个数据集,既包含来自于健康人的,也包含心血管疾病或糖尿病慢性患者的。其年龄分布见下图2所示。(a) 中人群的时序年龄均匀分布在25~75岁之间,(b)(c)的年龄则偏大一些,以五六十岁居多。在三个数据集上,心电图年龄都能显著预测全因死亡率,这论证了模型的鲁棒性,即其适用范围很广。而距离采样的时间越久,心电图年龄预测出的死亡率差异就越明显。
图2:三个数据集中心血管年龄(纵轴)和时序年龄(横轴)的分布
对深度学习模型的一个常见批评是缺少可解释性。对于模型预测的心电图年龄超过实际年龄8岁的人群,一定想知道是什么因素导致模型做出了这样的预测。尽管无法针对个体给出个性化的回答,该模型可以解释,在心电图年龄超龄者中,哪些生活习惯和慢性疾病更经常出现,比如图3中可以看到,高血压、粥状动脉硬化、超重及吸烟等广为人知的心血管疾病高风险因素,以及中高强度运动等心血管疾病保护因素。
图3:心电图年龄超龄人群的高危慢性病和生活习惯,(a)对应所有样本,(b)对应心电图正常的样本。
即使在数据分析中去除了年龄、性别、常见心血管高危因素带来的影响,心电图年龄超龄者的死亡率也显著高于正常人群,这说明
深度学习模型捕捉到了一些还不为人知的风险因素
。这些因素虽然单个来看影响不大,但日积月累,却会增加死亡率。通过识别出之前未知的高风险人群,可能会促使他们更积极地参与并完成干预计划
(例如运动或饮食改变)
,从而提升全社会的健康水平。
总结来看,该模型预测的心电图年龄,描述了衰老过程如何影响心电图检测。心电图年龄大于时序年龄的直观解释是,在心电图测试中更类似年老的人,因而死亡率也越高。从临床角度,尽管将心电图精简为一个数字,忽略了众多混杂因素,是一种过度简化,但
这个数字可以被没有经过医学训练的人理解,并指导其健康管理,从而体现了心电图年龄的价值
,可看成是对心电图数据的全新解读方式。在未来也可以结合更多维度的数据,来构建可更准确描述心血管健康水平的心血管年龄。