从合成生物学期刊文章中挖掘供机器学习(ML)应用的知识是一个劳动密集型的过程。而这篇来自预印本 Biorxiv 的 2023 年 6 月发表的文章:「Generative artificial intelligence GPT-4 accelerates knowledge mining and machine learning for synthetic biology」则尝试利用 GPT-4 来加速了这一过程。作者使用 GPT-4 从 176 篇关于两种产油酵母(解脂耶氏酵母和圆红冬孢酵母)的出版文献中提取了所需信息,在与分子库数据库整合后的数据数据作为机器学习的输入。结构化数据集使机器学习方法(如随机森林模型)能够高精度地预测菌株的发酵产量。
这项工作表明自然语言处理工具(如 GPT-4)的发展可以加速提取与复杂菌株工程和生物反应器条件下微生物性能相关的公开信息,展示了生成式人工智能在更有效地收集数据和快速整理信息用于合成生物学研究方面的潜力,这也将加快商业生物制造开发的设计-构建-测试-学习(DBTL)循环。
合成生物学工具能够改造微生物以实现可持续生物制造。由于生物系统的复杂性,研究者们在开发微生物工厂时,通常需要依赖不断试错来进行突破。
细胞性能的模型预测是减少试错次数以及提高菌株开发效率的关键。
然而模拟微生物生产时,使用的机理模型
(如基因组尺度模型)
很难把所有影响因素都考虑在内。另一方面,目前机器学习已被应用于科研中
(如预测发酵产量、优化生物工艺,推荐菌株工程方法)
,但缺点是它需要大量的实验数据进行训练。因此,
从已发表的期刊文章中挖掘知识可以成为一种低成本训练机器学习模型的策略。
自然语言处理
(NLP)
作为 AI 的一个分支,可以大规模处理文本并实现对已发表文章的主题进行梳理。与之相比,从大量文章中手动提取数据耗时耗力,且过程中不仅由于各论文中的数据格式不统一,容易出现人为错误和论文数据质量不一致等问题,还需要进一步花费大量精力将信息整理成适合机器学习的数据。NLP 还可以被用于在电子健康记录追踪药物不良反应中。
NLP 领域最近的一个转折点是 GPT-4 的发布。GPT-4 能够根据用户提供的上下文快速解析文本,展示通用型人工智能的潜力。借助 GPT-4,我们可以从已发表的论文中提取出相关的生物过程特性和结果,实现数据库的快速扩增。由于 GPT-4 无法提供微生物
(特别是对于非模型化物种)
产量的定量预测
(参见图 1)
,
本研究的目标是将 GPT-4 与机器学习算法结合,预测来自各种微生物细胞工厂的发酵产物浓度
。本次概念验证中,作者将 GPT-4 用于提取工业解脂耶氏酵母文章中的相关知识。
在人工监督之后,这些已发表的案例研究可以转化为实例
(数据样本)
。每个实例包括输出
(产品类型和浓度)
和输入
(数值或类别特征)
。这些特征变量包括生物过程条件
(如培养基组成,底物类型和生物反应器类型)
和代谢途径信息
(如产品合成的酶步数)
。
所有的数据样本都上传到数据库(impact-database.com)后,便可以用来训练机器学习模型
。此外,圆红冬孢酵母是一种新型酵母,最近由于其高脂肪含量和原生类胡萝卜素产生能力而备受关注,但是关于圆红冬孢酵母的文献很少。该验证证明迁移学习
(Transfer learning)
可以将从研究较多的领域
(解脂耶氏酵母训练模型)
获得的知识转移去理解研究较少的场景,从而减少计算成本,加快学习过程。我们首次演示了将 GPT 与知识工程和机器学习结合,用于预测不同的微生物细胞工厂。这项研究的结论还将改善人工监督,促进未来 GPT 应用的工程设计。图 1 显示了 GPT-4 数据提取和未来应用的标准化工作流程。
图 1:用于机器学习的 GPT-4 知识挖掘(左图)和潜在的 AI 应用(协助生物制造设计、商业决策或项目质量/风险评估)
机器学习方法需要大量的实验数据来关联机器学习的输入
(特征)
和输出
(生产)
。由于生物制造领域的文献提供了丰富的菌株构建和生物过程工程的案例研究,因此从已发表的论文中构建数据库可以广泛地支持机器学习的应用。之前的数据库构建努力,如 LASER,已经以对代谢工程师有用的方式存储了知识,但这些数据库并未为直接的机器学习应用进行组织或转化。另一方面,这项研究涉及知识挖掘和特征工程,目的是过滤错误/冗余的信息,并捕获那些独立影响生物生产的特征。
在这项研究中,生物生产的特征基于生物反应器条件和基因工程方法。人工提取这些特征和生产结果可能会很费时,因此我们使用 GPT-4 来克服这个挑战
。一般原则是将复杂的任务划分为小的可传递的任务。由于 GPT-4 的最大上下文窗口为 8192 个 token,因此每篇科学论文的各个部分,包括摘要、材料和方法、结果和数据表,都被手动分离成文本文件。然后根据它们的内容在每个部分的开头添加不同的提示词
(详情可见原文链接中的表 1)
。然后,GPT-4 将实验结果和方法的信息总结到易于获取的表格中。
在不丢失重要知识的情况下提取数据极具挑战性,因为出版物中的数据报告往往零散且不一致。为了测试 GPT 的适用性,我们开始在 2023 年 3 月 15 日使用 GPT-3.5 API 从期刊文章中提取圆红冬孢酵母的发酵数据。一个博士生使用 GPT 优化工作流程一周的输出如图 2a 所示。当使用 GPT-3.5 时,他平均每天能提取 11.7 篇论文
(8 小时工作时间)
。3 月 16 日该博士生使用 GPT-4 提取了 25 篇论文。我们测试了 GPT-3.5 从 10 篇论文中提取的数据的正确性。与之前手动提取的数据集相比,我们发现 GPT-3.5 提取的滴度数据正确率是 74%。一些错误的数据很明显,因为它们包括连续的、重复的或在文章中不存在的数字。通过人为判断进行输出的修复后,滴度数据正确率是 89%。
当 GPT-4 从 10 篇解脂耶氏酵母的论文测试集中提取数据时,滴定数据中没有错误
。在
(补充表2)
中总结了数据的位置、输出格式和正确率。总共,我们从 60 篇圆红冬孢酵母文章中获得了 366 个数据实例。
图 2:GPT-3.5 与 GPT-4 的速度和准确率差异。a. 单个用户在五天内处理的圆红冬孢酵母相关论文数量。b. 从包含 115 个发酵实例的 10 篇解脂耶氏酵母测试集文章中提取的数据的准确性。注意:在用于机器学习之前,所有数据都经过了人工检查,排除了错误。
在这个阶段,人工监督仍然是确保 GPT 输出准确性的必要条件。提取一篇论文中的数据,工作流程通常需要 20 分钟:标记和划分文章章节 ➔ 在 ChatGPT 网站上输入提示 ➔ 记录 GPT 的响应 ➔ 将结果整合到适用于机器学习的数据集 ➔ 质量检查。
这个工作流程相比于手动阅读有所改进,因为:
(1)不依赖于某一个人的专业知识,可以在团队中并行化进行,(2)不需要为数据记录花费大量精力,(3)能够可重复地提取数据,可以有针对性地检查错误,而不是费力地阅读每一节,(4) 一旦 GPT-4 的应用编程接口(API)可用,它将可以适应自动化。
解脂耶氏酵母是一种重要的工业酵母。我们之前的研究从大约 100 篇解脂耶氏酵母相关论文中
(大约 3000 个实例)
手动提取信息,这花费了一名有经验的研究生 400 多个工作小时。通过 GPT-4 的工作流程,我们从 115 篇论文中额外提取出约 1670 个数据实例,并将其组织成 28 个可能影响生产浓度
(产量)
的特征
(表 2 可在原文链接中查看)
。除了 GPT-4 从文本中提取的实验数据外,我们还开发了一个分子库存,包含如热力学属性、生物生产路径步骤、前体物质和辅因子成本等数据。这个分子库存是我们的 ImpactDB 在线数据库
(impact-database.com)
的重要组成部分,我们将在未来持续更新它。有了这个集中的库存,我们可以直接搜索每个底物/产物的信息并填充 ML 特征,从而在数据库构建过程中节省宝贵的时间。
为了进一步验证 GPT-4 的适用性,我们通过计算特征重要性、特征差异和主成分分析
(PCA)
来比较手动提取的数据和 GPT 提取的数据。
GPT 提取的数据在特征重要性的分布上与手动提取的数据相似
(图 3a)
,这表明新生成的数据遵循了与手动提取的数据相似的模式。有趣的是,对于 28 个特征中的 19 个,GPT 数据集比手动提取的数据集具有更高的特征方差。此外,主成分分析
(PCA)
表明特定条件下 GPT 提取的数据的簇间平均距离比手动提取的数据高 7%
(图 4)
。手动提取数据集的聚类主要受碳源和产品辅酶成本的影响。相比之下,除了碳源和辅酶成本外,GPT 提取的数据还根据培养条件和遗传工程特征进行聚类。这些发现表明,
GPT-4 能够在论文中捕捉到更多的独特性,并通过复杂的上下文数据进行推理,生成偏差较小的生物制造实例。
图 3:手动提取的解脂耶氏酵母数据集与 GPT-4 提取的解脂耶氏酵母数据集的比较。a. 使用随机森林回归确定的特征重要性,从高到低排列。b. 规范化的特征差异。(紫色:手动提取的数据集,黄色:GPT-4 提取的数据集。)
图 4:使用 K-均值无监督学习的主成分分析 (PCA)。(a)手动提取的数据集的 PCA。(b) GPT-4 提取的数据集的 PCA。注意图 a 和图 b 之间的轴比例差异。
发酵产物浓度决定了生物工艺的经济性,是微生物细胞工厂中最重要的参数。GPT 辅助的数据库构建可以支持对酵母发酵产物浓度在各种条件下的定量预测。具体来说,解脂耶氏酵母的发酵实例形成了一个全面的数据库来训练机器学习模型。我们对七种经典的机器学习算法
(支持向量机(SVM)、高斯过程(GP)、多层感知器(MLP)、随机森林(RF)、极端梯度提升(XGBoost)、k-最近邻(KNN)和线性回归)
进行了比较测试。
结果表明,
包括线性回归和线性 SVM 在内的机器学习方法表现得最差,这表明产物浓度的预测不能准确地由线性关系来表示。全连接的 2 层神经网络也没有给出最好的性能。总的来说,RF 模型实现了最佳的精度
(R2 为 0.86(图 5a))
。因此,
我们选择使用 RF 集合学习器来预测产物浓度,这是基于底物浓度、热力学数据、生长条件和工程基因的组合
。RF 回归器对几乎所有产品类别的测试集性能都很优异:有机酸、脂质、萜烯、黄酮、脂肪酸衍生物、糖醇、多糖和多酮
(图 5b-k)
。新的解脂耶氏酵母机器学习模型,其训练数据库大约比之前的模型大 50%,对小萜烯和多酮产品的产物浓度预测也显示出一般的改进。
然而,新模型仍然无法解释与大萜烯相关的数据,如图中标有水平连续点的区域所示,同一组特征结果在产物浓度上的范围非常广。
这是因为知识挖掘仍然缺少一些关键的生物制造特征,如底物抑制、细胞区室化等。
另外,关键基因的 DNA 序列若想用作新的机器学习输入,需要大量的特征工程工作。
图 5:使用随机森林集成学习器进行解脂耶氏酵母发酵产物浓度的测试集预测。
由于其独特的代谢能力,非模型细胞工厂正在快速发展。例如圆红冬孢酵母是一种非模型酵母,可以将便宜的饲料转化为高价值的类胡萝卜素。然而,非模型细胞工厂的报告数量有限。为了更好地预测在新条件下的性能,我们利用迁移学习利用解脂耶氏酵母数据库的知识。例如,我们的圆红冬孢酵母数据库包含了从 60 篇文章中提取的 366 个发酵结果,这些结果可以支持 RF 模型预测脂质和生物量的产生
(R2 > 0.4) (补充图 4)
,但数据库缺乏遗传工程特征。例如,关于圆红冬孢酵母中虾青素的报告主要关注其自然途径。因此,
从解脂耶氏酵母的文献中转移的知识可能预测遗传工程如何影响圆红冬孢酵母中虾青素的生产,并为未来的菌株开发提供指导。
在这里,我们使用了两种归纳学习方法:(1) 利用预训练的编码解码结构的神经网络进行基因表达数量对虾青素合成影响的表示学习
(presentation learning)
;(2) 利用基于实例的随机森林 TL 方法来解决源目标领域的差距。
因为底层假设不同,我们评估了这两种不同的方法。预训练的编码器暗示解脂耶氏酵母和圆红冬孢酵母数据来自同一知识领域并有相同的统计分布。
但是我们发现对于复杂且相互关联的生物系统,通过编码器方法进行特征维度降低可能会产生不利的效果。相比之下,基于实例的随机森林 TL 方法可以处理来自两个不同知识领域的数据
(具体信息可在原文链接中查看)
。
首先,我们试验了 GPT-4 整合数据表并输出最终机器学习就绪数据集的能力,结果表现令人满意。然而,
图形数据仍然不包括在 GPT-4 的数据提取过程中。
在未来,多模态语言模型可以解析图像进行数据提取。
其次,我们试验了 GPT-4 整合数据表并输出最终机器学习就绪数据集的能力,结果表现令人满意。但是,由于标记限制
(大约8k)
,这个过程在几行后就会停止,
上下文长度是大规模 GPT 应用的瓶颈。
第三,在我们的数据提取过程中,我们遇到了一些情况,
即 GPT-4 无法区分启动子和基因,或者将原生基因和异源基因混淆。如果不了解 GPT-4 的自监督学习机制,由于其非确定性特性,很难解释其性能。
第四,
GPT 偶尔会因为误解提示而提供看似合理却不符合事实的答案
。为了解决这些问题,可以应用少数示例引导、思维链、增强语言模型或通过人类反馈进行强化学习的技术。
第五,
GPT-4 在预测超出其数据库的信息时,会遇到困难
。在研究未知领域时,转移学习是解决方案。在当前的特性下,一个简单的随机森林
(RF)
模型配合实例转移方法在数据库规模不大的情况下,已经展现出在未见过的数据上进行合理的泛化预测的良好能力。对于诸如酿酒酵母和大肠杆菌之类的微生物宿主,可以通过从数以万计的相关文章中提取数据来实现全面的知识挖掘和大型数据库。
未来,GPT-4 的开发者工具和插件的发布有潜力在合成生物学中革新数据科学。AI 可以促进快速的数据感知、处理,以及经典机器学习算法的实现,以加速 DBTL(Design-Build-Test-Learn,设计-构建-测试-学习)周期。
生物医学是一个复杂且富有挑战性的领域,涉及到大量的数据处理、模式识别、理论模型建构和实验验证等问题。AI基础模型的引入,使得我们能够从前所未有的角度去观察和理解这个领域的问题,加速科学研究的步伐,提高医疗服务的效率和效果。这种交叉领域的合作,标志着我们正在向科技与生物医学深度融合的新时代迈进,对于推动科学研究、优化医疗服务、促进人类健康有着深远的影响。
集智俱乐部联合西湖大学助理教授吴泰霖、斯坦福大学计算机科学系博士后研究员王瀚宸、博士研究生黄柯鑫、黄倩,华盛顿大学博士研究生屠鑫明,共同发起以“大模型与生物医学”为主题的读书会,
共学共研相关文献,
探讨基础模型在生物医学等科学领域的应用、影响和展望。
读书会从2023年8月13日开始,每周日早上 9:00-11:00 线上举行,持续时间预计8周。
欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。
详情请见:
大模型与生物医学:AI + Science第二季读书会启动