TOXRIC: 全面的毒理学数据与基准数据库|算法|转录组|化合物_网易订阅

link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

儒雅的投影仪 · Vol.205 ...· 11 月前 ·

不爱学习的番茄 · Full-Time MBA Cost | ...· 1 年前 ·

飞翔的橡皮擦 · 最新抽象几何图案高清%E-哔哩哔哩_Bili ...· 1 年前 ·

会搭讪的卤蛋 · 如何用UPDATE进行单表更新和多表关联更新 ...· 1 年前 ·

行走的楼房 · 2024年6月13日外交部发言人林剑主持例行记者会· 1 年前 ·

近日，军事科学院军事医学研究院的 伯晓晨、何松课题组 在 Nucleic Acids Research 杂志发表了题为 TOXRIC: a comprehensive database of toxicological data and benchmarks 的文章，开发了一个全面且实用的化合物毒理学数据库TOXRIC（https://toxric.bioinforai.tech/），提供全面的毒理学数据与基准测试结果。

图片

化合物对环境、人类和其他生物产生的毒性效应包括多种类别，例如肝毒性、心脏毒性、致癌性、生态毒性等，这一直是药物发现、生态学等许多研究领域的焦点问题。在化合物/药物发现的早期阶段评估其潜在的毒性效应至关重要。

为了加速毒理学、化合物/药物发现与化合物毒性的计算预测研究，军事医学研究院的 伯晓晨、何松课题组 开发了化合物毒理学数据库TOXRIC，提供全面的毒理学数据与基准测试结果。TOXRIC存储的毒理学数据涵盖113372个化合物，13种毒性类别，1474个体内、体外毒性终点与39种化合物属性数据，均可通过TOXRIC在线网站（https://toxric.bioinforai.tech/）检索与下载。所有毒性终点、化合物属性数据集已整理成机器学习（ML）算法可直接使用的数据格式，可用作ML预测算法的输出与输入数据。此外，TOXRIC为每个毒性终点数据集提供了特征数据基准测试、算法基准测试与分子表示可视化结果。基于这些结果，研究人员可以针对不同终点预测任务选择最优的特征类型、分子表示和基线算法。

图片

1 方法

1.1 数据收集与整理

TOXRIC储存了113372个化合物的13种毒性类别数据，包含急性毒性、致癌性、致突变性、发育和生殖毒性、肝毒性、心脏毒性、呼吸道毒性、内分泌紊乱、刺激性和腐蚀性、生态毒性、临床毒性、ToxCast/Tox21 Assay、CYP450，涉及超过15种物种上测定的1474种体内、体外毒性终点。数据主要来源包括ToxCast/Tox21、LTKB、ChemIDplus数据集及Jain et al.等研究。数据整理过程包括化合物筛选、多源数据整合和单位标准化等。提供的毒性终点数据集已整理成ML算法可直接使用的数据格式，包括分类与回归任务数据集。每个化合物分配唯一标识符TAID。

此外，TOXRIC提供化合物的39种属性数据，包含7种分子指纹、靶标、3种药物扰动的转录组数据、代谢反应、两种药物属性与25种Chemical Checker（CC）描述符。上述数据可直接用作ML算法的输入特征数据。

1.2 基准建立

TOXRIC为所有终点数据集提供两种基准测试结果，即特征数据基准测试与算法基准测试，系统评估了36种特征类型作为输入、4种典型机器学习/深度学习算法的性能结果。分类数据集使用F1作为性能评估指标。回归数据集使用RMSE与R2作为评估指标。RMSE值越小、或R2/F1值越高表示预测性能越高。使用五折交叉验证测试，提供指标平均值与标准差结果。

在特征数据基准测试中，测试了7种分子指纹、靶标数据、3种转录组数据、25种CC描述符分别作为输入特征数据，在XGB算法上的预测性能。在算法基准测试中，将PubChem指纹和RDKit2D描述符（具有最高平均预测性能）拼接作为模型输入，评估了XGB、RF、SVM和DNN 4种典型算法的性能。

1.3 分子表示可视化

通过t-SNE散点图展示了14种分子表示在分类数据集上的聚类效果与数据分布。分子表示包括11种原始特征数据与3种ML算法生成的表示。原始特征包括7个分子指纹、靶标和3个转录组数据。ML算法生成的表示指通过DNN、RF、XGB进行表示学习或特征选择得到的数据。

2 数据库的内容与使用

TOXRIC包含8个页面：

Home、Search页面提供化合物检索/批量检索功能；

Data Collection页面展示所有毒理学与属性数据集的概况；

Statistics页面提供数据集的统计结果；

Benchmark&Representation页面展示基准测试与分子表示的可视化结果；

Download页面提供所有数据集的下载链接；

用户可以通过Contribute页面上传自己的毒理学数据；

Contact&About页面提供网站所有功能的分步使用手册。

2.1 数据浏览

1）浏览数据集概况：Home页面提供TOXRIC数据集概况 （图1） ，用户可通过点击字段链接到相应的数据集描述。

图片

图1 Home页面的数据集概况

2）浏览数据集基本信息：Data Collection页面提供了毒性类别、毒性终点、特征空间数据集的基本信息，包括数据集描述、化合物数量、来源和特征维度等。用户可以点击Details按钮查询数据集的详细信息。在详细信息页面上，数据集中包含的所有化合物以分子图的形式列出 （图2A） 。点击化合物将打开化合物信息页面。

3）浏览数据集统计结果：Statistics页面以饼图和条形图的形式展示数据集的多维度统计结果。

2.2 数据检索

1）检索方式：在Home页面的搜索框或Search页面可以通过TAID、化合物名称、IUPAC名称、PubChem CID、SMILES、InChIKey和InChI标识符检索化合物，支持模糊搜索与批量搜索（Search页面）。

2）检索结果展示：化合物信息页面由三个模块组成，即化学信息、毒性类别和特征空间。化学信息模块提供了七种常用的标识符类型和化合物的物理化学性质 （图2B） 。毒性类别模块展示了该化合物在13个毒性类别下的毒性终点值 （图2C） 。在特征空间模块 （图2D） ，化合物的靶标、类别和代谢反应以文本格式展示，靶标在KEGG通路、GOBP的富集结果以气泡图形式展示 （图2E） ，转录组、分子指纹和CC描述符的特征向量需下载使用。用户可以通过单击右上角的Download按钮下载化合物的毒性终点或特征数据。

图片

图2 化合物检索结果

2.3 基准测试结果与分子表示可视化展示

Benchmark&Representation页面展示了特征数据基准测试、算法基准测试和分子表示的可视化结果。

1）Benchmarks for Feature Types页面以条形图的形式展示了分别利用36种特征类型作为输入的性能评估结果 （图2F） 。特征类型包括7种分子指纹、靶标数据、3种转录组数据、25种CC描述符。

2）Benchmarks for Algorithms页面展示了4种典型算法的基准测试结果，包括XGB、RF、SVM和DNN （图2G） 。

3）T-SNE Embedding of Molecular Representations页面展示了14种分子表示在分类数据集上的聚类效果与数据分布 （图2H） 。通过t-SNE散点图展示结果。

2.4 数据下载

所有数据集下载无需注册或登录。各终点、特征类型数据提供单独下载。

2.5 数据贡献

用户可通过Contribute页面或联系我们（hes1224@163.com）上传毒理学数据。

3 案例分析

3.1 TOXRIC使用方法

本节以mouse_intraperitoneal_LD50终点数据集为例，介绍如何使用TOXRIC进行化合物毒性的计算预测 （图3） 。

1）在Download页面下载该终点数据集作为标签数据 （图3A） 。

2）在Benchmark&Representation页面查看特征数据基准测试结果，MACCS分子指纹在该终点上具有最优性能（RMSE指标） （图3B） 。

3）在Download页面下载MACCS指纹数据集作为输入特征 （图3C） 。

4）在Benchmark&Representation页面查看算法基准测试结果，发现RF算法在该终点上具有最优性能（RMSE指标） （图3D） 。选择RF为开发新ML算法的基线。

毒性预测的逐步应用示例请参阅补充数据和Contact&About页面。

图片

图3 TOXRIC使用示例

3.2 基准测试结果分析

对于计算预测，根据基准结果选择合适的特征类型和基线算法至关重要，这两种测试结果被提供在TOXRIC的Benchmark&Representation页面。以回归数据集为例，在特征数据基准测试结果中，对每个特征类型的RMSE值取平均，分子指纹特征显示出显著的性能优势。大多数情况下，RDKit2D描述符和PubChem指纹获得最优性能。然而，在特定终点上，转录组数据可能取得最优。此外，算法基准测试结果显示，XGB获得了最优F1结果，RF获得了最佳RMSE结果。但在某些特定的数据集中，SVM或DNN可以获得最佳性能。研究人员应该根据基准测试结果为不同的终点选择最优的特征类型。

3.3 分子表示特征分析

与ML模型训练后生成的表示相比，原始特征很难展示聚类效果。在将原始特征映射到新的特征嵌入空间之后，DNN可以更好地学习输入数据中的规则。此外，靶标和转录组谱的特征显示出与分子指纹完全不同的分布，这可能为相关研究提供化合物表征的新见解。

3.4 应用场景

1）单个化合物的毒性信息检索和下载可用于毒理学研究、毒理学机制解释和化合物/药物发现。每种化合物的毒性值、化学信息、转录反应谱、代谢反应方程式、靶标及其通路富集结果等都可通过TOXRIC网站查询与下载。

2）TOXRIC提供多种分子表示的可视化结果，便于研究人员更好地理解在不同空间的分子表示，包括原始特征、靶标、转录组空间与经过ML算法学习后生成的表示空间。

3）TOXRIC提供了ML算法可直接使用的毒性终点、输入特征数据集和两种计算基准测试结果，便于毒性计算预测算法的开发。终点、特征类型数据集可下载并直接用作ML模型的输出与输入。两种基准测试结果可以帮助研究人员为每个毒性终点预测任务选择适当的特征类型和基线算法。

4 与现有数据库的对比

现有的毒理学数据库可被划分为四类：toxicity category-centric、toxic feature-centric、compound-centric、ML task-centric，统计结果如下表。本文与该四类涉及的20个毒理学及其相关数据库进行了详细对比，展示了TOXRIC的独特优势。

图片

天津大学博士生武连莲、复旦大学博士生颜博威为该论文的共同第一作者，军事医学研究院伯晓晨研究员、何松副研究员为该论文的共同通讯作者。

伯晓晨 研究员/何松副研究员课题组一直致力于利用生物医学大数据与人工智能的多种计算模型研究癌症等复杂疾病的致病机理和药物治疗方案，在Nature、Nature Microbiology、Molecular Cell、Nucleic Acids Research、Genome Biology、Briefings in Bioinformatics等杂志发表多篇论文。

课题组长期招收硕士、博士研究生及博士后，欢迎感兴趣的同学加入或来函咨询，联系邮箱：hes1224@163.com。

制版人：十一

参考文献

Lianlian Wu, Bowei Yan, Junshan Han, Ruijiang Li, Jian Xiao, Song He, Xiaochen Bo, TOXRIC: a comprehensive database of toxicological data and benchmarks, Nucleic Acids Research , 2022;, gkac1074, https://doi.org/10.1093/nar/gkac1074.