添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

2020年1月6日哈佛医学院Mohammed AlQuraishi和Peter K. Sorger研究团队合作在Nature methods上发表题Biophysical prediction of protein–peptide interactions and signaling networks using machine learning的研究成果。该研究利用机器学习方法能够准确地预测多蛋白家族间的球形蛋白结合域(PBD)-肽相互作用的亲和性。

在哺乳动物细胞中,许多信号转导是由球形蛋白结合域(PBD)与伴侣蛋白中非结构化肽基序之间的弱蛋白-蛋白相互作用介导的。这些PBD(已知1800多种)的数量和多样性,低结合亲和力和结合特性对微小序列变异的敏感性,对PBD特异性和PBD创建的网络的实验和计算分析提出了重大挑战。在这里,研究者介绍了一种定制的机器学习方法,即分层统计机器建模(HSM),能够准确预测跨多个蛋白质家族的PBD-肽相互作用的亲和力。通过在现代机器学习框架内合成生物物理实验,HSM优于现有的计算方法和高通量实验分析。HSM模型可以在三个空间尺度上以熟悉的生物物理术语来解释:蛋白质-肽结合的能量学、蛋白质-蛋白质相互作用的多齿组织和信号网络的整体架构。

模型设计和方法

研究者为六个常见的PBD家族构建了HSM模型,这些家族涉及磷酸酪氨酸,多脯氨酸和C端肽位点(PDZ, SH2, SH3, WW, WH1, PTB; n = 823个域),以及酪氨酸激酶和蛋白质酪氨酸磷酸酶(TK,PTP; n = 143个域;如图1a所示)。在人类蛋白质组中,估计含有PBD的蛋白质总数约为104个蛋白质(图1b),它们参与了〜105-106个相互作用(图1c)。本文研究的8个域占人类PBDs总数的39%左右。原则上,相同的建模框架适用于所有剩余的人类PBD,但是数据稀缺(每个家庭报告的互动少于100个)使评估模型性能变得困难。在开始机器学习之前,研究者执行组合的序列/结构比对,使给定的PBD家族和肽类的所有残基位置对应,从而形成一个统一的残基坐标系统。然后,HSM学习一个伪哈密顿量,该伪哈密顿量将各个残基和残基对映射成结合能,并遵循两个约束条件:(1)在PBD族中,相同位置的残基或残基对始终贡献相同的能量,并且(2)在PBD族中,残基对能量来自固定的势能池。针对第一个限制,研究者提出适用于一个PBD家族中的所有域的模型描述为独立域的HSM (HSM/ID)(图1d)。针对第二个限制,通过迫使HSM模型学习一组残基-残基电位的形式来正式化不同类型的蛋白质之间的相互作用是由相对有限的一组相互作用表面介导的这一观察结果(图1d)。

图1. PBD和建模框架

训练和验证

为了训练HSM模型,研究者组装了一个约2×106PBD-肽相互作用的数据集,该数据集主要来自基于阵列的分析;将数据二值化以允许将来自不同实验方法的值进行合并,从而产生3–5%的正相互作用。采用AUC和Recall作为评价指标,和对比方法的比较结果如下图所示。

图2. 模型性能和新预测的PPIs。

信号网络的视角。

许多蛋白质包含具有和不具有共生肽位点的多个不同类别的PBD。为了研究涉及这种结合类型的网络,研究者生成了一个高蛋白人类PPI预测(HSM/P,P> 0.7)的蛋白质组范围的节点边图,其中节点对应于蛋白质,相互作用对应边(图6)。

图3. 人类PBD介导的PPI网络的层次组织。

因为已学习的伪哈密顿量是HSM的基础,所以可以用熟悉的特定位置的结合能来解释已学习的相互作用。因此,HSM能够通过促进对PBD和/或肽功能的理解和预测,在三个空间尺度上提供结构上的洞察力:残基/共复合体水平;蛋白质水平,通过量化在多齿状相互作用中单个PBDs和配体的相对贡献和网络级,通过支持大规模建模信息传输从细胞表面到细胞结构和功能的决定因素。

通过将学习的能量与从晶体结构推断出的见解进行比较,可以最容易地说明HSM捕获的生物物理细节,如本文通过分析SH3域(研究者建模的八类PBD /酶之一)所说明的那样。研究者发现,HSM提供了对与从晶体结构获得的接触区域极为相似的接触区域的洞察力,同时还提供了仅从所有已知SH3结构的全面图获得的更广泛的合成。

Cunningham J M, Koytiger G, Sorger P K, et al. Biophysical prediction of protein–peptide interactions and signaling networks using machine learning[J]. Nature Methods, 2020: 1-9.

2020年1月6日哈佛医学院Mohammed AlQuraishi和Peter K. Sorger研究团队合作在Nature methods上发表题Biophysical predict... 请注意,存储库已过时。 请不要使用我们。 有关访问更新的数据集的信息,请参阅 ;有关更新的2.0版 预测 模型,请参阅 。 预测 与TCR的 相互作用 python scripts/netTCR.py -infile test_data/data.txt -outfile NetTCR_predictions.txt 或带有TCR列表和 段说明: python scripts/netTCR.py -infile test_data/data_tcr_list.txt -peptides GLCTLVAML,NLVPMVATV -outfile NetTCR_predictions.txt 的选项应为: GILGFVFTL,GLCTLVAML,NLVPMVATV和YVLDHLIVV。
“折叠(fold)”的概念 “折叠(fold)”是近年来 蛋白质 研究中应用较广的一个概念,它是介与二级和三级结构之间的 蛋白质 结构层次,它描述的是二级结构元素的混合组合方式。 二级结构的 预测 方法介绍: Chou-Fasman算法: 是单序列 预测 方法中的一种,它是使用氨基酸物理化学数据中派生出来的规律来 预测 二级结构。首先统计出20种氨基酸出现在α螺旋、β折叠和无规则卷曲中出现频率的大小,然
1,背景与目标: 随着测序技术的快速发展,GenBank等数据库中存储了大量基因、蛋白序列信息,其中大部分尚无标注,如何充分利用GenBank等数据库现有数据资源,挖掘数据信息,为精准医疗、药物研发等生物大健康领域提供有价值的信息具有重要意义。目前这方面已有BLAST等生物信息技术可用,这里希望尝试 机器学习 技术在这方面的应用。 2,数据清洗与处理 数据来源于Kaggle竞赛(https://www...
Allison_xixi: 博主,为什么我在最后计算时,它提醒我这个呢 --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) Cell In[38], line 2 1 d = Draw.MolDraw2DSVG(400, 400) ----> 2 _, maxWeight = SimilarityMaps.G AttributeError: module 'rdkit.Chem.Draw.SimilarityMaps' has no attribute 'G' 请问,我应该如何去解决这个问题呢 RDKit | 基于RDKit的SMILES转canonical SMILES wananz: 请问下,出现了下面的报错信息要怎么处理呢? smi = Chem.MolToSmiles(mol) Boost.Python.ArgumentError: Python argument types in rdkit.Chem.rdmolfiles.MolToSmiles(NoneType) did not match C++ signature: MolToSmiles(class RDKit::ROMol mol, bool isomericSmiles=True, bool kekuleSmiles=False, int rootedAtAtom=-1, bool canonical=True, bool allBondsExplicit=False, bool allHsExplicit=False, bool doRandom=False) MolToSmiles(class RDKit::ROMol mol, struct RDKit::SmilesWriteParams params)