北大科研团队联合开发机器学习计算方法,预测蛋白质金属结合位点

机器学习1年前 (2023)发布 aixure
97 0 0
导读:近日,北京大学王初与苏晓东课题组合作在Nature Chemical Biology上发表文章,基于机器学习和蛋白质共进化信号,分析预测蛋白质中的金属结合位点,开发了2D机器学习计算方法MetalNet,为研究金属蛋白质组和金属生物学提供了新的研究工具。 论文截图 | 参考文…

近日,北京大学王初与苏晓东课题组合作在Nature Chemical Biology上发表文章,基于机器学习和蛋白质“共进化”信号,分析预测蛋白质中的金属结合位点,开发了“2D”机器学习计算方法“MetalNet”,为研究金属蛋白质组和金属生物学提供了新的研究工具。

论文截图 | 参考文献[1]

以下是文章作者为果壳撰写的研究解读。

什么是金属结合蛋白

蛋白质是承担重要功能的生物大分子,而金属离子由于其独特的物理化学性质,在蛋白质中发挥着稳定结构、催化反应、运输物质、传导信号等功能。据估计,人体内两万多种蛋白质中有四分之一甚至三分之一都会与金属离子发生结合,因此,对蛋白质具体金属结合位点的预测,有助于进一步深入研究和理解蛋白质的功能。

金属蛋白的功能(来自维基百科https://en.wikipedia.org/wiki/Metalloprotein)

目前已有多种实验方法直接探索蛋白质组中的金属结合蛋白,也出现了依赖蛋白质的1D氨基酸序列或者3D结构的计算方法,但从蛋白质组还未发现序列或结构同源性的蛋白中发现新型金属结合蛋白,预测其结合位点仍具有挑战。

在这个研究中,该团队探究了“共进化”信号在蛋白质金属结合位点的分布情况,结合共进化信号和机器学习策略,开发了“2D”机器学习方法“MetalNet”,预测蛋白质组中金属结合蛋白以及金属结合位点。

什么是共进化

多序列比对与共进化信号 | 团队供图

近年来,已有研究从多序列比对(multiple sequence alignment,MSA)中计算得到蛋白质残基之间的共进化信号,并结合机器学习对蛋白质结构及蛋白质-蛋白质相互作用做出预测。多序列比对是蛋白质研究中的常用方法。传统的生物信息方法主要关注在不同序列之间不易变化的保守信息,而有一类氨基酸对会在不同序列间频繁变化,但两两之间存在协同的特征。处于同一序列的某一对氨基酸,可能在折叠形成的三维结构中距离较近而发生相互作用,维持蛋白质的稳定性,因而两者其中一个残基发生突变,另一个相应发生突变,这被称为“共进化”(coevolution)。受此前工作启发,该团队想探究共进化能否在蛋白质功能位点预测中发挥作用。

简单介绍MetalNet

该团队挑选了具有“共进化”信号的氨基酸对,并统计它们在MSA中的频率矩阵,结果发现金属结合位点的 “图案”与非金属结合位点存在明显的区别。于是研究人员训练了一个简单机器学习模型,基于两者的差异对这些“图案”进行二分类,并预测这些氨基酸对是否可以结合金属离子。

MetalNet流程图 | 团队供图

在对目标蛋白进行预测之后,可以得到一个“图”,每个氨基酸对可以视为“图”中的“边”。经过进一步统计分析,可以在图上定位出具有高置信度的“团簇”作为预测结果,即潜在的金属结合口袋。同时,这些团簇还可以和已知的金属结合口袋进行比较,给出可能结合的金属类别。

该团队通过一系列的数据挖掘和分析,展现出MetalNet非常可信的预测结果,并且在提高MSA的质量的情况下,可以进一步优化预测结果。本方法不依赖蛋白质结构,仅输入多序列比对衍生的共进化信息,但最终表现略好于传统基于结构的方法,同时由于具有较高的准确度,非常适合用来进行蛋白位点功能注释及指导蛋白质功能研究实验等。

发现新的金属结合蛋白

MetalNet在测试中也表现优异,预测的结构符合实验得到的结果。将其应用于预测Pfam蛋白质家族数据库中缺少结构的蛋白质时,在1116个家族代表性蛋白中预测到175个具有共进化残基网络簇的蛋白。该团队在生化和结构水平上验证了几个未被注释的金属结合蛋白,并解析了来自大肠杆菌的蛋白citX的晶体结构,预测得到一个由三个半胱氨酸(C145、C148 和 C155)和一个组氨酸H161组成的共进化网络,该网络的拓扑结构与实验得到的锌结合位点非常吻合。

CITX金属结合位点的实验验证 | 团队供图

由于蛋白质结构预测在这两年取得了飞速进展,DeepMind已经发布几乎所有已知蛋白的预测结构,只依赖序列信息方法可能已经不具优势。该团队希望在未来可以利用如神经网络等框架,将结构信息也引入机器学习流程,同时努力把MetalNet开发方法应用于更多蛋白结合位点,解决不同金属类别的预测问题。

参考文献

作者:刘源 程瑶

编辑:靳小明

排版:尹宁流

题图来源:团队提供

北京大学化学与分子工程学院2017级博士研究生程瑶、2018届博士毕业生王浩博、北京大学生命科学学院2022届博士毕业生徐华和王初课题组的刘源副研究员为本文的共同第一作者。王初课题组的马斌、陈学敏、曾欣和王相贺等合作者为本课题做出了贡献。该工作得到了国家自然科学基金委和北京分子科学国家研究中心的经费支持。

赞助本站

© 版权声明

相关文章

暂无评论

暂无评论...