AI 现在可以计算任何蛋白质的 3D 结构
- 研究人员使用深度学习模型根据蛋白质的氨基酸序列确定蛋白质的 3D 结构。
- 经过完全训练后,它在估计没有先验知识的蛋白质结构方面可以轻松胜过所有现有技术。
蛋白质是人体的主要组成部分之一。它构建和维持组织。在化学上,它由氨基酸组成——由氢、碳、氧、氮或硫组成的有机化合物。
蛋白质通过将自身折叠成精确的三维结构来控制它们与其他分子的相互作用,从而执行几乎所有生命所必需的基本生物过程。
由于蛋白质的形状决定了其在各种疾病中的功能和作用,因此研究和预测其结构对于开发挽救生命和改变生命的药物具有重要意义。
然而,这并不像听起来那么容易。在过去的 5 年里,蛋白质折叠一直是生物化学家最具挑战性的问题之一。已经开发了许多计算方法,特别是近年来,用于预测蛋白质如何折叠,但尚未实现明确的序列到结构图。
现在,哈佛医学院的研究人员使用深度学习模型(人工智能的一种形式)根据蛋白质的氨基酸序列确定蛋白质的 3D 结构。它在速度方面比现有的最先进技术高出 6 到 7 个数量级。
应用端到端的可微深度学习
高级算法使用蛮力技术来模拟氨基酸相互作用的复杂物理学并确定蛋白质结构。为了减少计算开销,这些算法将新序列映射到代表先前确定的蛋白质结构的预先设计的模板上。
一些人工智能项目,如谷歌的 AlphaFold,解析大量包含蛋白质序列蓝图的基因组数据。然而,这些方法并不能仅根据氨基酸序列来估计结构。他们无法确定进化的独特蛋白质(过去从未研究过的蛋白质结构)。
因此,研究团队使用了一种端到端的可微分深度学习技术,该技术已经在一些最流行的应用程序中被证明是有效的,包括谷歌翻译和苹果的 Siri。
参考:细胞系统 | doi:10.1016/j.cels.2019.03.006 |哈佛医学院
这种称为循环几何网络的深度学习系统强调蛋白质折叠的关键特性。它接受了数千个预定蛋白质序列和结构的训练。
对于每一个氨基酸,算法都会计算连接酸与其相邻氨基酸的化学键的角度,以及围绕这些化学键的旋转角度。
网络如何计算化学键的角度和围绕这些键的旋转角度以构建蛋白质结构的视觉模拟。 |图片来源:Mohammed AlQuraishi
神经网络执行这些计算(每次迭代都根据每个其他氨基酸的相对位置进行细化),直到结构完成。然后,系统通过将其与真实的蛋白质结构(从直接观察中获得)进行匹配来检查其结果的准确性。
结果
对几种不同的已知蛋白质重复此过程,并且系统的准确性随着每次迭代而增加。训练网络可能需要几个月的时间,但一旦训练完成,该模型在估计没有先验知识的蛋白质结构方面可以轻松超越所有现有技术。
尽管如此,模型的准确性还不足以解析蛋白质的完整原子结构。因此,它尚未准备好用于药物设计或发现。
阅读:新方法使用手机摄像头测量血液中极其稀有的蛋白质
目前,它可以补充其他技术,以预测比以前可能的范围更广的蛋白质结构类别。有很多机会可以通过整合物理和化学定律来改进模型。如果你想自己尝试,代码和结果可在GitHub上找到。
工业技术