2024诺奖 | 他们创造了一个全新的宇宙！ - 推荐阅读

2024诺奖 | 他们创造了一个全新的宇宙！

2024-10-10

蛋白质在细胞内扮演着诸多重要的角色。它们的功能与它们从线性氨基酸链折叠成三维结构后所形成的形态密切相关。因此，理解蛋白质的结构可以阐明它们的功能，进而揭开众多生物学之谜。

2024年诺贝尔化学奖的一半授予了David Baker，以表彰他在计算蛋白质设计方面做出的贡献；另一半授予了Demis Hassabis和John M. Jumper，以表彰他们在蛋白质结构预测方面所做的杰出工作。通过发挥想象力和才能，他们创造了一个全新的蛋白质“宇宙”。

David Baker, Demis Hassabis 和 John Jumper。（图/Nobel Prize Outreach）

一个令人生畏的难题

蛋白质在细胞内扮演着诸多重要的角色。它们的功能与它们从线性氨基酸链折叠成三维结构后所形成的形态密切相关。因此，理解蛋白质的结构可以阐明它们的功能，进而揭开众多生物学之谜。

60多年前，科学家就已经证明，未展开的蛋白质可以在没有帮助的情况下恢复其形状，因此，氨基酸序列编码了蛋白质的最终组织。当一个新的氨基酸链自我组装时，它不可能尝试每一种可能性，因为这即使是对一个中等大小的蛋白质来说，也需要耗费比宇宙的年龄还要长的时间。然而在细胞内部，这种折叠发生在毫秒之间。

对于科学家来说，他们希望至少能在理论上，理解是什么引导了氨基酸链形成正确结构。为此科学家尝试了多种方法，制定了许多策略。

1994年，对蛋白质折叠感兴趣的科学家组织了学术论坛CASP（蛋白质结构预测的关键评估），目的是让相关领域的研究人员能更好地分享和交流研究进展。每隔两年，参与CASP比赛的选手就会收到已确定结构、但还没有对外公布的蛋白质氨基酸序列，他们要做的就是利用他们所开发的系统，对蛋白质的结构进行预测，然后将预测结果与实验测得的结果进行比较。最终根据预测的准确性进行打分。

几十年来，结果在缓慢累积，尽管有时停滞不前，甚至倒退。

蛋白质的构造者

在1993年，Baker通过巧妙的实验，开始探索蛋白质是如何折叠的。上世纪90年代末，他开始开发能够预测蛋白质结构的计算机软件——Rosetta。

1998年，Baker在CASP比赛中首次使用Rosetta，与其他参赛者相比，它的表现得异常优异。这一成功引发了一个新的想法：与其在Rosetta中通过输入氨基酸序列来获得蛋白质结构，应该能够输入一个想要的蛋白质结构，然后获得氨基酸序列的建议。这种反向操作将使他们创造出全新的蛋白质。

在20世纪90年代末的蛋白质设计领域，科学家们大多都聚焦在对已有的蛋白质进行调整，但这些天然蛋白质是有限的。为了增加获得具有全新功能的蛋白质，Baker和他的团队想要从零开始创造蛋白质。

Baker的团队会先描绘出一种具有全新结构的蛋白质，然后让Rosetta计算哪一种氨基酸序列能够产生这种蛋白质。为了做到这一点，Rosetta会搜索所有已知的蛋白质结构的数据库，并寻找与所需结构相似的蛋白质短片段。然后，Rosetta会对这些片段进行优化，并给出一个氨基酸序列。

事实证明，Rosetta确实可以构建蛋白质。他们开发的蛋白质Top7几乎完全具有他们设计的结构。Top7的出现让从事蛋白质设计的研究人员大为震惊。因为那些先前进行类似尝试的人只能模仿已有的结构。而Top7的结构在自然界中是不存在的。

Baker在2003年发表了这一发现。在这之后，Baker在实验室中创造了许多了不起的蛋白质。他还公布了Rosetta的代码，使全球的科学家能继续开发这一软件，寻找新的应用领域。

利用Rosetta构建的蛋白质。

人工智能的加入

到了2018年，在第13届CASP竞赛上，来自DeepMind的科学家正式带着机器学习参与到了这场比赛中。与依赖于预先设想的逻辑的传统AI不同，Hassabis和Jumper团队的系统是以机器学习作为其蛋白质结构预测的核心组成部分，能自发地从数据中发现模式。最终，他们赢得了CASP13的第一名，而且他们的准确性远远领先于第二名，同时也比CASP12的最佳成绩提高了近50%。

尽管取得了这样的成功，但DeepMind的研究人员并不满足，他们想要的是一种实验学家可以真正使用的工具，这需要误差小于1埃（原子大小）。

于是，AlphaFold团队重新开始，他们在系统中加入了几何学和遗传学的概念，并整合了关于蛋白质的所有已有信息，设计出了能够从有限的实验数据中最大限度地提取信息的方法，并发展出了有着更高效的学习策略的AlphaFold2。

新的系统可以在运行过程中的任意步骤调整计算。换句话说，在整个运行过程中，系统可以通过重新修改自己的暂定解，来迭代其发展中的结构模型。

他们还抛弃了许多指导性的传统算法的原则。例如，他们忽略了线性上的接近度，而倾向于关注三维关系，因为相隔数百个亚基的氨基酸，也可以在折叠的蛋白质中聚集在一起。正是把众多的巧妙想法结合在一起，才最终实现了突破性的表现。

AlphaFold2

AlphaFold2会从一个序列开始，然后在数据库中搜索与之相似的序列。它将这些演化家族的成员以氨基酸链的形式排列出来。它还创建了一个信息矩阵，其中包含的是蛋白质中的每一对可能的氨基酸的线性距离以及相对方位的信息。

这两个数据集——多序列排比（MSA）和成对表征会在AlphaFold2的第一阶段（被称为Evoformer）中并行处理。如果相关蛋白质的结构已经确定，系统也可以使用它们。在早期，EvoFormer发展出一个粗略的结构假设，并对其进行检验和完善。

AlphaFold2包含一个特别强大的创新，它允许反映演化关系的MSA与反映空间关系的成对表征进行“交流”。随着信息的流动，这两条路径都可以互相利用另一条路径获得的信息来提高自己的工作效率。

例如，如果MSA识别出两个在演化过程中没有发生变化或共变的氨基酸，那么它会提醒成对表征——这些氨基酸可能发生了物理交互。反之，如果成对表征发现了可能相邻的氨基酸，它可以告诉MSA, MSA可以检查相关蛋白质中的类似氨基酸的演化方式。通过这种方式，两条路径之间的交叉就能帮助各自改进其假设。

在Evoformer尽可能多地解密结构部分后，它将它们传递给结构模块，结构模块会将它们组装成一个连贯的三维蛋白质。当结构模块在摆弄这些碎片时，它们继续变形。

最初，它给每个氨基酸一个位置和一个方向，创建出一个无意义的、聚集在一起的物体。接着，它一步一步地旋转并移动氨基酸，但在这一步它仍然会忽略哪些是线性相邻的。最终，蛋白质的主干开始复现，系统会开始放置能表征每个氨基酸的化学侧链。

AlphaFold2不仅可以预测整个3D结构，还可以预测每个部分的可靠性。

使用AlphaFold2设计的蛋白质结构。

蛋白质科学

在2020年的CASP14上，AlphaFold2再次超越竞争对手，它的预测结果已经精确到原子精度，而且它能在几分钟的时间内，对即使缺乏模板的蛋白质也生成极好的结果。这是第一个可以在没有类似结构的情况下构建高分辨率预测的方法。

2021年7月，Hassabis和Jumper发表了他们的方法以及对几乎所有人类蛋白质的结构预测。在短短两年的时间里，这些结果的影响力已经超过了自1900年以来发表在《自然》杂志上的几乎全部的10万篇研究论文，排名第50位，在顶级期刊上被引用7000多次。

Hassabis和Jumper与欧洲分子生物学实验室的欧洲生物信息学研究所合作，将他们的程序和数据库与整个科学界共享。已经有超过百万的研究人员使用了这些资源。此后，DeepMind团队将其目录扩展到几乎所有已知的基因组测序生物体中的蛋白质。

这项技术已经在无数的生物医学领域和其他领域产生巨大影响。科学家使用AlphaFold分析了一种细菌注射器，该注射器将分子射入昆虫细胞；通过运用AlphaFold2所揭示的信息，研究人员重新设计了靶向人类细胞的蛋白质，为药物输送和基因治疗开辟了一条新的途径；学术实验室和公司正在利用AlphaFold2来开发疫苗、设计药物、制造分解污染物的酶……它有着无限光明的前景。

内容来源：原理

责任编辑：邵丽竹

审　　核：何发

2024诺奖 | 他们创造了一个全新的宇宙！

评论 0

热点文章