Read Buf

Read Buf

AlphaFold 3 模型可以预测所有生命分子的结构和相互作用

最近 Google DeepMind 发布了一篇博客文章,介绍了 他们的 AlphaFold 3 模型,内容如下。

自 2020 年推出以来,超过 200 万研究人员已经在疫苗开发、癌症治疗等研究中使用了 Google DeepMind 的 AlphaFold 2 模型进行蛋白质结构预测,成功解决了科学家们研究了超过 50 年的难题。尽管已经帮科学家们预测了数亿个蛋白质结构,团队并没有因此停下脚步。

他们开始着手研发 AlphaFold 3。今年 5 月,Google DeepMind 和 Isomorphic Labs 团队推出了这一更新的模型。与之前的版本相比,AlphaFold 3 不仅能够预测蛋白质的折叠结构,还可以预测所有生命分子的结构和相互作用,包括 DNA,RNA 和配体(ligands,小分子物质,与蛋白质结合)。

“通过 AlphaFold 2,我们在这个数十年来未解的蛋白质折叠问题上取得了重大突破,但最近的高影响力研究显示,研究人员的关注点已经超越了这一领域。” Google DeepMind 的研究科学家 Jonas Adler 说道,“他们的研究结论更多地涉及到更细致的内容,如小分子的结合或 RNA,而这是 AlphaFold 2 无法实现的。实验的进展推动了领域的前沿,因此,为了站在今天生物学和化学的前沿,我们需要能够研究所有生物分子。”

“‘所有生物分子’包括占所有药物约一半的配体 (ligands)。” Isomorphic Labs 的研究负责人 Adrian Stecula 表示,“我们非常看好 AlphaFold 3 在合理药物设计中的巨大潜力,并已经将其应用到日常工作中。例如,我们研究新型小分子如何与药物靶点结合,回答诸如‘蛋白质如何与 DNA 和 RNA 结合?’等问题,并且研究化学修饰对蛋白质结构的影响。新的模型解锁了这些新功能。”

加入这些额外的分子类型后,可能组合的数量增加了一个数量级。“蛋白质是非常有序的,比如说,只有 20 种标准氨基酸。” Jonas 解释道,“而小分子的组合则几乎是无限的——它们可以有各种各样的形式,非常多样化。”

AlphaFold Server 界面截图,显示笔记本电脑屏幕上有一张静态截图,上方的文字提示用户前往 alphafoldserver.com 并使用 Google 帐户登录

AlphaFold Server 让研究人员能够使用 AlphaFold 3。

这也意味着,制作一个包含所有这些功能的数据库几乎是不可能实现的。因此,我们推出了 AlphaFold Server,这是一个免费工具,科学家们可以将他们的序列输入,然后 AlphaFold 针对这些序列生成分子复合物。自今年五月上线以来,研究人员已经利用它生成了超过 100 万个分子结构。

“这就像是分子复合物的 Google 地图,”Google DeepMind 的研究工程师 Lindsay Willmore 说。“任何不会编程的用户,只需将他们的蛋白质、DNA、RNA 序列或小分子名称复制粘贴进去,按下按钮,等待几分钟即可。结果会显示出来,包括结构和置信指标,这样他们就能查看并评估这些预测结果。”

为了让 AlphaFold 3 能够处理更多种类的生物分子,团队大幅扩展了新模型的训练数据,包含了 DNA、RNA、小分子等更多内容。“我们决定,用以前帮助我们在蛋白质方面取得成功的所有数据来训练,看看我们能达到什么程度,”Lindsay 说。“结果发现我们取得了相当不错的成果。”

AlphaFold 3 进行了一个重要改进,其生成蛋白质结构的模型架构发生了变化。以前 AlphaFold 2 采用的是一个复杂的几何模块,而 AlphaFold 3 则采用了一种基于扩散 (diffusion) 的生成模型,类似于我们其他前沿的图像生成模型,如 Imagen 。这种改进极大地简化了模型处理各种新分子类型的方式。

不过,这种转变也带来了新问题:因为蛋白质的“不规则区域”没有包括在训练数据中,导致扩散模型会试图生成一个不准确的“有序”结构,有明确的螺旋形状,而不会预测不规则区域。

于是,团队转向 AlphaFold 2,它已经非常擅长预测哪些交互会是不规则的——看起来像一堆乱糟糟的意大利面——以及哪些是有序的。Lindsay 说道:“我们利用 AlphaFold 2 预测的这些结构来进行蒸馏训练 (distillation training),以便 AlphaFold 3 能够学会预测这些不规则区域。”

Jonas 补充道:“我们有一句格言:‘Trust the fusilli, reject the spaghetti”

从 AlphaFold 3 预测的一个示例。在中心是蓝色紧密卷曲的螺旋结构,形状类似于螺旋面。周围是橙色松散交织的链,形状类似于意大利面。

AlphaFold 3 的一个预测示例中,蓝色表示规则的“螺旋”区域,橙色表示无序的“意面”区域。这些颜色代表模型对预测结果准确性的置信度。

团队非常期待研究人员能够利用 AlphaFold 3 推动基因组研究、药物设计等领域的发展。

“看到我们的进步,真是不可思议,”Jonas 说。“以前非常难的问题现在变得很简单。以前不可能解决的问题现在有了解决的可能。尽管仍有许多难题等待解决,但我们对 AlphaFold 3 的潜力感到非常兴奋,它将帮助我们攻克这些难题。”