目錄

2020 年 12 月,生物學界等了 50 年的問題被解開了。

蛋白質折疊問題(protein folding problem)——從蛋白質的胺基酸序列預測它在三維空間中的立體結構——曾被稱為「分子生物學的聖杯」。DeepMind 的 AlphaFold2 在當年的 CASP14 競賽中,以媲美實驗方法的精度解決了這個問題。2024 年,這項成就讓 Demis Hassabis 和 John Jumper 獲得諾貝爾化學獎。

TL;DR

AlphaFold 是一個深度學習模型,能夠從蛋白質的胺基酸序列準確預測其三維結構。這很重要,因為蛋白質的功能由結構決定,而理解蛋白質結構是藥物設計的基礎。AlphaFold2 在精度上超越了此前的所有方法,而且比傳統實驗方法快數百倍。目前,AlphaFold 資料庫已包含超過 2 億個蛋白質結構,幾乎涵蓋所有已知的生物蛋白質序列。

是什麼

蛋白質是生命的基本分子機器,由胺基酸鏈組成。胺基酸的序列(一維資訊)決定了蛋白質折疊後的三維結構(三維資訊),而三維結構決定了它的功能——催化化學反應、傳遞訊號、組成細胞骨架。

問題是:同一條胺基酸序列,理論上可以折疊成天文數字種不同的三維結構。1969 年的 Levinthal’s paradox 就指出,如果隨機搜尋所有可能的折疊方式,一條 100 個胺基酸的蛋白質需要搜尋的時間比宇宙年齡還長——但真實蛋白質在幾毫秒內就完成折疊。

這意味著必然有某種讓折疊高效完成的物理機制,但 50 年來沒有計算方法能夠準確模擬它。

為什麼重要

藥物開發的加速

藥物設計的一個核心任務是「理性藥物設計」(rational drug design):設計一個能精確嵌入目標蛋白質活性位點的小分子,從而抑制或啟動蛋白質的功能。

傳統上,這需要先用 X 射線晶體學或冷凍電子顯微鏡解析目標蛋白質的結構——這個過程可能需要數年時間和數百萬美元。AlphaFold 可以在幾分鐘內以高精度預測結構,把這個步驟的成本和時間壓縮到幾乎可以忽略。

具體例子:在 AlphaFold 發布後,研究人員用它快速解析了多個之前無法獲得結構的蛋白質,直接加速了瘧疾疫苗、抗生素耐藥性研究和帕金森症藥物開發的進程。

2 億個蛋白質結構的免費資料庫

DeepMind 和 EMBL-EBI 共同維護的 AlphaFold 資料庫,目前收錄了超過 2 億個物種的蛋白質結構預測,覆蓋了幾乎所有已知蛋白質序列。這是有史以來最大的結構生物學資料庫,而且完全免費開放。

對研究者而言,這意味著對於大多數蛋白質,「結構未知」已經不再是研究的瓶頸。

怎麼運作

AlphaFold2 的架構結合了幾個關鍵創新:

多序列比對(MSA)的進化資訊:蛋白質序列在演化過程中會變異,但折疊結構相對保守。不同物種中功能相似的蛋白質(同源蛋白)的序列差異,蘊含了哪些胺基酸位置相互依存的資訊。AlphaFold 大量利用這種進化信號。

Evoformer 模組:AlphaFold2 的核心是一個稱為 Evoformer 的特殊 Transformer 架構,它同時在「序列維度」和「殘基對維度」上做注意力計算,讓模型能夠學習胺基酸之間的空間關係。

結構模組:從 Evoformer 的輸出預測每個胺基酸的 3D 座標,使用等變幾何深度學習確保預測結果對旋轉和平移具有不變性。

AlphaFold3 的進一步突破

2024 年,DeepMind 發布了 AlphaFold3,將預測能力擴展到 DNA、RNA 和小分子藥物——不只是蛋白質本身,而是蛋白質與其他生物分子的交互作用結構。這對藥物設計(藥物分子如何跟目標蛋白質結合)有直接的應用價值。

跟傳統方法的差別

方法解析一個蛋白質結構的時間成本準確度
X 射線晶體學數月到數年$50 萬以上極高
冷凍電子顯微鏡(cryo-EM)數週到數月$10-100 萬
AlphaFold2 預測幾分鐘近乎零(免費 API)接近實驗精度(大多數蛋白質)

AlphaFold 的精度對於大多數蛋白質已經足夠做初步的藥物設計,實驗方法保留用於需要最高精度或 AlphaFold 預測不確定的案例。

小結

AlphaFold 是 AI 的現實世界影響力最無爭議的案例之一。它不是一個讓對話更流暢的語言模型,而是解開了生物學 50 年沒有解開的核心問題,直接改變了藥物開發、酶工程和結構生物學的研究方式。

對工程師而言,AlphaFold 也是一個重要的思考範本:當你選到了一個有明確評估函數的科學問題,深度學習的上限往往比你想的高得多。

參考資料

相關標籤

相關文章