AlphaFold：解決了生物學 50 年難題的 AI，以及它為什麼贏得諾貝爾獎

2020 年 12 月，生物學界等了 50 年的問題被解開了。

蛋白質折疊問題（protein folding problem）——從蛋白質的胺基酸序列預測它在三維空間中的立體結構——曾被稱為「分子生物學的聖杯」。DeepMind 的 AlphaFold2 在當年的 CASP14 競賽中，以媲美實驗方法的精度解決了這個問題。2024 年，這項成就讓 Demis Hassabis 和 John Jumper 獲得諾貝爾化學獎。

TL;DR

AlphaFold 是一個深度學習模型，能夠從蛋白質的胺基酸序列準確預測其三維結構。這很重要，因為蛋白質的功能由結構決定，而理解蛋白質結構是藥物設計的基礎。AlphaFold2 在精度上超越了此前的所有方法，而且比傳統實驗方法快數百倍。目前，AlphaFold 資料庫已包含超過 2 億個蛋白質結構，幾乎涵蓋所有已知的生物蛋白質序列。

是什麼

蛋白質是生命的基本分子機器，由胺基酸鏈組成。胺基酸的序列（一維資訊）決定了蛋白質折疊後的三維結構（三維資訊），而三維結構決定了它的功能——催化化學反應、傳遞訊號、組成細胞骨架。

問題是：同一條胺基酸序列，理論上可以折疊成天文數字種不同的三維結構。1969 年的 Levinthal’s paradox 就指出，如果隨機搜尋所有可能的折疊方式，一條 100 個胺基酸的蛋白質需要搜尋的時間比宇宙年齡還長——但真實蛋白質在幾毫秒內就完成折疊。

這意味著必然有某種讓折疊高效完成的物理機制，但 50 年來沒有計算方法能夠準確模擬它。

為什麼重要

藥物開發的加速

藥物設計的一個核心任務是「理性藥物設計」（rational drug design）：設計一個能精確嵌入目標蛋白質活性位點的小分子，從而抑制或啟動蛋白質的功能。

傳統上，這需要先用 X 射線晶體學或冷凍電子顯微鏡解析目標蛋白質的結構——這個過程可能需要數年時間和數百萬美元。AlphaFold 可以在幾分鐘內以高精度預測結構，把這個步驟的成本和時間壓縮到幾乎可以忽略。

具體例子：在 AlphaFold 發布後，研究人員用它快速解析了多個之前無法獲得結構的蛋白質，直接加速了瘧疾疫苗、抗生素耐藥性研究和帕金森症藥物開發的進程。

2 億個蛋白質結構的免費資料庫

DeepMind 和 EMBL-EBI 共同維護的 AlphaFold 資料庫，目前收錄了超過 2 億個物種的蛋白質結構預測，覆蓋了幾乎所有已知蛋白質序列。這是有史以來最大的結構生物學資料庫，而且完全免費開放。

對研究者而言，這意味著對於大多數蛋白質，「結構未知」已經不再是研究的瓶頸。

怎麼運作

AlphaFold2 的架構結合了幾個關鍵創新：

多序列比對（MSA）的進化資訊：蛋白質序列在演化過程中會變異，但折疊結構相對保守。不同物種中功能相似的蛋白質（同源蛋白）的序列差異，蘊含了哪些胺基酸位置相互依存的資訊。AlphaFold 大量利用這種進化信號。

Evoformer 模組：AlphaFold2 的核心是一個稱為 Evoformer 的特殊 Transformer 架構，它同時在「序列維度」和「殘基對維度」上做注意力計算，讓模型能夠學習胺基酸之間的空間關係。

結構模組：從 Evoformer 的輸出預測每個胺基酸的 3D 座標，使用等變幾何深度學習確保預測結果對旋轉和平移具有不變性。

AlphaFold3 的進一步突破

2024 年，DeepMind 發布了 AlphaFold3，將預測能力擴展到 DNA、RNA 和小分子藥物——不只是蛋白質本身，而是蛋白質與其他生物分子的交互作用結構。這對藥物設計（藥物分子如何跟目標蛋白質結合）有直接的應用價值。

跟傳統方法的差別

方法	解析一個蛋白質結構的時間	成本	準確度
X 射線晶體學	數月到數年	$50 萬以上	極高
冷凍電子顯微鏡（cryo-EM）	數週到數月	$10-100 萬	高
AlphaFold2 預測	幾分鐘	近乎零（免費 API）	接近實驗精度（大多數蛋白質）