目錄
「盧比孔河」是凱撒大帝渡河後就無法回頭的那條河——一旦跨過,局勢就永久改變了。在 AI 的語境中,「遞迴自我改進」(Recursive Self-Improvement, RSI)被許多人認為是那條河:一旦 AI 能夠有意義地改進自己的能力,後續的加速可能超出人類的控制或預測範圍。
我們現在在哪裡?真的快到那條河邊了嗎?
TL;DR
「遞迴自我改進」在理論上是 AGI 的核心路徑之一,但在 2026 年的現實中,AI 的自我改進能力仍高度侷限:可以自動改進提示詞、最佳化特定程式碼、在有明確評估函數的任務上自我訓練。但真正的 RSI 需要 AI 能夠改進自身的訓練程序或架構設計,而不只是應用層面的輸出。這一步目前還沒有被清楚跨越。
是什麼
遞迴自我改進的完整定義是:AI 系統能夠修改自身的學習能力(不只是學到的內容),使其能夠更有效地學習,然後用這個更強的學習能力再次改進自己的學習能力,如此迭代。
這跟「AI 在任務中學習改進」有本質差異:
| 類型 | 改進的是什麼 | 現況 |
|---|---|---|
| 在線學習(online learning) | 對特定輸入的回應品質 | 普遍存在 |
| 提示詞最佳化(prompt optimization) | 與 LLM 溝通的方式 | 可行(如 DSPy) |
| 程式碼自我修正(code self-correction) | 輸出的程式碼品質 | 有限度可行 |
| 架構搜尋(neural architecture search) | 模型設計 | 部分自動化,但非真正 RSI |
| 遞迴自我改進(RSI) | 學習能力本身 | 尚未清楚達到 |
為什麼重要
RSI 是 AI 安全研究者最關注的技術里程碑之一,原因在於它可能帶來「智慧爆炸」(intelligence explosion)——如果 AI 能以指數速度改進自身,改進速度可能超過人類監督和調整的能力。
即使不考慮 AGI 情境,更溫和版本的 AI 自我改進也已經在影響實際產品:
- Cursor、GitHub Copilot 的建議品質持續改善,部分因為它們在收集使用者的接受/拒絕回饋
- AlphaCode、AlphaProof 在數學和程式碼生成上展示了比人類更強的系統性問題解決能力
- 強化學習 讓 AI 在有明確規則的環境(棋類、遊戲、蛋白質折疊)實現了「超人表現」
怎麼運作:2026 年 AI 自我改進的實際邊界
已經可行的:提示詞和工作流程改進
工具如 DSPy 讓 AI 系統能夠自動最佳化用來呼叫 LLM 的提示詞。系統給定一個目標(例如「讓這個 RAG 管道的答案準確率最高」),然後自動測試不同的提示詞組合,保留效果最好的版本。
這是一種有限的自我改進:改進的是使用 AI 的方式,不是 AI 本身。
已經可行的:特定領域的自我訓練
在有明確評估函數的領域(下棋、數學證明、程式碼正確性),AI 可以透過自我對弈或自我驗證來生成訓練資料,然後用這些資料再次訓練自己。AlphaGo Zero 就是這個範式的代表:完全從自我對弈中學習,不依賴人類棋局資料。
限制在於:這需要一個可靠的、機器可自動執行的評估函數。數學和棋類遊戲有這個條件;開放性的「對話品質」或「有用性」沒有。
目前的技術壁壘
評估者可靠性問題(Evaluator Reliability):如果 AI 用另一個 AI 來評估自己的輸出好不好,而那個評估 AI 本身也有偏差,整個改進系統就會漂移。這個問題在「讓 AI 評估 AI 生成的故事是否有趣」這類開放性任務上特別嚴重。
訓練資料邊界:現有 LLM 的知識來自訓練時截止的資料。即使 AI 能自我生成新訓練資料,它生成的內容也受限於它已知的範圍——你無法用現有知識的重組來產生真正新的洞見。
對齊問題(Alignment):如果 AI 能夠自我修改,如何確保修改後的 AI 仍然符合原本設計的目標?一個被最佳化「讓用戶更快點擊」的 AI,可能會學到讓用戶上癮的方式,而不是真正對用戶有益的方式。
跟傳統機器學習的差別
傳統機器學習:人類設計模型架構 → 在固定資料集上訓練 → 部署,模型能力在部署後基本固定。
RSI 的目標:系統能夠在部署後繼續改進訓練程序本身,不需要人類介入重新設計架構或提供新資料集。
目前的現實是大多數生產系統介於兩者之間:有定期重新訓練(human-in-the-loop),但不是真正的自主 RSI。
小結
我們還沒有跨越盧比孔河,但我們已經走到了河邊,可以清楚地看到對岸。
AI 的自我改進能力正在以每年可以被量化的速度向前推進:從自我修正程式碼、自動最佳化提示詞,到在特定封閉域實現超人性能。距離「真正的 RSI」還有幾道清楚的技術壁壘,但這些壁壘都有明確的研究方向在對應。
對工程師而言,現在最實際的問題不是「AI 什麼時候跨越盧比孔河」,而是「我現在能利用 AI 局部自我改進的能力建立什麼系統?」——在評估函數清晰的領域,這個技術今天就可以用。
參考資料
相關標籤
相關文章
AlphaFold:解決了生物學 50 年難題的 AI,以及它為什麼贏得諾貝爾獎
AlphaFold 在 2020 年以接近實驗測定精度解決了蛋白質折疊問題,2024 年為 Demis Hassabis 和 John Jumper 贏得諾貝爾化學獎。其資料庫現已包含 2 億+ 個蛋白質結構,正在加速藥物開發和材料科學研究。
Demis Hassabis:為什麼我喜歡「硬題」——研究哲學的核心
Demis Hassabis 對『硬題』的偏好不是個人風格,而是一種研究策略:選那些一旦解開就能帶出大量下游價值的問題,而不是選容易出論文的問題。這個策略是 DeepMind 持續在科學前沿突破的核心原因。
Demis Hassabis 與 DeepMind 的路徑:從棋盤到諾貝爾獎的 AI 突破圖譜
DeepMind 在 Demis Hassabis 帶領下的核心策略是:用遊戲環境訓練出的泛化推理能力,解決科學上最難的現實問題。AlphaFold、AlphaGeometry、AlphaDev、GNoME 是這個策略最具體的成果。