目錄
ChatGPT 的訓練分為三個核心階段:
- Pre-training (自我學習):閱讀海量網路資料,學習如何「接龍」。
- Instruction Fine-tuning (指令微調):由人類提供高品質答案,教導它聽懂指令。
- RLHF (強化學習):讓模型與人類偏好對齊,訓練出超越人類示範的表現。
訓練流程圖
flowchart TD
A[海量網路資料] --> B("第一階段:Pre-train")
B -->|"學會接龍但不聽話"| C[自我學習的模型]
D[人類標註的指令資料集] --> E("第二階段:Instruction Fine-tuning")
E -->|"學會聽話但能力有限"| F[指令微調後的模型]
G[人類偏好排序資料] --> H("第三階段:RLHF")
H -->|"與人類價值觀對齊"| I[最終的 ChatGPT]
第一階段:開天闢地 (Pre-training)
這是 LLM 獲取知識最瘋狂的階段。
- 目標:學習「文字接龍」。
- 做法:讓模型在網路上閱讀數以兆計的文字。模型會不斷猜測下一個字是什麼,並從中學習語言的語法、常識、甚至是邏輯推理能力。
- 缺點:此時的模型雖然「博學」,但「不聽人話」。你問它問題,它可能只會接龍出一堆相關的廢話,而不是回答你。
第二階段:指點迷津 (Instruction Fine-tuning)
為了解決模型不聽話的問題,我們需要進行「監督式學習」。
- 目標:教導模型如何正確回應人類的指令(Prompt)。
- 做法:聘請大量人類標註員,撰寫高品質的「指令-答案」配對。例如:「請寫一首詩」、「請摘要這篇文章」。
- 意義:讓模型學會服務人類,將 Pre-train 學到的廣泛知識轉化為可用的對話能力。
第三階段:超越自我 (RLHF)
單靠人類示範是不夠的,因為人類寫不出所有完美的答案。
- 目標:讓模型透過回饋不斷優化,達成「青出於藍」。
- 做法 (Reinforcement Learning from Human Feedback):
- 讓模型對同一個問題產生多個答案。
- 人類對這些答案進行「好壞排序」。
- 訓練一個 Reward Model (獎勵模型) 來學習人類的喜好。
- 最後用獎勵模型來磨練原始模型。
- 意義:這是 ChatGPT 脫穎而出的關鍵,讓它產出的內容更符合人類的品味與安全標準。
學到的事
ChatGPT 的強大並非來自單一演算法的突破,而是「大數據自我學習」與「人類精細引導」的完美結合。Pre-train 給了它靈魂,而 RLHF 給了它性格。
參考資料
相關標籤
相關文章
AI 如何重塑人的思考方式:工具之外的認知轉變
AI 工具改變的不只是你做事的速度,而是你思考問題的方式——從「怎麼做」轉向「做什麼」和「判斷對不對」,這個轉變對工程師的長期影響值得認真思考。
AI Agent 費用爆炸怎麼辦?選對模型與工具的實戰指南
AI agent 的帳單暴增通常來自三個地方:選了比任務需求更強的模型、沒控制 tool call 的深度、以及 context window 浪費。正確的成本控制策略是依任務複雜度選模型,不是全部用最強的。
DeepSeek V4 發布:1.6 兆參數開源模型挑戰 GPT-5,還跑在華為晶片上
DeepSeek V4 是一個 1.6 兆參數(49B 活躍)的 MoE 開源模型,100 萬 token 上下文,在部分基準測試上超越 GPT-5.2,且是首款針對華為 Ascend 晶片最佳化的 DeepSeek 模型。