DeepSeek V3 如何以 $5.6M 訓練成本挑戰百億美元系統

2024 年 12 月，中國 AI 公司 DeepSeek 發布了一篇技術報告，內容讓 AI 研究圈的很多人重新算了一遍數字：他們用 278 萬 H800 GPU 小時訓練了一個 671B 參數的模型，成本約 557 萬美元。相比之下，GPT-4 的訓練成本估計超過 1 億美元。同等效能，約二十分之一的訓練成本，完全開源。這件事的影響不只是「便宜的 AI」，而是整個產業對訓練效率假設的重新校準。

TL;DR

DeepSeek V3 是 671B 總參數的 MoE（Mixture of Experts）模型，每個 token 只啟用 37B 參數。透過 MLA（Multi-head Latent Attention）、輔助損失自由負載均衡、多 token 預測等創新，在 2.788M H800 GPU 小時、約 $5.576M 的成本下完成訓練，在多項基準測試達到接近頂尖閉源模型的水準。API 定價約 $0.028 per million input tokens，是 OpenAI 同等規模模型的十分之一。

設計哲學

DeepSeek 的核心問題意識是：AI 訓練的效率上限在哪裡？

主流觀點認為，前沿模型需要海量 GPU 叢集和天文數字預算。OpenAI、Google、Anthropic 的訓練成本每一代都在翻倍。DeepSeek 的研究方向相反——他們問的是「在固定算力預算下，架構設計能做到什麼」。

這個思路體現在幾個具體決策：

選擇 MoE 而非 Dense：MoE 讓你有大參數量（表達力強）但推論時不需要全部激活（計算量少）
在中國可取得的硬體上優化：H800 是 H100 的出口管制版，記憶體頻寬較低。DeepSeek 必須在這個限制下優化跨節點通訊
演算法、框架、硬體協同設計：不假設最好的硬體，而是在現有條件下把系統效率榨到最高

核心概念

MoE 架構

DeepSeek V3 的 Transformer 架構中，FFN（前饋網路）層被替換為 MoE 層。每個 MoE 層有 256 個 expert 模組，每個 token 路由到其中 8 個。671B 總參數中，每次 forward pass 只激活約 37B——這讓推論的計算量接近一個 37B 的 dense 模型，但模型容量接近 671B。

DeepSeekMoE 的改進：

在標準 MoE 之上加入「共享 expert」（shared experts），確保某些通用知識不依賴路由
細粒度 expert（256 個而非傳統的 8-16 個），讓路由更精細

Multi-head Latent Attention（MLA）

傳統 MHA（Multi-head Attention）的 KV Cache 在長文本下會佔用大量記憶體。MLA 的創新是把 Key 和 Value 投影到低維隱空間（latent space）後再展開，KV Cache 的記憶體佔用大幅下降，推論時的記憶體頻寬需求也跟著降低。

這對在記憶體頻寬受限的 H800 上跑長文本推論特別重要。

輔助損失自由（Auxiliary-Loss-Free）負載均衡

MoE 的一個老問題是 expert collapse——路由器傾向於把所有 token 送給少數幾個 expert，導致大多數 expert 沒被充分訓練。傳統解法是加輔助損失函數懲罰不平衡，但這會干擾主要訓練目標。

DeepSeek V3 提出的方案是在 softmax 路由前加入 token 層面的偏置項，動態調整，不需要額外損失函數，負載均衡效果同樣好，且不影響模型的主任務學習。

多 Token 預測（Multi-Token Prediction）

傳統語言模型一次預測一個下一個 token。DeepSeek V3 引入多 token 預測（預測未來 N 個 token），讓模型在訓練時學習更長程的依存關係，也提升了訓練信號密度。

跟常見替代方案比較

模型	類型	激活參數	訓練成本估計	開源	API 每 1M input token
DeepSeek V3	MoE	37B	~$5.6M	是	$0.028
GPT-4	Dense（估計）	~1T	>$100M	否	$10
Claude 3.5 Sonnet	未公開	未公開	未公開	否	$3
Llama 3.1 405B	Dense	405B	>$30M（估計）	是（部分）	視服務商
Mistral Large	Dense	123B	未公開	否	$3