tech 深度解析
KV Cache:LLM 推論效能最關鍵的優化技術
KV Cache 讓 Transformer 的自回歸生成從每個 token 都要重算整個序列的 O(n²) 複雜度,降到每步只計算當前 token 的 O(n),是現代 LLM 推論速度可接受的核心原因。
Tag
4 篇文章
KV Cache 讓 Transformer 的自回歸生成從每個 token 都要重算整個序列的 O(n²) 複雜度,降到每步只計算當前 token 的 O(n),是現代 LLM 推論速度可接受的核心原因。
Transformer 的 self-attention 天生不知道詞的順序,位置編碼是補救措施。從正弦函數絕對編碼、可學習絕對編碼、相對位置編碼,到 RoPE(旋轉位置嵌入)——現代 LLM 幾乎都用 RoPE,因為它是免參數、天然表達相對距離、且可外推到更長序列的最佳方案。
LLM 的輸出品質由三個層次共同決定:token 層級的 decoding 策略、任務層級的 workflow 設計、以及模型層級的 reasoning 能力。搞清楚這三層的差異,才能針對問題選對工具。
Harness Engineering 如何引導語言模型提高智能