← 所有分類
tech

tech

工程實作、架構設計、工具介紹與踩坑紀錄。

89 篇文章
類型
排序
tech 概念解析

Transformer 怎麼知道詞的順序?從絕對位置編碼到 RoPE 的演進

Transformer 的 self-attention 天生不知道詞的順序,位置編碼是補救措施。從正弦函數絕對編碼、可學習絕對編碼、相對位置編碼,到 RoPE(旋轉位置嵌入)——現代 LLM 幾乎都用 RoPE,因為它是免參數、天然表達相對距離、且可外推到更長序列的最佳方案。