tech 概念解析
Transformer 怎麼知道詞的順序?從絕對位置編碼到 RoPE 的演進
Transformer 的 self-attention 天生不知道詞的順序,位置編碼是補救措施。從正弦函數絕對編碼、可學習絕對編碼、相對位置編碼,到 RoPE(旋轉位置嵌入)——現代 LLM 幾乎都用 RoPE,因為它是免參數、天然表達相對距離、且可外推到更長序列的最佳方案。
Tag
1 篇文章
Transformer 的 self-attention 天生不知道詞的順序,位置編碼是補救措施。從正弦函數絕對編碼、可學習絕對編碼、相對位置編碼,到 RoPE(旋轉位置嵌入)——現代 LLM 幾乎都用 RoPE,因為它是免參數、天然表達相對距離、且可外推到更長序列的最佳方案。