Tag

#Transformer

3 篇文章

tech 深度解析

2026年5月13日

設計一個 Sora 等級的文字轉視訊系統

Sora 的核心架構是 Diffusion Transformer（DiT）：把影片壓縮成時空 patch token，用擴散模型訓練去雜訊，Transformer 負責全域一致性。設計這類系統的真正難點在於時空一致性、可變長度/解析度支援，以及訓練規模。

tech 深度解析

2026年5月10日

KV Cache 讓 Transformer 的自回歸生成從每個 token 都要重算整個序列的 O(n²) 複雜度，降到每步只計算當前 token 的 O(n)，是現代 LLM 推論速度可接受的核心原因。

tech 概念解析

2026年5月10日

Transformer 的 self-attention 天生不知道詞的順序，位置編碼是補救措施。從正弦函數絕對編碼、可學習絕對編碼、相對位置編碼，到 RoPE（旋轉位置嵌入）——現代 LLM 幾乎都用 RoPE，因為它是免參數、天然表達相對距離、且可外推到更長序列的最佳方案。