tech 深度解析
設計一個 Sora 等級的文字轉視訊系統
Sora 的核心架構是 Diffusion Transformer(DiT):把影片壓縮成時空 patch token,用擴散模型訓練去雜訊,Transformer 負責全域一致性。設計這類系統的真正難點在於時空一致性、可變長度/解析度支援,以及訓練規模。
Tag
3 篇文章
Sora 的核心架構是 Diffusion Transformer(DiT):把影片壓縮成時空 patch token,用擴散模型訓練去雜訊,Transformer 負責全域一致性。設計這類系統的真正難點在於時空一致性、可變長度/解析度支援,以及訓練規模。
KV Cache 讓 Transformer 的自回歸生成從每個 token 都要重算整個序列的 O(n²) 複雜度,降到每步只計算當前 token 的 O(n),是現代 LLM 推論速度可接受的核心原因。
Transformer 的 self-attention 天生不知道詞的順序,位置編碼是補救措施。從正弦函數絕對編碼、可學習絕對編碼、相對位置編碼,到 RoPE(旋轉位置嵌入)——現代 LLM 幾乎都用 RoPE,因為它是免參數、天然表達相對距離、且可外推到更長序列的最佳方案。