tech 深度解析
設計一個 Sora 等級的文字轉視訊系統
Sora 的核心架構是 Diffusion Transformer(DiT):把影片壓縮成時空 patch token,用擴散模型訓練去雜訊,Transformer 負責全域一致性。設計這類系統的真正難點在於時空一致性、可變長度/解析度支援,以及訓練規模。
Tag
1 篇文章
Sora 的核心架構是 Diffusion Transformer(DiT):把影片壓縮成時空 patch token,用擴散模型訓練去雜訊,Transformer 負責全域一致性。設計這類系統的真正難點在於時空一致性、可變長度/解析度支援,以及訓練規模。