#AI生成 | Engineer News

tech 深度解析

2026年5月13日

設計一個 Sora 等級的文字轉視訊系統

Sora 的核心架構是 Diffusion Transformer（DiT）：把影片壓縮成時空 patch token，用擴散模型訓練去雜訊，Transformer 負責全域一致性。設計這類系統的真正難點在於時空一致性、可變長度/解析度支援，以及訓練規模。