tech 除錯
CUDA Out of Memory:遇到 GPU 記憶體爆炸時,你真正需要做的事
CUDA OOM 錯誤背後有五個常見的根本原因:batch size 過大、梯度累積在計算圖中、中間張量沒有釋放、多 GPU 不均衡、以及記憶體碎片化。正確的診斷比加 `empty_cache()` 有效得多。
Tag
2 篇文章
CUDA OOM 錯誤背後有五個常見的根本原因:batch size 過大、梯度累積在計算圖中、中間張量沒有釋放、多 GPU 不均衡、以及記憶體碎片化。正確的診斷比加 `empty_cache()` 有效得多。
把對話當成可寫成文章的材料:用結構化 prompt 與範本,讓 Claude Code 自動把 debugging thread 轉為可發佈的技術文章。