一個月的活一週幹完,英偉達世界模型訓練速度飆升400%
訓練效率大幅提升
英偉達世界動作模型 DreamZero 的訓練過程原本需要 8 張 H100 芯片連續運行 25 天,然而透過 RLinf 對算子融合到 I/O 全鏈路系統級的重新設計,訓練吞吐量提升了近 4 倍,使原本一個月的訓練任務,僅需一週即可完成。
技術優化重點
- 算子融合(Operator Fusion):將多個運算步驟整合為單一運算,減少資料搬移與記憶體訪問。
- 系統級 I/O 重構:優化輸入輸出流程,降低資料傳輸延遲與資源消耗。
- 整體訓練流程效率提升,大幅縮短訓練週期。
產業影響
此技術突破顯示英偉達在大模型訓練領域持續領先,不僅提升訓練速度,也為 AI 產業帶來更高效、低成本的訓練方案,有助於加速大模型的應用落地。
