AMD新論文顛覆認知:FP4訓練不穩定,原因不是隨機性不足

AMD新論文顛覆認知:FP4訓練不穩定,原因不是隨機性不足

研究背景與核心發現

AMD聯合賓夕法尼亞州立大學發佈了一篇論文,指出在FP4(Float Point 4)硬件上進行深度學習訓練時,訓練過程的不穩定性問題,並顛覆了以往認為「隨機性不足」是主因的普遍認知。

訓練不穩定的真實原因

論文分析指出,FP4訓練不穩定的根本原因並非來自隨機性不足,而是源於數值不穩定性(numerical instability)與訓練過程中的動態誤差累積,尤其是在梯度更新階段,微小的數值誤差會迅速放大,導致模型崩潰。

技術實現與成果

  • 在原生FP4硬件上實現了端到端的訓練流程,相較傳統FP16或FP32,獲得9%至10%的訓練加速。
  • 該成果展示了FP4在保持模型性能的同時,顯著降低計算資源消耗的潛力。

行業影響與後續發展

此研究為低精度訓練提供了新的技術路徑,可能推動AI訓練向更高效、更節能的方向發展,尤其對邊緣計算與資源受限場景具有重要意義。

來源:https://36kr.com/p/3827014998233733

返回頂端