AMD新論文顛覆認知:FP4訓練不穩定,原因不是隨機性不足
核心發現
論文指出,FP4訓練過程中出現的不穩定現象,並非源於隨機性不足,而是由於結構性微縮放誤差在敏感梯度路徑中累積並放大所致。
技術實現
在AMD Instinct MI355X GPU上,使用MXFP4格式完成了Llama 3.1-8B的全流程預訓練,實現了端到端訓練速度比FP8基線快9-10%,且token開銷僅多8-9%。
關鍵概念說明
- MXFP4:一種在AMD硬件上實現的FP4格式,用於提升訓練效率。
- 結構性微縮放誤差:在梯度傳播過程中,由於數值精度限制,誤差在敏感路徑中被放大,是導致訓練不穩定的真正原因。
相關資訊來源
該研究被多個科技媒體廣泛報道,包括新浪科技、虎嗅網及51CTO等平臺,內容聚焦於AI訓練中的數值穩定性問題。
