存儲成本壓力上升期,面壁智能1.58-bit模型能緩解“顯存焦慮”嗎?
核心問題:如何用最便宜的芯片跑出最大的智能
「如何用最便宜的芯片跑出最大的智能,這就是端側模型最核心的問題。」
技術路徑:量化感知訓練與知識傳遞
面壁智能的方案是先通過量化感知訓練(QAT)讓模型進入穩定的收斂態,隨後再引入全精度模型進行知識傳遞。由於低比特模型對數據質量極度敏感,團隊通過更精細的數據配比與教師模型,確保模型在低比特下仍能保持關鍵功能的準確性。
精度退化問題
針對行業對精度損失的普遍擔憂,李宇軒表示,低比特帶來的退化是平緩而非斷崖式的,通過後訓練技術可以將損失引導至非核心場景,從而保證總結、交互等端側核心功能的穩定表現。
實際應用案例
一臺手掌大小、300克的AI主機,為何能跑122B模型?這正是面壁智能1.58-bit模型在存儲成本壓力上升期所展現的突破,有效緩解了“顯存焦慮”。
