存儲成本壓力上升期,面壁智能1.58-bit模型能緩解“顯存焦慮”嗎?

存儲成本壓力上升期,面壁智能1.58-bit模型能緩解“顯存焦慮”嗎?

核心問題:如何用最便宜的芯片跑出最大的智能

「如何用最便宜的芯片跑出最大的智能,這就是端側模型最核心的問題。」

技術路徑:量化感知訓練與知識傳遞

面壁智能的方案是先通過量化感知訓練(QAT)讓模型進入穩定的收斂態,隨後再引入全精度模型進行知識傳遞。由於低比特模型對數據質量極度敏感,團隊通過更精細的數據配比與教師模型,確保模型在低比特下仍能保持關鍵功能的準確性。

精度退化問題

針對行業對精度損失的普遍擔憂,李宇軒表示,低比特帶來的退化是平緩而非斷崖式的,通過後訓練技術可以將損失引導至非核心場景,從而保證總結、交互等端側核心功能的穩定表現。

實際應用案例

一臺手掌大小、300克的AI主機,為何能跑122B模型?這正是面壁智能1.58-bit模型在存儲成本壓力上升期所展現的突破,有效緩解了“顯存焦慮”。

來源:https://36kr.com/p/3824447820829064

返回頂端