存儲成本壓力上升期，面壁智能1.58-bit模型能緩解“顯存焦慮”嗎？

核心問題：如何用最便宜的芯片跑出最大的智能

「如何用最便宜的芯片跑出最大的智能，這就是端側模型最核心的問題。」

面壁智能的方案是先通過量化感知訓練（QAT）讓模型進入穩定的收斂態，隨後再引入全精度模型進行知識傳遞。由於低比特模型對數據質量極度敏感，團隊通過更精細的數據配比與教師模型，確保模型在低比特下仍能保持關鍵功能的準確性。

針對行業對精度損失的普遍擔憂，李宇軒表示，低比特帶來的退化是平緩而非斷崖式的，通過後訓練技術可以將損失引導至非核心場景，從而保證總結、交互等端側核心功能的穩定表現。

一臺手掌大小、300克的AI主機，為何能跑122B模型？這正是面壁智能1.58-bit模型在存儲成本壓力上升期所展現的突破，有效緩解了“顯存焦慮”。