把大模型刻進芯片，可行嗎？

技術路線的可行性分析

從前沿 AI 研發的角度來看，將大模型直接「刻」進芯片（即利用 ROM 技術將模型權重物理固化於硅片）的技術路線顯然並不可行。然而，這並不意味著該方案毫無市場價值。

儘管缺乏通用性與靈活性，但在大量模型需求相對固定的場景中，這種方案恰好能解決大模型推理延遲過長的痛點。由於芯片是硬編碼的，用戶只能運行特定模型（例如 Llama 3.1 8B），無法更換，這限制了其應用範圍，但也帶來了極致的推理速度。

相關創企（如 Taalas）通過將 AI 模型權重直接物理刻入 ASIC 芯片，成功突破了「內存牆」的硬件限制。測試顯示，該技術讓芯片運行 Llama 3.1 8B 的速度達到 17,000 tokens/秒，比業界頂端的英偉達 GPU 快 85 倍，且功耗與成本大幅降低。

這一創新做法讓行業開始重新思考：把大模型直接刻進芯片，究竟是打破 AI 硬件瓶頸的新方向，還是受限於技術迭代的小眾嘗試？專家指出，真正的難點不在於技術本身，而在於是否存在一個「高價值且穩定」的應用場景來支撐這種犧牲通用性的方案。