把大模型刻進芯片,可行嗎?

把大模型刻進芯片,可行嗎?

技術路線的可行性分析

從前沿 AI 研發的角度來看,將大模型直接「刻」進芯片(即利用 ROM 技術將模型權重物理固化於硅片)的技術路線顯然並不可行。然而,這並不意味著該方案毫無市場價值。

特定場景下的應用價值

儘管缺乏通用性與靈活性,但在大量模型需求相對固定的場景中,這種方案恰好能解決大模型推理延遲過長的痛點。由於芯片是硬編碼的,用戶只能運行特定模型(例如 Llama 3.1 8B),無法更換,這限制了其應用範圍,但也帶來了極致的推理速度。

性能突破與成本優勢

相關創企(如 Taalas)通過將 AI 模型權重直接物理刻入 ASIC 芯片,成功突破了「內存牆」的硬件限制。測試顯示,該技術讓芯片運行 Llama 3.1 8B 的速度達到 17,000 tokens/秒,比業界頂端的英偉達 GPU 快 85 倍,且功耗與成本大幅降低。

行業反思與未來展望

這一創新做法讓行業開始重新思考:把大模型直接刻進芯片,究竟是打破 AI 硬件瓶頸的新方向,還是受限於技術迭代的小眾嘗試?專家指出,真正的難點不在於技術本身,而在於是否存在一個「高價值且穩定」的應用場景來支撐這種犧牲通用性的方案。

來源:https://36kr.com/p/3699962531540867

返回頂端