上交大和輝羲把LLM刻進ROM,推理性能衝2萬token/s,GPU時代終結?
技術突破:將大語言模型物理固化於芯片
上海交大、輝羲智能與微軟亞研院聯合提出ROM+SRAM異構架構,將大語言模型「物理固化」於芯片,實現端側LLM推理速度達20,000 tokens/s,大幅提升能效與實時性。
性能表現與對比
- 在實測中,基於Llama 3.1 8B模型的推理速度達到17,000 tokens/s。
- 相較於業界頂端的英偉達GPU,性能提升近10倍。
技術意義與產業影響
此技術繞開了傳統GPU架構的記憶體牆問題,將AI大模型「物理焊死」在硅片中,為端側AI應用帶來革命性進展,可能終結GPU主導的時代。
