上交大和輝羲把LLM刻進ROM，推理性能衝2萬token/s，GPU時代終結？

技術突破：將大語言模型物理固化於芯片

上海交大、輝羲智能與微軟亞研院聯合提出ROM+SRAM異構架構，將大語言模型「物理固化」於芯片，實現端側LLM推理速度達20,000 tokens/s，大幅提升能效與實時性。

此技術繞開了傳統GPU架構的記憶體牆問題，將AI大模型「物理焊死」在硅片中，為端側AI應用帶來革命性進展，可能終結GPU主導的時代。