英偉達全模態大模型來了，幾秒搞定老黃3分鐘演講，吞吐量同類9倍

2026-05-01 19:21:37 / 1 閱讀所需時間

英偉達全模態大模型來了，幾秒搞定老黃3分鐘演講，吞吐量同類9倍

模型核心能力

一個模型同時整合文本、視覺與語音三大模態處理能力，實現跨模態的統一感知與響應。

技術架構

採用創新的混合型MoE架構，可根據不同任務動態激活專家網絡，在保證高吞吐的同時實現強多模態感知能力。

性能表現

整體推理吞吐量達到同類開放多模態模型的9倍。
在複雜文檔智能、視頻與音頻理解等基準測試中表現優異，榮登多項排行榜榜首。

應用場景

該模型專為AI智能體設計，可快速響應多模態輸入，適用於需要高效處理文本、圖像與語音的各類場景。

來源：https://36kr.com/p/3787677070417161