跳過88%專家,保住97%性能,MoE推理的正確玩法
核心成果
在Qwen3-VL-MoE-30B上,MoDES在跳過88%專家的情況下,仍保留97.33%原始性能,同時帶來顯著推理加速,打破了一個長期存在的共識:高比例專家跳過必然帶來不可接受的性能損失。
技術突破
MoDES讓多模態大模型推理效率飆升,無需額外訓練,即可智能跳過88%冗餘專家,仍保留97%性能,徹底打破「跳得多必掉點」的舊認知。
性能與效率提升
該技術實現推理速度提升2倍,為大模型在實際場景中的高效部署提供了新路徑。
研究背景
這項研究發表於CVPR’26,是多模態大模型領域的一項重要進展,展示了在保持高精度的同時,大幅優化推理效率的可行性。
