美團LongCat-Next:把圖像、聲音、文字都變成Token,然後呢?
核心概念:統一的離散Token化
美團發佈的LongCat-Next是一款離散原生自迴歸多模態大模型,其核心創新在於將圖像、聲音和文字全部轉化為同一種「離散Token」,實現跨模態的統一處理。
技術實現:基於NTP範式
LongCat-Next採用極簡的「下一Token預測」(Next Token Prediction, NTP)範式,將所有模態內容統一轉化為同源的離散Token序列。這種設計讓模型在處理文字、圖像或語音時,都遵循相同的自迴歸預測目標。
音頻處理機制
- 使用Whisper編碼器提取語音語義特徵。
- 通過8層RVQ(Vector Quantization)量化為離散Token,保留語義與聲學信息。
多模態整合優勢
不同於傳統多模態模型依賴外掛視覺或語音模塊,LongCat-Next在底層實現統一處理,使看圖、生圖、語音對話等任務都能直接由模型完成,大幅簡化系統架構。
開源與應用前景
該模型已開源,為開發者提供了一個可生成文本、語音與圖像的全模態基座模型,有望推動AI在物理世界中的統一理解與生成能力。
