美團LongCat-Next：把圖像、聲音、文字都變成Token，然後呢？

核心概念：統一的離散Token化

美團發佈的LongCat-Next是一款離散原生自迴歸多模態大模型，其核心創新在於將圖像、聲音和文字全部轉化為同一種「離散Token」，實現跨模態的統一處理。

LongCat-Next採用極簡的「下一Token預測」（Next Token Prediction, NTP）範式，將所有模態內容統一轉化為同源的離散Token序列。這種設計讓模型在處理文字、圖像或語音時，都遵循相同的自迴歸預測目標。

不同於傳統多模態模型依賴外掛視覺或語音模塊，LongCat-Next在底層實現統一處理，使看圖、生圖、語音對話等任務都能直接由模型完成，大幅簡化系統架構。

該模型已開源，為開發者提供了一個可生成文本、語音與圖像的全模態基座模型，有望推動AI在物理世界中的統一理解與生成能力。