美團LongCat-Next:把圖像、聲音、文字都變成Token,然後呢?

美團LongCat-Next:把圖像、聲音、文字都變成Token,然後呢?

核心概念:統一的離散Token化

美團發佈的LongCat-Next是一款離散原生自迴歸多模態大模型,其核心創新在於將圖像、聲音和文字全部轉化為同一種「離散Token」,實現跨模態的統一處理。

技術實現:基於NTP範式

LongCat-Next採用極簡的「下一Token預測」(Next Token Prediction, NTP)範式,將所有模態內容統一轉化為同源的離散Token序列。這種設計讓模型在處理文字、圖像或語音時,都遵循相同的自迴歸預測目標。

音頻處理機制

  • 使用Whisper編碼器提取語音語義特徵。
  • 通過8層RVQ(Vector Quantization)量化為離散Token,保留語義與聲學信息。

多模態整合優勢

不同於傳統多模態模型依賴外掛視覺或語音模塊,LongCat-Next在底層實現統一處理,使看圖、生圖、語音對話等任務都能直接由模型完成,大幅簡化系統架構。

開源與應用前景

該模型已開源,為開發者提供了一個可生成文本、語音與圖像的全模態基座模型,有望推動AI在物理世界中的統一理解與生成能力。

來源:https://36kr.com/p/3749147549401605

返回頂端