美團LongCat-Next:把圖像、聲音、文字都變成Token,然後呢?
什麼是LongCat-Next?
美團發佈了一款名為LongCat-Next的原生多模態大模型,它通過極簡的下一Token預測(NTP)範式,將圖像、聲音和文字統一轉化為同源的離散Token。
核心技術與設計
- 將文字、圖像、語音都轉化為同一種「積木塊」,即離散Token。
- 採用離散原生自迴歸多模態架構,不再依賴外掛的視覺或語音模組。
- 語音token的設計基於Whisper編碼器提取語義,再透過8層RVQ量化為離散token。
- 所有模態內容都轉為Token序列,使AI對不同輸入的處理變得一致。
應用與意義
LongCat-Next讓AI能將「讀文字、看圖片、聽聲音」視為同一個問題:預測下一個Token。
這種設計簡潔且優雅,使模型在理解與生成時都可透過同一套NTP機制處理,大幅簡化多模態任務。
技術挑戰與討論
圖像為高維且連續的資料,轉為離散Token時可能導致資訊遺失,因此引入了dNaViT(離散原生視覺Transformer)來改善。
