美團LongCat-Next：把圖像、聲音、文字都變成Token，然後呢？

什麼是LongCat-Next？

美團發佈了一款名為LongCat-Next的原生多模態大模型，它通過極簡的下一Token預測（NTP）範式，將圖像、聲音和文字統一轉化為同源的離散Token。

LongCat-Next讓AI能將「讀文字、看圖片、聽聲音」視為同一個問題：預測下一個Token。

這種設計簡潔且優雅，使模型在理解與生成時都可透過同一套NTP機制處理，大幅簡化多模態任務。

圖像為高維且連續的資料，轉為離散Token時可能導致資訊遺失，因此引入了dNaViT（離散原生視覺Transformer）來改善。