數據邪修大法好:僅用文本數據就能預訓練多模態大模型

數據邪修大法好:僅用文本數據就能預訓練多模態大模型

突破性方法挑戰傳統範式

一種突破性方法——“數據邪修大法”正挑戰多模態大模型(MLLM)長期遵循的昂貴共識:沒有圖文對(Image-Text Pairs),就沒有多模態能力。該方法僅憑純文本數據即可完成MLLM預訓練,徹底擺脫圖像依賴。

保持語義理解深度同時降低成本

在保持語義理解深度的同時,“數據邪修大法”顯著降低了訓練成本,且在實際應用中表現優於傳統基線模型,展現出強大的潛力。

相關技術背景與數據依賴

  • 傳統多模態模型通常依賴大量圖文對數據進行預訓練,以對齊圖片與文本的特徵空間。
  • 交錯的視覺語言數據(如MMC4)被認為對保持文本能力至關重要,而僅使用圖像-文本對(如COYO)可能導致嚴重的遺忘現象。
  • 視覺自監督學習(SSL)模型在使用大量文本驅動的圖像數據訓練後,其在OCR等任務中的表現更佳,凸顯數據質量的重要性。

技術發展動態

近年來,多模態自監督學習成為學術界與產業界關注的熱點,如LeCun與謝賽寧的新作推動了該領域的發展,相關研究被列為一區TOP/CCF-A級別,顯示其重要性與影響力。

來源:https://m.36kr.com/p/3706836851388803

返回頂端