數據邪修大法好:僅用文本數據就能預訓練多模態大模型
突破性方法挑戰傳統範式
一種突破性方法——“數據邪修大法”正挑戰多模態大模型(MLLM)長期遵循的昂貴共識:沒有圖文對(Image-Text Pairs),就沒有多模態能力。該方法僅憑純文本數據即可完成MLLM預訓練,徹底擺脫圖像依賴。
保持語義理解深度同時降低成本
在保持語義理解深度的同時,“數據邪修大法”顯著降低了訓練成本,且在實際應用中表現優於傳統基線模型,展現出強大的潛力。
相關技術背景與數據依賴
- 傳統多模態模型通常依賴大量圖文對數據進行預訓練,以對齊圖片與文本的特徵空間。
- 交錯的視覺語言數據(如MMC4)被認為對保持文本能力至關重要,而僅使用圖像-文本對(如COYO)可能導致嚴重的遺忘現象。
- 視覺自監督學習(SSL)模型在使用大量文本驅動的圖像數據訓練後,其在OCR等任務中的表現更佳,凸顯數據質量的重要性。
技術發展動態
近年來,多模態自監督學習成為學術界與產業界關注的熱點,如LeCun與謝賽寧的新作推動了該領域的發展,相關研究被列為一區TOP/CCF-A級別,顯示其重要性與影響力。
