超越CLIP,北大開源細粒度視覺識別大模型,每類識別訓練僅需4張圖像
模型性能突破
在每類僅需4張訓練圖像的情況下,Fine-R1對訓練集內外子類別的識別準確率均超越了OpenAI的CLIP、谷歌DeepMind的SigLIP等判別式模型。
技術背景與研究團隊
北京大學彭宇新教授團隊在細粒度多模態大模型領域進行了深入研究,最新研究成果旨在利用多模態大模型蘊含的豐富細粒度子類別知識以及生成式類別名稱解碼範式,突破傳統識別方法針對封閉域中有限類別的侷限,實現開放域下的細粒度視覺識別。
創新策略
研究採用三元組增強策略,在強化微調過程中,選取正樣本(同一子類別)和負樣本(不同子類別),通過優化訓練過程提升模型對細粒度類別的區分能力。
相關成果與數據集評估
綜合評估表明,在八種常用數據集上,該方法大幅超越了最先進的成果,展現出在細粒度視覺識別任務上的強大性能。
