微軟公佈150億參數Phi桌機版多模態模型
模型簡介
微軟本週公佈新版桌機模型Phi-4-reasoning-vision-15B,兼具輕巧、多模態及推理能力,可執行視覺辨識及文字理解、或是數學及科學推理等多種任務。
功能與應用
- 支援圖片問答、文件閱讀與數學推理等任務。
- 能理解電腦與手機螢幕內容。
- 可處理科學圖表等多模態文件。
技術特色
該模型的核心突破在於能自主判斷任務難度,智能選擇快速回應或深度推理,這在輕量級開源模型中具有顯著優勢。
資源公開
微軟已於GitHub與Hugging Face平臺公開模型權重與相關資源,方便開發者使用與進一步開發。
