Sahara AI 與微軟聯合推出 AI 推理評測基準 MATHVISTA

合作背景與基準目標

人工智能公司 Sahara AI 宣佈與微軟合作，為微軟提供高精度標註數據，共同推出開源基準 MATHVISTA。該基準專為測試 GPT-4V、Claude、Gemini 等模型在真實場景下的推理與決策能力。

目前 MATHVISTA 基準的歷史下載量已超過 27 萬次，顯示其在 AI Agent 領域的廣泛接受度與實用性。此類高品質標註數據，是 AI Agent 能夠擁有可靠推理與決策能力的基礎，直接影響數百萬用戶每日使用的 agent 表現。