年度AI模型盤點

摘要與背景

見證從工具到夥伴的蛻變——本年度AI模型盤點聚焦全球與中國在大型語言模型與通用人工智慧領域的最新進展，特別是在推理能力、複雜推理、競賽級數學、多輪對話與指令遵循等測試集的表現。

文章聚焦於具代表性的模型與技術動向。其中，字節跳動的「豆包」系列模型成為焦點。豆包1.6-thinking在60個公開評測基準中取得38項最佳成績，表現跻身全球前列；隨後的豆包1.8版本在多項指標上進一步提升，顯示出中國企業在大模型領域的快速進展。

此外，全球與中國的大模型競爭仍在加速，測試集與評價標準日益完善，推動模型在複雜推理、對話與指令遵循等任務中不斷提升。

文章指出除了技術突破，商業化落地、產業應用與資本市場動態也是年度AI大盤點的重要方向，預示未來大模型在商業模式、治理與生態建設方面的挑戰與發展機遇。