安德烈·卡帕西(Andrej Karpathy)於 2025 年 12 月 21 日發布《2025 年大語言模型年度回顧》(2025 LLM Year in Review),回顧 2025 年大語言模型(LLM)在訓練方法、產品形態與互動方式上的多項關鍵轉變。
- RLVR 成為新引擎:卡帕西指出,LLM 訓練從既有的「預訓練+監督微調(SFT)+人類回饋強化學習(RLHF)」體系,進一步加入以可自動驗證回饋為基礎的強化學習(RLVR)。透過在數學、程式碼等可驗證環境中訓練,模型會自發形成類似「推理痕跡」的解題策略;同時,訓練週期拉長,並出現可透過延長「思考時間/推理軌跡」來調節能力的新維度。他並提到 OpenAI o1 為早期展示,而 o3 的推出成為更明顯的拐點。
- 「幽靈」而非「動物」的智能比喻:他以「召喚幽靈」對比「培育動物」來形容 LLM 的成長方式,認為其智能形態與生物智能的演化邏輯不同,並呈現「鋸齒狀」表現:在某些尖端領域極強,但在基礎常識等方面仍可能脆弱。
- 對基準測試的興趣與信任下降:卡帕西表示,許多 Benchmarks 建構在「可驗證環境」上,容易被 RLVR 訓練、合成資料生成或針對性訓練等方式影響,導致「刷榜」與測試可信度問題加劇。
- Cursor 展示 LLM 應用新層級:他認為 Cursor 類產品凸顯了 LLM 應用的「編排層」價值,包括:上下文工程(提示詞與上下文管理)、將多次模型呼叫編排為更複雜的流程(如 DAG)、提供適配場景的人機回圈(Human-in-the-loop)介面,以及用「自主權滑桿」控制 AI 自主決策的權限範圍。
- Claude Code 與本地化智能體:卡帕西指出,Claude Code 以循環方式串聯工具使用與推理來解決長時間跨度問題,並以本地化運行(直接在使用者電腦上)帶來可存取私有環境、資料、密鑰與低延遲互動等優勢;其 CLI 形態也強化了「AI 栖居於電腦中」的全新交互認知。
- 「氛圍編程」與 LLM 圖形介面(LLM GUI):他提出 2025 年 AI 跨過關鍵門檻,使人們僅用自然語言即可建立功能強的程式,甚至會弱化「寫程式碼」本身的存在感;這種「氛圍編程」降低一般人創作門檻,也讓專業開發者能更快實作原本不會嘗試的專案。同時,他以 Google Gemini 的「Nano Banana」為例,討論 LLM 從純文字對話走向更符合人類偏好的可視化互動(如圖像、資訊圖、投影片、白板、動畫/影片、網頁應用等),並將其視為 LLM GUI 演進方向的重要早期形態。
卡帕西並強調,儘管 LLM 已具備很高的實用價值,但人類對這一新計算範式的潛力開發仍不足 10%;隨著 RLVR 普及,未來競爭焦點可能從算力軍備競賽轉向「如何讓 AI 更高效思考」。
