不是所有 token 都平等:谷歌揭示思維鏈長≠深度推理
研究核心發現
谷歌研究團隊針對大語言模型(LLM)的推理能力進行深入分析,發現一個關鍵悖論:思維鏈(Chain of Thought, CoT)的長度並不等於推理的深度或質量。
研究指出,在某些情境下,思維鏈越長,模型反而越容易出現邏輯死循環、過度推理,甚至導致推理結果跑偏。這意味著單純增加生成 token 的數量,並不必然提升模型的推理準確度。
Token 的差異性分析
研究團隊將現象拆解後發現,並非所有 token 都在執行相同的推理任務。
- 淺層預測 token:例如「and」、「is」、「the」等常見詞彙,模型在淺層網絡中即可快速鎖定預測,幾乎不需要經過深層推理。
- 深度推理 token:只有那些需要複雜邏輯推導的 token,才真正消耗計算資源並體現模型的思考深度。
這解釋了為何長思維鏈中可能包含大量無效或重複的 token,導致整體推理效率與質量下降。
如何判斷模型是否在「真思考」
既然長度靠不住,該如何評估模型是否具備真實的推理能力?研究提出需關注 token 的質量與分佈,而非單純計數。未來可能需要發展新的評估指標,以區分模型的「形式化思考」與「實質性推理」。
