不是所有 token 都平等：谷歌揭示思維鏈長≠深度推理

研究核心發現

谷歌研究團隊針對大語言模型（LLM）的推理能力進行深入分析，發現一個關鍵悖論：思維鏈（Chain of Thought, CoT）的長度並不等於推理的深度或質量。

研究指出，在某些情境下，思維鏈越長，模型反而越容易出現邏輯死循環、過度推理，甚至導致推理結果跑偏。這意味著單純增加生成 token 的數量，並不必然提升模型的推理準確度。

研究團隊將現象拆解後發現，並非所有 token 都在執行相同的推理任務。

這解釋了為何長思維鏈中可能包含大量無效或重複的 token，導致整體推理效率與質量下降。

既然長度靠不住，該如何評估模型是否具備真實的推理能力？研究提出需關注 token 的質量與分佈，而非單純計數。未來可能需要發展新的評估指標，以區分模型的「形式化思考」與「實質性推理」。