你理解的 token,幾乎一定是錯的

你理解的 token,幾乎一定是錯的

Token 是語言的計算接口,而非語言單位

Token 是自然語言模型處理文本的最小單位,它並不等同於一個單詞或詞組,而是模型在處理語言時所使用的計算接口。Token 的本質是將語言內容拆解為可處理的片段,例如可能是一個詞、一個詞組、前綴(如 “de”)或標點符號。

Token 的實際運作機制

在大模型中,模型並不會直接處理完整的句子或段落,而是將輸入內容拆解為一系列 token,再逐一處理。每個 token 都會被轉換為一個向量,用於後續的語義計算與預測。

Token 的處理過程類似於「樂高積木」,語言是用積木拼出來的,模型則會將拼好的成品拆解為積木,再逐個處理,而不是直接處理成品。

Token 與模型行為的關係

儘管模型以 token 為單位進行處理,但其預測下一個 token 的機制,並不能真正模擬人類的思維過程。人類在執行計劃前,會在頭腦中進行復雜的推理與規劃,而模型僅能基於歷史 token 做出「即興表演式」的回應,缺乏真正的理解與意圖。

Token 的誤解與反思

許多關於 token 的理解存在誤區,例如將 token 理解為具有語義信息的獨立單位,或認為 token 與語言單位完全等同。實際上,token 本身是無語義信息的 ID,其語義由模型通過向量空間轉換而來,因此 token 本身不能直接轉換為 Embedding 向量。

此外,Token 的消耗機制也影響了 AI 的使用體驗。每一次信息查詢、計算或輸出,都會消耗 Token,若沒有足夠的 Token,AI 就無法正常運作,這被稱為「Token 荒」。

來源:https://36kr.com/p/3737980356149512

返回頂端