你理解的 token,幾乎一定是錯的

你理解的 token,幾乎一定是錯的

Token 是語言的計算接口,而非語言單位

Token 是大語言模型處理文本的基本單位,它並不等同於一個單詞或詞組,可能是一個前綴(如 “de”)、一個標點符號,或一個詞組。Token 的本質是語言的計算接口,而非語言的自然單位。

Token 的實際運作機制

在大模型中,Token 是模型處理輸入與輸出的基礎單位。當你在 Chat 界面與 AI 聊天時,雖然看不到 Token,但它們是模型理解對話邏輯的基礎。模型讀取、理解和操作的都是 Token。

Token 的處理過程涉及 Tokenizer(分詞器),它將自然語言文本分割成一系列 Token,用於後續的模型推理與計算。

Token 與語義的關係

Token 本身並不攜帶語義信息,其語義由模型在上下文中的理解與生成過程決定。TokenID 是一個無語義的標識符,而真正的語義信息則通過 Token 轉換為 Embedding 向量來表達。

Token 的實際應用與限制

在實際使用中,每一條信息、每一次計算和輸出,都會消耗 Token,因此 Token 成為衡量 AI 使用成本的重要指標。沒有 Token,AI 就無法執行任何操作,可以說 Token 是 AI 的「生命力」。

然而,有觀點指出,僅以「下一個 token 的預測」為目標,無法真正模擬人類思維,人類在執行計劃前會進行頭腦中的推理,而 AI 的 token 預測僅能產生類似「即興表演藝術家」的輸出,缺乏真正的認知能力。

來源:https://36kr.com/p/3737980356149512

返回頂端