AI 時代的省錢哲學:如何把每一個 Token 花在刀刃上
上秤前,先擇掉爛菜葉
在 AI 時代,信息的價值不再由廣度決定,而由純度決定。AI 的計費邏輯是按它閱讀的字數收費,因此省 Token 的首要思維是將「信噪比」刻進潛意識。
許多常見的 Token 浪費行為包括:
- 冗長開場白與重複背景介紹:如「你好,請幫我…」等無意義的對話。
- 直接投餵未處理的檔案:將包含頁眉、頁腳、水印及格式代碼的 PDF 或網頁截圖直接丟給 AI,這些對理解問題無幫助卻會大幅增加成本。建議先將 PDF 轉為乾淨的 Markdown 文本。
- 圖片分辨率過高:AI 僅在乎像素面積而非畫質。若任務僅需識別文字或簡單判斷,將圖片壓縮至最小可用分辨率可大幅降低成本(例如從 1000×1000 像素壓縮至 200×200 像素,成本可降低 25 倍)。
- 低效的對話方式:習慣用社交式碎碎念或「擠牙膏」式的多輪對話,導致 AI 反覆生成內容。應一次性說清楚要求、邊界條件與範例,減少否定句的使用。
- 讓 AI 自行搜尋:直接告訴 AI 具體檔案路徑(如 src/services/user.ts),比讓它自行掃描全庫能節省大量 Token。
別為 AI 的「禮貌」買單
大模型輸出 Token 通常比輸入 Token 貴 3 到 5 倍。因此,那些無信息增量的寒暄、解釋與復述需求,都會轉化為高昂的成本。
節省輸出端 Token 的有效手段包括:
- 給 AI 立規矩:透過系統指令明確要求「不要寒暄、不要解釋、不要複述需求,直接給答案」。
- 壓縮指令:將冗長的系統提示詞壓縮,刪除無意義詞彙並採用條列式,可顯著降低消耗。
- 限制輸出長度:強制 AI 返回結構化格式(如 JSON),而非冗長的散文式描述,以保留高濃度的邏輯核心。
- 關閉擴展思考:對於不需深度推理的簡單任務,明確告知 AI 不需要解釋思路或關閉擴展思考模式。
別讓 AI 翻舊帳
大模型在每次對話中都會重新讀取所有歷史記錄,對話輪次越多,單次查詢的成本呈幾何倍增長。追蹤數據顯示,第 50 條消息的處理成本已是第 1 條的 80% 以上。
解決此問題的方法有:
- 一個任務一個對話:話題結束後應開啟新對話,避免將 AI 視為永不停歇的聊天窗口。
- 利用壓縮命令:部分工具(如 Claude Code 的 /compact 命令)可將長對話歷史濃縮為摘要。
- 提示詞緩存(Prompt Caching):對於重複使用的系統提示詞或參考文檔,利用緩存功能可將成本降低至正常價格的 1/10 或 50%。但需注意內容一致性,一旦修改將失效。
- 按需載入:將規範與文檔拆分為獨立技能文件,僅在需要時載入相關內容,保持上下文純淨。
別開保時捷去買菜
不同 AI 模型價格差距巨大,應遵循「階級分工」思維,將任務分配給最合適的模型。
- 模型選擇策略:簡單任務(如資料蒐集、格式清理)使用廉價模型(如 Haiku);複雜推理與架構決策使用頂級模型(如 Opus)。
- 兩段式工作流:先用基礎模型處理前期雜活,再將高純度精華投餵給頂級模型進行核心決策與精修。
- 任務解構:將複雜工程任務拆解為獨立子任務,並匹配最合適的模型執行。
你本來不需要花 Token
最極致的節省是決策的斷捨離。在許多場景下,調用大模型並非必要,人的判斷力是最好的過濾器。
例如處理郵件時,先由人工篩選明顯不需 AI 處理的郵件,再將剩餘部分交給 AI,可大幅降低 Token 消耗。當使用者對 Token 成本具備敏銳度時,便能更精準地決定何時使用 AI、使用何種模型以及上下文管理的尺度,從而從算力的附庸變回主人。
