AI 時代的省錢哲學：如何把每一個 Token 花在刀刃上

上秤前，先擇掉爛菜葉

在 AI 時代，信息的價值不再由廣度決定，而由純度決定。AI 的計費邏輯是按它閱讀的字數收費，因此省 Token 的首要思維是將「信噪比」刻進潛意識。

許多常見的 Token 浪費行為包括：

冗長開場白與重複背景介紹：如「你好，請幫我…」等無意義的對話。
直接投餵未處理的檔案：將包含頁眉、頁腳、水印及格式代碼的 PDF 或網頁截圖直接丟給 AI，這些對理解問題無幫助卻會大幅增加成本。建議先將 PDF 轉為乾淨的 Markdown 文本。
圖片分辨率過高：AI 僅在乎像素面積而非畫質。若任務僅需識別文字或簡單判斷，將圖片壓縮至最小可用分辨率可大幅降低成本（例如從 1000×1000 像素壓縮至 200×200 像素，成本可降低 25 倍）。
低效的對話方式：習慣用社交式碎碎念或「擠牙膏」式的多輪對話，導致 AI 反覆生成內容。應一次性說清楚要求、邊界條件與範例，減少否定句的使用。
讓 AI 自行搜尋：直接告訴 AI 具體檔案路徑（如 src/services/user.ts），比讓它自行掃描全庫能節省大量 Token。

大模型輸出 Token 通常比輸入 Token 貴 3 到 5 倍。因此，那些無信息增量的寒暄、解釋與復述需求，都會轉化為高昂的成本。

節省輸出端 Token 的有效手段包括：

大模型在每次對話中都會重新讀取所有歷史記錄，對話輪次越多，單次查詢的成本呈幾何倍增長。追蹤數據顯示，第 50 條消息的處理成本已是第 1 條的 80% 以上。

解決此問題的方法有：

一個任務一個對話：話題結束後應開啟新對話，避免將 AI 視為永不停歇的聊天窗口。
利用壓縮命令：部分工具（如 Claude Code 的 /compact 命令）可將長對話歷史濃縮為摘要。
提示詞緩存（Prompt Caching）：對於重複使用的系統提示詞或參考文檔，利用緩存功能可將成本降低至正常價格的 1/10 或 50%。但需注意內容一致性，一旦修改將失效。
按需載入：將規範與文檔拆分為獨立技能文件，僅在需要時載入相關內容，保持上下文純淨。

不同 AI 模型價格差距巨大，應遵循「階級分工」思維，將任務分配給最合適的模型。

最極致的節省是決策的斷捨離。在許多場景下，調用大模型並非必要，人的判斷力是最好的過濾器。

例如處理郵件時，先由人工篩選明顯不需 AI 處理的郵件，再將剩餘部分交給 AI，可大幅降低 Token 消耗。當使用者對 Token 成本具備敏銳度時，便能更精準地決定何時使用 AI、使用何種模型以及上下文管理的尺度，從而從算力的附庸變回主人。