AI Pulse

Claude Code省token五招:成本立减

针对Claude Code用户的实操指南,从Prompt Caching到工作流优化,每招都来自实测与社区共识。

## 引言 如果你在用 Claude Code,token 消耗可能让你每次查看账单都心头一紧。这五招来自官方文档和社区实测(Medium、YouTube、Reddit),帮你把成本压下来——不是空话,是能照做的那种。注意:以下技巧主要面向 Claude Code 用户,网页版/App 用户可参考思路,但无法直接照搬。

## 第一招:精简你的 CLAUDE.md Claude Code 每次启动会话都会加载 CLAUDE.md 文件,这部分 token 是固定的。但 Prompt Caching(提示词缓存) 让相同前缀被复用:如果内容不变,后续请求只计算一次。Medium 上一篇文章提到,2,000 token 的 CLAUDE.md,做 2 条消息和 200 条消息成本相同——因为缓存了。所以只放核心项目信息、编码规范,别塞杂事。

推荐的精简版 CLAUDE.md 结构示例: ` # Project Name

Description: Brief one-liner

Tech stack: Python 3.11, FastAPI, PostgreSQL

Conventions: 2-space indentation, type hints required

Key constraints: Max line length 100, no wildcard imports

` 这样的文件控制在 300 token 以内,只包含 Claude 必须知道的核心信息。

## 第二招:定期“冷启动”新会话 随着对话拉长,上下文 token 急剧膨胀,而且很多内容不会再被用到。YouTube 上有个视频分享了“4 个免费策略”,其中一条就是:每完成一个子任务,就开新会话。具体做法:让 Claude 总结当前状态,复制总结作为新会话的 context,然后继续。这样避免上下文无限制增长,相当于每次都从轻装上阵。

## 第三招:理解并利用 Prompt Caching Anthropic 官方文档说明,Prompt Caching 通过复用之前计算好的 KV 缓存(Key-Value 缓存,即提示词中固定部分的一种“计算快照”),显著降低处理时间和成本。关键原则:把重复出现的指令、项目背景、代码风格放在提示词的最开头。因为缓存是从提示词头部开始的,越靠前的部分越容易命中缓存。这样即使每次对话输入不同,固定部分也只计算一次。在 Claude Code 中,要保持 CLAUDE.md 和前置系统指令稳定,避免频繁修改导致缓存失效。

## 第四招:借助开源工具辅助管理上下文 Reddit 上有开发者分享了 6 个免费开源仓库,声称能减少最高 90% 的 token 消耗,代表性的工具有 Claw Code(聚焦上下文精简与摘要生成)。不过社区共识是:纪律比工具更重要。这些工具能帮你自动清理上下文、生成摘要、控制输入长度,但如果你不养成“少而精”的习惯,再多工具也没用。建议先从第三招练起,再考虑引入工具。

## 第五招:拆分复杂任务,减少单对话 token 量 大型任务(比如重构整个模块)如果扔进一个对话,上下文很快膨胀到几万 token。拆分成小步骤:先让 Claude 分析代码结构(新会话),再生成具体函数(新会话),最后集成测试(新会话)。每个会话的上下文小,缓存命中率高,且更易管理。长期看,这比一次性完成省得多。

## 结尾 这五招核心是工作流设计——不是花里胡哨的技巧,而是让 token 花在刀刃上。养成习惯后,你会感觉 Claude Code 变快了、变便宜了。记住:免费额度有限,但好习惯无限。

(截至 2026 年 4 月,以上技巧基于 Claude API 及 Claude Code 最新版本,部分功能可能随更新调整。)

📎 参考来源

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部