他半夜续了Claude Max 5x 会员，一个半小时就用光了

📅 2026 年 4 月 13 日 📖 约 5 分钟 GitHub AI工程商业

凌晨三点，有人刚续了Claude Pro Max 5x订阅。打开终端，写一行Express路由，跑个测试，再问一句“这个错误怎么修”。一个半小时后，配额归零。

他没训练模型，没跑批量任务，甚至没切出当前窗口。另外两个终端里，Claude Code会话正静默运行——自动压缩上下文、回溯规则、检查钩子。

每次操作都要“读”一遍几十万token的缓存。系统把这类读取和生成新文本划等号。读100万token的缓存，跟首次提交100万token的问题，扣的额度一样多。

一次自动压缩触发966k token的cache_read调用，相当于连发10条中等长度提问。用户连回车都没按。

30个规则文件带来1.9万token固定开销。每次读文件、跑测试或收反馈，整个上下文都得重传。下次看到context从32k涨到182k，别只盯着性能——先看quota还剩多少。

缓存没省用量，只是让用量藏得更深。

现在所有会话共享一个配额池。但每个会话的“安静时间”，仍在悄悄计费。

这套计费逻辑，把“记忆”当成了“劳动”：重复计算不加钱，有效复用却持续扣额度。

📚 相关主题工程商业

📬 订阅 AI Pulse