他半夜续了Claude Max 5x 会员,一个半小时就用光了
凌晨三点,有人刚续了Claude Pro Max 5x订阅。打开终端,写一行Express路由,跑个测试,再问一句“这个错误怎么修”。一个半小时后,配额归零。
他没训练模型,没跑批量任务,甚至没切出当前窗口。另外两个终端里,Claude Code会话正静默运行——自动压缩上下文、回溯规则、检查钩子。
每次操作都要“读”一遍几十万token的缓存。系统把这类读取和生成新文本划等号。读100万token的缓存,跟首次提交100万token的问题,扣的额度一样多。
一次自动压缩触发966k token的cache_read调用,相当于连发10条中等长度提问。用户连回车都没按。
30个规则文件带来1.9万token固定开销。每次读文件、跑测试或收反馈,整个上下文都得重传。下次看到context从32k涨到182k,别只盯着性能——先看quota还剩多少。
缓存没省用量,只是让用量藏得更深。
现在所有会话共享一个配额池。但每个会话的“安静时间”,仍在悄悄计费。
这套计费逻辑,把“记忆”当成了“劳动”:重复计算不加钱,有效复用却持续扣额度。