Anthropic坦白Claude Code三次翻车:推理降级、缓存bug、啰嗦指令
3月4日,Claude Code的默认推理努力从高改成了中。用户很快感觉模型变笨了——推理变浅,回复质量下降。Anthropic当时想省点计算,但没考虑到用户对协作工具中模型“思考深度”的敏感度。4月7日,他们把默认值改回高(Opus 4.7设为超高,其他模型为高)。
3月26日,另一个问题来了:一个缓存优化bug导致Claude在会话中每轮都清空之前的推理历史,本该只清一次。结果模型变得健忘,重复提问,会话越长越明显。这个bug直到4月10日(v2.1.101)才修复。
更意外的是,4月16日,为了减少啰嗦,Anthropic在系统提示里加了一句“减少废话”指令。效果确实有了——但编码质量跟着跌了。因为加指令时没有跑完整的编码评估,导致Sonnet 4.6、Opus 4.6和Opus 4.7在编码任务上退步。4月20日回滚了这条指令。
三个问题都在4月20日(v2.1.116)解决。API和推理层一直没受影响。
缓存bug还连带消耗了使用限制——因为每次请求都找不到缓存,都得重新计算,用户发现额度用得更快了。作为补偿,Anthropic从4月23日起给所有订阅者重置了使用限制。
Anthropic也承认自己的测试流程不够严。他们计划让更多内部员工用公开版,改进Code Review工具并推给客户;系统提示变更要跑全套评估,加浸泡期和逐步推出。还在X上开了@ClaudeDevs账号,专门解释产品决策过程和背后逻辑。
还有一个细节值得记一笔:回溯测试中,Opus 4.7能发现那个缓存bug,而Opus 4.6做不到。——事实自己比道歉更有说服力。