Anthropic坦白Claude Code三次翻车：推理降级、缓存bug、啰嗦指令

📅 2026 年 5 月 25 日 📖 约 7 分钟 www.anthropic.com AI工程安全

3月4日，Claude Code的默认推理努力从高改成了中。用户很快感觉模型变笨了——推理变浅，回复质量下降。Anthropic当时想省点计算，但没考虑到用户对协作工具中模型“思考深度”的敏感度。4月7日，他们把默认值改回高（Opus 4.7设为超高，其他模型为高）。

3月26日，另一个问题来了：一个缓存优化bug导致Claude在会话中每轮都清空之前的推理历史，本该只清一次。结果模型变得健忘，重复提问，会话越长越明显。这个bug直到4月10日（v2.1.101）才修复。

更意外的是，4月16日，为了减少啰嗦，Anthropic在系统提示里加了一句“减少废话”指令。效果确实有了——但编码质量跟着跌了。因为加指令时没有跑完整的编码评估，导致Sonnet 4.6、Opus 4.6和Opus 4.7在编码任务上退步。4月20日回滚了这条指令。

三个问题都在4月20日（v2.1.116）解决。API和推理层一直没受影响。

缓存bug还连带消耗了使用限制——因为每次请求都找不到缓存，都得重新计算，用户发现额度用得更快了。作为补偿，Anthropic从4月23日起给所有订阅者重置了使用限制。

Anthropic也承认自己的测试流程不够严。他们计划让更多内部员工用公开版，改进Code Review工具并推给客户；系统提示变更要跑全套评估，加浸泡期和逐步推出。还在X上开了@ClaudeDevs账号，专门解释产品决策过程和背后逻辑。

还有一个细节值得记一笔：回溯测试中，Opus 4.7能发现那个缓存bug，而Opus 4.6做不到。——事实自己比道歉更有说服力。

📚 相关主题工程安全

📬 订阅 AI Pulse