Anthropic新模型会主动告诉你它哪里可能出错
Anthropic 发布了 Opus 4.8,这是它目前最强的公开模型。定价没变,和上一代 Opus 一样。
这次升级快得反常——距离 Opus 4.7 发布只有 41 天。而 Opus 4.7 刚出来时,不少用户挺失望的。这段时间里,OpenAI 的 Codex 和 Google 的 Gemini Flash 都有大版本更新,Anthropic 显然不想掉队。
Opus 4.8 的基准测试成绩依然是第一梯队。但更值得注意的改进是它对“坏数据”的处理能力。早期测试者发现,新模型更愿意主动标记自己工作里的不确定性,而不是硬给出一个答案。Bridgewater Associates 的测试反馈说,Opus 4.8 会主动指出来输入和输出分析中的问题,而这些问题其他模型通常直接就放过去了。
简单说,它更清楚自己的边界在哪里。
Anthropic 还发布了一个叫 Dynamic Workflows 的新功能,目前只是研究预览。它的设计是让 Opus 这样的大模型去管理数百个并行子代理做复杂任务。如果和 Claude Code 搭配,Opus 4.8 能直接完成数十万行代码的整库迁移——从启动到合并,以现有测试作基准。
但 Anthropic 手里还有一张更强的牌没打。上个月他们预览了最先进的 Mythos 模型,后来因为网络安全问题又收了回去。今天 Opus 发布的同时,公司暗示 Mythos 的预览期可能很快会结束——等必要的安全防护做好之后。他们正在快速推进,预计未来几周内向所有客户开放 Mythos 级别的模型。