Anthropic新模型能自主跑完多步骤任务，价格更低

📅 2026 年 7 月 1 日 📖 约 4 分钟 TechCrunch AI大模型产品发布

Anthropic 发布了 Claude Sonnet 5，定位为更强的中型模型。和之前的聊天式AI不同，它能自己做规划、用浏览器和终端等工具，很少需要人工干预——几个月前这种水平还得靠更大更贵的模型。

Zapier 的工程师用了一个真实场景：先更新 Salesforce 账户层级，再向企业联系人发发布通知。Sonnet 5 把这个两步任务从头做到了尾，之前的模型会在半路卡住。简单说，你交给它一个多步骤流程——比如更新客户记录后自动发邮件——它现在能自己跑完。

性能上，Sonnet 5 接近旗舰 Opus 4.8，但成本低很多。在代理编码基准上，它得分 63.2%，比前代 Sonnet 4.6 的 58.1% 高，Opus 4.8 是 69.2%。知识工作基准上，Sonnet 5 甚至略超 Opus 4.8。它还擅长完成复杂任务，会主动检查自己的输出，而前代模型常常中途停下来。

定价方面，Sonnet 5 在 8 月 31 日前每百万输入 token 2 美元、输出 10 美元，之后涨到 3 美元和 15 美元。这个价格低于 Opus 4.8、OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro，但比 Gemini 3.5 Flash 贵。目前 OpenAI 的 GPT-5.6 Sol 和 Google 的 Gemini 3.5 Flash 也把代理能力作为核心卖点——代理能力正在成为各价格层级的新基线。

从周二开始，Sonnet 5 成为免费和 Pro 计划的默认模型，所有订阅用户都能用。安全方面，Anthropic 说它在拒绝恶意请求、规避提示注入攻击、减少幻觉和谄媚行为上都有改善。Lovable 的联合创始人评价它“干净一致地拒绝不安全请求”。不过评测也显示，它在危险网络安全任务上的能力远低于 Opus 模型——安全提升的同时，也意味着它不适合做高风险的黑客操作。

AI 的代理能力正在从昂贵的高端模型下放到价格更低的中型模型，日常工作中重复性多步骤流程的自动化门槛在降低。真实场景的可靠性还需要更多验证，但 Sonnet 5 已经展示了以前要更贵模型才能完成的任务。

阅读原文

📚 相关主题大模型产品发布

📬 订阅 AI Pulse