AI Pulse

Anthropic新模型能自主跑完多步骤任务,价格更低

Anthropic新模型能自主跑完多步骤任务,价格更低

Anthropic 发布了 Claude Sonnet 5,定位为更强的中型模型。和之前的聊天式AI不同,它能自己做规划、用浏览器和终端等工具,很少需要人工干预——几个月前这种水平还得靠更大更贵的模型。

Zapier 的工程师用了一个真实场景:先更新 Salesforce 账户层级,再向企业联系人发发布通知。Sonnet 5 把这个两步任务从头做到了尾,之前的模型会在半路卡住。简单说,你交给它一个多步骤流程——比如更新客户记录后自动发邮件——它现在能自己跑完。

性能上,Sonnet 5 接近旗舰 Opus 4.8,但成本低很多。在代理编码基准上,它得分 63.2%,比前代 Sonnet 4.6 的 58.1% 高,Opus 4.8 是 69.2%。知识工作基准上,Sonnet 5 甚至略超 Opus 4.8。它还擅长完成复杂任务,会主动检查自己的输出,而前代模型常常中途停下来。

定价方面,Sonnet 5 在 8 月 31 日前每百万输入 token 2 美元、输出 10 美元,之后涨到 3 美元和 15 美元。这个价格低于 Opus 4.8、OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro,但比 Gemini 3.5 Flash 贵。目前 OpenAI 的 GPT-5.6 Sol 和 Google 的 Gemini 3.5 Flash 也把代理能力作为核心卖点——代理能力正在成为各价格层级的新基线。

从周二开始,Sonnet 5 成为免费和 Pro 计划的默认模型,所有订阅用户都能用。安全方面,Anthropic 说它在拒绝恶意请求、规避提示注入攻击、减少幻觉和谄媚行为上都有改善。Lovable 的联合创始人评价它“干净一致地拒绝不安全请求”。不过评测也显示,它在危险网络安全任务上的能力远低于 Opus 模型——安全提升的同时,也意味着它不适合做高风险的黑客操作。

AI 的代理能力正在从昂贵的高端模型下放到价格更低的中型模型,日常工作中重复性多步骤流程的自动化门槛在降低。真实场景的可靠性还需要更多验证,但 Sonnet 5 已经展示了以前要更贵模型才能完成的任务。

阅读原文
📚 相关主题 大模型产品发布

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部