AI编程组合成本差30倍速度差7倍，最贵不一定最快

📅 2026 年 5 月 12 日 📖 约 2 分钟 @ArtificialAnlys on 𝕏 AI工程研究

Artificial Analysis 发布了新的 Coding Agent Index，专门衡量不同代理工具与模型组合在三个主流基准上的表现、token 使用量和成本。

结果差距惊人。完成一个任务，最贵组合的成本是最便宜组合的30倍以上；token使用量相差超过3倍；耗时更悬殊，最慢组合比最快组合慢7倍以上。

为什么时间差异这么大

时间差距由三个因素叠加造成：每个任务的平均交互轮次相差约3倍；每个轮次使用的token量相差超过3倍；不同API服务的响应速度也不一样。三者相乘，就拉出了7倍的悬殊。

代理们都有一个共同点：缓存命中率相当高——如果反复做类似的编码任务，重复调用可以大幅降低实际成本。

没有全能冠军

性能方面，GPT-5.5 搭配 Codex 工具在 SWE-Atlas-QnA 和 Terminal-Bench v2 两个基准上表现最强；Opus 4.7 搭配 Claude Code 工具则在某个未指明的基准上领先。

不同组合各有优势，没有哪个组合在所有场景下都是最佳选择。目前尚不清楚这些基准测试的具体任务是什么，是否覆盖真实开发场景；Opus 4.7在 Claude Code 上的具体领先基准也未公布。API服务速度差异的具体数值和哪个提供商更快，同样没有明确信息。开发者需要根据自己的任务类型和预算去试，而不是盲目追求最贵的组合。

📎 阅读原文 · @ArtificialAnlys on 𝕏

为什么时间差异这么大

没有全能冠军

📬 订阅 AI Pulse