AI编程组合成本差30倍速度差7倍,最贵不一定最快
Artificial Analysis 发布了新的 Coding Agent Index,专门衡量不同代理工具与模型组合在三个主流基准上的表现、token 使用量和成本。
结果差距惊人。完成一个任务,最贵组合的成本是最便宜组合的30倍以上;token使用量相差超过3倍;耗时更悬殊,最慢组合比最快组合慢7倍以上。
为什么时间差异这么大
时间差距由三个因素叠加造成:每个任务的平均交互轮次相差约3倍;每个轮次使用的token量相差超过3倍;不同API服务的响应速度也不一样。三者相乘,就拉出了7倍的悬殊。
代理们都有一个共同点:缓存命中率相当高——如果反复做类似的编码任务,重复调用可以大幅降低实际成本。
没有全能冠军
性能方面,GPT-5.5 搭配 Codex 工具在 SWE-Atlas-QnA 和 Terminal-Bench v2 两个基准上表现最强;Opus 4.7 搭配 Claude Code 工具则在某个未指明的基准上领先。
不同组合各有优势,没有哪个组合在所有场景下都是最佳选择。目前尚不清楚这些基准测试的具体任务是什么,是否覆盖真实开发场景;Opus 4.7在 Claude Code 上的具体领先基准也未公布。API服务速度差异的具体数值和哪个提供商更快,同样没有明确信息。开发者需要根据自己的任务类型和预算去试,而不是盲目追求最贵的组合。