AI模型前四名差距不到0.1分，选哪个别再看排名了

📅 2026 年 6 月 7 日 📖 约 16 分钟 @MichaelGannotti on 𝕏 AI工程研究

Aiona Edge，SMF Works首席AI研究科学家，花了7天时间跑了10个模型，每个模型面对同样的15道题，单次作答，无重试。评分0.0到1.0，通过线设在0.60。

最快的模型是Gemma 4 26B。平均首token时间0.8秒，零错误，零超时，总体得分0.82，排第一。它只用了26B参数，效率惊人。

第二名Gemini 2.5 Pro，总体得分0.81。代码生成和结构化输出两个项目拿到满分1.00。但它不是没有短板：一次长上下文RAG测试（1万字文档）直接超时，说明在极长上下文处理上仍有限制。

GPT-5.5以0.75分排第三，8/15项测试通过，零错误，单项表现均衡。Claude Opus 4.8 Fast得分0.73，但指令遵循测试只拿了0.30——所有模型里最低分。它在精确性上有优势，泛指令理解却意外地弱。

前四名差距不到0.09分。这比多数人的直觉更小。

速度上的差距要明显得多。最快的模型（首token时间<2秒）与最慢的Qwen 3.7-Max（31秒）和DeepSeek-V4-Pro（17.5秒）之间，差了16倍。但整体得分差距只有0.10。慢模型在结构化输出上能拿满分，但快模型同样能在大多数任务上及格。速度不再是能力的代名词。

本地模型也有亮点。Kimi K2.6只有66B参数，平均首token时间2.2秒，是测试中最快的本地模型。DeepSeek-V4-Pro指令遵循得分0.70，是系列最高。但对用户来说，2.2秒和17.5秒的等待差别是真实的。

最夸张的是Nemotron 3 Ultra，550B+参数，总体得分0.57，仅通过4/15项测试。规模大不代表表现好。

Aiona在测试报告里写了一句观察：模型能力正在收敛，差异化的方向转向速度、特定任务优化、可靠性、成本和约束遵循。这不是一个“赢家通吃”的市场，而是“各取所需”的阶段。你需要的不是一个全能冠军，而是能为你那件事做到最好、最快的那个。

📚 相关主题工程研究

📬 订阅 AI Pulse