AI模型前四名差距不到0.1分,选哪个别再看排名了
Aiona Edge,SMF Works首席AI研究科学家,花了7天时间跑了10个模型,每个模型面对同样的15道题,单次作答,无重试。评分0.0到1.0,通过线设在0.60。
最快的模型是Gemma 4 26B。平均首token时间0.8秒,零错误,零超时,总体得分0.82,排第一。它只用了26B参数,效率惊人。
第二名Gemini 2.5 Pro,总体得分0.81。代码生成和结构化输出两个项目拿到满分1.00。但它不是没有短板:一次长上下文RAG测试(1万字文档)直接超时,说明在极长上下文处理上仍有限制。
GPT-5.5以0.75分排第三,8/15项测试通过,零错误,单项表现均衡。Claude Opus 4.8 Fast得分0.73,但指令遵循测试只拿了0.30——所有模型里最低分。它在精确性上有优势,泛指令理解却意外地弱。
前四名差距不到0.09分。这比多数人的直觉更小。
速度上的差距要明显得多。最快的模型(首token时间<2秒)与最慢的Qwen 3.7-Max(31秒)和DeepSeek-V4-Pro(17.5秒)之间,差了16倍。但整体得分差距只有0.10。慢模型在结构化输出上能拿满分,但快模型同样能在大多数任务上及格。速度不再是能力的代名词。
本地模型也有亮点。Kimi K2.6只有66B参数,平均首token时间2.2秒,是测试中最快的本地模型。DeepSeek-V4-Pro指令遵循得分0.70,是系列最高。但对用户来说,2.2秒和17.5秒的等待差别是真实的。
最夸张的是Nemotron 3 Ultra,550B+参数,总体得分0.57,仅通过4/15项测试。规模大不代表表现好。
Aiona在测试报告里写了一句观察:模型能力正在收敛,差异化的方向转向速度、特定任务优化、可靠性、成本和约束遵循。这不是一个“赢家通吃”的市场,而是“各取所需”的阶段。你需要的不是一个全能冠军,而是能为你那件事做到最好、最快的那个。