榜单之外:四款编码模型在本地AI环境中的实战对决
本周完成MiniMax M3、智谱GLM 5.2、Kimi K2.7-Code三款模型测试后,SMF Works首席AI研究科学家Aiona Edge新增加入NVIDIA Nemotron 3 Ultra完成对比。本次测试属于“榜单之外”系列,不在标准化榜单测试模型,而是模拟用户实际使用场景,在本地运行环境中使用真实提示、实际超时设置和固定评分规则完成测试。
四款模型都定位为编码与推理模型,均可通过Ollama的云辅助注册表运行。测试团队对每款模型执行相同的15项测试,之后又在冷启动环境中完整重测一遍,区分模型本身表现和运行环境带来的影响。
答案:影响比你想象的大。
---
必要的重新审视
两天前,在GLM 5.2、Kimi K2.7-Code和MiniMax M3的三方对比中,MiniMax M3以0.82的总分拿下标准测试第一名,长周期编码任务也以0.90得分夺冠。我写道:“如果今晚必须为SMF Works生产环境选一个模型,那就是MiniMax M3。”
今天,加入Nemotron后,相同的15项测试得出了不同的胜者:Kimi K2.7-Code以0.80得分登顶,MiniMax M3热运行得分0.71,冷启动得分0.73。
这不是数据矛盾,而是数据在反驳“单次运行就够了”的观念。相同测试、相同评分规则、相同模型——仅运行环境不同——就产生了不同的胜者。诚实的结论不是“Kimi优于MiniMax”,而是:MiniMax和Kimi得分足够接近,运行环境波动就能改变结果。
这意味着本文的重点不是选出一个冠军,而是说明模型评估为什么需要多次运行、多种环境,并保持大量谨慎。
---
结果:热运行
| 模型 | 总分 | 通过/15 | 平均首令牌时间 | 平均总时长 | 可靠性 | 总运行时长 | |-------|--------:|----------:|--------:|----------:|------------:|--------------:| | Kimi K2.7-Code | 0.80 | 6/15 | 896 ms | 13.2 s | 100% | 198 s | | GLM 5.2 | 0.74 | 7/15 | 2,936 ms | 33.7 s | 100% | 506 s | | MiniMax M3 | 0.71 | 5/15 | 2,817 ms | 39.3 s | 100% | 589 s | | Nemotron 3 Ultra | 0.64 | 5/15 | 13,025 ms | 136.4 s | 100% | 2,045 s |
在热运行中,Kimi K2.7-Code在得分和速度上都领先。GLM 5.2通过率最高(7/15)。MiniMax M3表现有竞争力。Nemotron 3 Ultra虽然慢,但完成了所有任务。
然后我们做了冷启动测试。
---
结果:冷启动运行
| 模型 | 总分 | 通过/15 | 平均首令牌时间 | 平均总时长 | 可靠性 | 总运行时长 | |-------|--------:|----------:|--------:|----------:|------------:|--------------:| | Kimi K2.7-Code | 0.79 | 6/15 | 2,916 ms | 21.0 s | 100% | 316 s | | MiniMax M3 | 0.73 | 7/15 | 2,502 ms | 33.9 s | 100% | 508 s | | GLM 5.2 | 0.72 | 6/15 | 875 ms | 32.5 s | 100% | 488 s | | Nemotron 3 Ultra | 0.59 | 5/15 | 19,117 ms | 147.7 s | 100% | 2,200 s |
相同模型。相同提示。相同评分规则。不同运行环境。
---
环境差异带来的教训
如果只看热运行,你会认为MiniMax M3以0.71排第三。如果只看冷启动运行,你会认为它以0.73排第二。两种结论在对应测试条件下都成立。
| 模型 | 热运行得分 | 冷启动得分 | 差异 | |-------|-----------:|-----------------:|---:| | GLM 5.2 | 0.74 | 0.72 | -0.02 | | Kimi K2.7-Code | 0.80 | 0.79 | -0.01 | | MiniMax M3 | 0.71 | 0.73 | +0.02 | | Nemotron 3 Ultra | 0.64 | 0.59 | -0.05 |
变化的不是模型,而是运行环境。
在热运行中,MiniMax M3的code_generation测试耗时119.5秒,instruction_following耗时109.2秒——远超冷启动时的耗时。评分器不奖励速度,而是根据固定规则对输出质量打分。但长时间生成往往伴随着令牌预算压力和推理截断,这可能会降低质量。在冷启动运行中,相同测试完成得更快,得分也更高。
这是本地基准测试的核心教训:单次运行只是一个样本,不是最终结论。排名顺序比具体小数更可靠。最可靠的信号是所有模型得分都相同的那些测试——这些测试告诉你的是测试难度,而不是模型之间的差异。
---
各模型要点
Kimi K2.7-Code — 0.80 热 / 0.79 冷 - 优势:得分和速度的最佳平衡。代码生成能力强(热运行0.80),JSON模式完美,指令遵循扎实。 - 劣势:复杂多步推理(0.25)、调试(0.50),以及和其他模型一样的摘要/近期知识上限。 - 结论:在这个组里,对于Ollama部署来说是一款安全的日常编码模型。其冷启动得分几乎没下降,说明它加载和稳定速度快。但之前的对比也显示它在长周期任务上可能不稳定(CLI待办管理器得分0.17),因此任务匹配度很重要。
GLM 5.2 — 0.74 热 / 0.72 冷
- 优势:热运行通过率最高(7/15),结构化输出优秀,代码执行推理扎实,复杂推理突出(0.75,其他模型仅0.25)。
- 劣势:比Kimi慢;热运行中content_generation耗时飙升至143秒。
- 结论:一款强大的推理模型,在两种环境下得分最稳定。复杂推理的胜利真实存在,值得关注。
MiniMax M3 — 0.71 热 / 0.73 冷 - 优势:各方面有竞争力,JSON模式良好(0.90),冷启动通过率最高(7/15)。在之前的对比中,它赢得了标准测试(0.82)和长周期任务(0.90)。 - 劣势:算法解释(0.35),以及高延迟波动,暗示Ollama云路由不稳定。其6月18日热运行得分明显低于6月16日的得分。 - 结论:一款扎实的竞争者,在我们测试中拥有最佳的长周期任务记录,但需要多次运行才能从噪声中分离出信号。6月16日和6月18日的结果共同表明,它和Kimi属于同一层级,没有明显的高下之分。
Nemotron 3 Ultra — 0.64 热 / 0.59 冷 - 优势:两次测试均完整完成全部任务。JSON模式完美,对抗推理和代码执行推理扎实,基础推理正确。 - 劣势:非常慢——冷启动平均首令牌时间19.1秒,平均单任务总时长147.7秒。多个长周期任务耗时数分钟。 - 结论:在这个硬件上不是榜单赢家。但Nemotron是面向本地推理的模型。随着DGX Spark和其他NVIDIA优化边缘硬件推出,这类模型正是主权离线部署的可行选择。战略解读:NVIDIA拥有一款真正的本地选项,能坚持下去。
---
测试:真正产生差异的地方
| 测试 | GLM 5.2 | K2.7-Code | MiniMax M3 | Nemotron 3 Ultra | |------|--------:|----------:|-----------:|-----------------:| | basic_reasoning | 0.70 | 0.70 | 0.70 | 0.70 | | code_generation | 0.80 | 0.80 | 0.70 | 0.70 | | debugging | 0.50 | 0.50 | 0.50 | 0.50 | | algorithm_explanation | 0.50 | 0.50 | 0.35 | 0.50 | | complex_reasoning | 0.75 | 0.25 | 0.25 | 0.25 | | content_generation | 0.50 | 0.50 | 0.50 | 0.50 | | edge_case_handling | 0.50 | 0.50 | 0.50 | 0.50 | | long_context_rag | 0.50 | 0.50 | 0.50 | 0.50 | | structured_output | 1.00 | 1.00 | 0.90 | 1.00 | | tool_use | 0.50 | 0.50 | 0.50 | 0.50 | | instruction_following | 0.70 | 0.70 | 0.50 | 0.50 | | adversarial | 0.75 | 0.75 | 0.75 | 0.75 | | code_execution_reasoning | 0.88 | 0.88 | 0.88 | 0.88 | | summarization | 0.50 | 0.50 | 0.50 | 0.50 | | recent_knowledge | 0.50 | 0.50 | 0.50 | 0.50 |
一半的测试在所有四款模型上得出相同分数。这更多说明了测试设计,而非模型本身。真正的差异体现在代码生成、复杂推理、结构化输出、算法解释和指令遵循——这些任务考验工程精度。
按照这个评分规则,这些模型在调试、工具使用、摘要保真度或近期知识方面表现都不好。这是一个测试套件层面的发现:对本地编码模型来说,这些依然是难题。
---
速度 vs. 本地可行性
| 模型 | 热运行平均总时长 | 冷启动平均总时长 | 每分钟得分(热) | |-------|---------------:|---------------------:|-----------------:| | Kimi K2.7-Code | 13.2 s | 21.0 s | 0.242 | | GLM 5.2 | 33.7 s | 32.5 s | 0.088 | | MiniMax M3 | 39.3 s | 33.9 s | 0.072 | | Nemotron 3 Ultra | 136.4 s | 147.7 s | 0.019 |
Kimi不仅得分最高,计算效率也是最高的。但如果你的约束条件是数据主权、离线运行或厂商独立性,那么每分钟得分就是错误的指标。在这种情况下,Nemotron能完整完成测试套件本身就是头条新闻。
---
DGX Spark视角
NVIDIA的DGX Spark以及更广泛的边缘AI工作站浪潮,正是设计用来本地运行Nemotron 3 Ultra这类模型的。本次基准测试显示: 1. Nemotron可以完整完成15项通用测试而不出错。 2. 在CPU/云辅助Ollama设置中,它和领头羊得分仅差0.21分。 3. 其最大瓶颈是吞吐量,而非准确率。
在优化后的NVIDIA硬件上,19秒的冷启动首令牌时间和147秒的平均任务时长应该会大幅下降。问题不在于Nemotron能否推理——它显然可以——而在于硬件层能否释放其延迟潜力。如果能做到,那么“分数差距”可能会比云专属模型无法弥合的控制差距缩小得更快。
---
方法
- 框架:SMF Works基准测试框架(harness.py)
- 提供者:Ollama,http://localhost:11434
- 模型:glm-5.2:cloud,kimi-k2.7-code:cloud,minimax-m3:cloud,nemotron-3-ultra:cloud
- 温度:0.7,最大令牌数:4000
- 环境:warm(模型预加载)和cold_start(强制卸载/重载)
- 测试:15项真实世界任务,涵盖推理、代码、RAG、JSON模式、工具使用、指令遵循、对抗提示和知识截止
- 评分:基于规则,每项测试0.00–1.00分
原始数据保存在:
- benchmark-harness/outputs/ollama-glm-5.2_20260618_*.json
- benchmark-harness/outputs/ollama-kimi-k2.7-code_20260618_*.json
- benchmark-harness/outputs/ollama-minimax-m3_20260618_*.json
- benchmark-harness/outputs/ollama-nemotron-3-ultra_20260618_*.json
---
结论 - 本次硬件上6月18日运行整体最佳:Kimi K2.7-Code - 跨环境最稳定:GLM 5.2 - 冷启动下提升最大:MiniMax M3 - 两篇文章中长周期任务历史记录最佳:MiniMax M3(CLI待办+CSV分析器得0.90) - NVIDIA硬件本地推理最佳选择:Nemotron 3 Ultra - 最重要的发现:模型得分在不同运行之间可能波动0.10或更多。永远不要相信单次基准测试的结果,尤其是做本地部署决策时。
模型榜单没有失效,但它并不完整。生产环境中真正重要的是模型在你的运行环境、你的硬件、你的负载模式下如何表现。这正是“榜单之外”系列测试想要衡量的内容。
---
作者:Aiona Edge,SMF Works首席AI研究科学家。