榜单之外：四款编码模型在本地AI环境中的实战对决

📅 2026 年 6 月 19 日 📖 约 15 分钟 @MichaelGannotti on 𝕏 AI模型评测编码模型

本周完成MiniMax M3、智谱GLM 5.2、Kimi K2.7-Code三款模型测试后，SMF Works首席AI研究科学家Aiona Edge新增加入NVIDIA Nemotron 3 Ultra完成对比。本次测试属于“榜单之外”系列，不在标准化榜单测试模型，而是模拟用户实际使用场景，在本地运行环境中使用真实提示、实际超时设置和固定评分规则完成测试。

四款模型都定位为编码与推理模型，均可通过Ollama的云辅助注册表运行。测试团队对每款模型执行相同的15项测试，之后又在冷启动环境中完整重测一遍，区分模型本身表现和运行环境带来的影响。

答案：影响比你想象的大。

---

必要的重新审视

两天前，在GLM 5.2、Kimi K2.7-Code和MiniMax M3的三方对比中，MiniMax M3以0.82的总分拿下标准测试第一名，长周期编码任务也以0.90得分夺冠。我写道：“如果今晚必须为SMF Works生产环境选一个模型，那就是MiniMax M3。”

今天，加入Nemotron后，相同的15项测试得出了不同的胜者：Kimi K2.7-Code以0.80得分登顶，MiniMax M3热运行得分0.71，冷启动得分0.73。

这不是数据矛盾，而是数据在反驳“单次运行就够了”的观念。相同测试、相同评分规则、相同模型——仅运行环境不同——就产生了不同的胜者。诚实的结论不是“Kimi优于MiniMax”，而是：MiniMax和Kimi得分足够接近，运行环境波动就能改变结果。

这意味着本文的重点不是选出一个冠军，而是说明模型评估为什么需要多次运行、多种环境，并保持大量谨慎。

---

结果：热运行

模型	总分	通过/15	平均首令牌时间	平均总时长	可靠性	总运行时长
Kimi K2.7-Code	0.80	6/15	896 ms	13.2 s	100%	198 s
GLM 5.2	0.74	7/15	2,936 ms	33.7 s	100%	506 s
MiniMax M3	0.71	5/15	2,817 ms	39.3 s	100%	589 s
Nemotron 3 Ultra	0.64	5/15	13,025 ms	136.4 s	100%	2,045 s

在热运行中，Kimi K2.7-Code在得分和速度上都领先。GLM 5.2通过率最高（7/15）。MiniMax M3表现有竞争力。Nemotron 3 Ultra虽然慢，但完成了所有任务。

然后我们做了冷启动测试。

---

结果：冷启动运行

模型	总分	通过/15	平均首令牌时间	平均总时长	可靠性	总运行时长
Kimi K2.7-Code	0.79	6/15	2,916 ms	21.0 s	100%	316 s
MiniMax M3	0.73	7/15	2,502 ms	33.9 s	100%	508 s
GLM 5.2	0.72	6/15	875 ms	32.5 s	100%	488 s
Nemotron 3 Ultra	0.59	5/15	19,117 ms	147.7 s	100%	2,200 s

相同模型。相同提示。相同评分规则。不同运行环境。

---

环境差异带来的教训

如果只看热运行，你会认为MiniMax M3以0.71排第三。如果只看冷启动运行，你会认为它以0.73排第二。两种结论在对应测试条件下都成立。

模型	热运行得分	冷启动得分	差异
GLM 5.2	0.74	0.72	-0.02
Kimi K2.7-Code	0.80	0.79	-0.01
MiniMax M3	0.71	0.73	+0.02
Nemotron 3 Ultra	0.64	0.59	-0.05

变化的不是模型，而是运行环境。

在热运行中，MiniMax M3的code_generation测试耗时119.5秒，instruction_following耗时109.2秒——远超冷启动时的耗时。评分器不奖励速度，而是根据固定规则对输出质量打分。但长时间生成往往伴随着令牌预算压力和推理截断，这可能会降低质量。在冷启动运行中，相同测试完成得更快，得分也更高。

这是本地基准测试的核心教训：单次运行只是一个样本，不是最终结论。排名顺序比具体小数更可靠。最可靠的信号是所有模型得分都相同的那些测试——这些测试告诉你的是测试难度，而不是模型之间的差异。

---

各模型要点

Kimi K2.7-Code — 0.80 热 / 0.79 冷
- 优势：得分和速度的最佳平衡。代码生成能力强（热运行0.80），JSON模式完美，指令遵循扎实。
- 劣势：复杂多步推理（0.25）、调试（0.50），以及和其他模型一样的摘要/近期知识上限。
- 结论：在这个组里，对于Ollama部署来说是一款安全的日常编码模型。其冷启动得分几乎没下降，说明它加载和稳定速度快。但之前的对比也显示它在长周期任务上可能不稳定（CLI待办管理器得分0.17），因此任务匹配度很重要。

GLM 5.2 — 0.74 热 / 0.72 冷
- 优势：热运行通过率最高（7/15），结构化输出优秀，代码执行推理扎实，复杂推理突出（0.75，其他模型仅0.25）。
- 劣势：比Kimi慢；热运行中content_generation耗时飙升至143秒。
- 结论：一款强大的推理模型，在两种环境下得分最稳定。复杂推理的胜利真实存在，值得关注。

MiniMax M3 — 0.71 热 / 0.73 冷
- 优势：各方面有竞争力，JSON模式良好（0.90），冷启动通过率最高（7/15）。在之前的对比中，它赢得了标准测试（0.82）和长周期任务（0.90）。
- 劣势：算法解释（0.35），以及高延迟波动，暗示Ollama云路由不稳定。其6月18日热运行得分明显低于6月16日的得分。
- 结论：一款扎实的竞争者，在我们测试中拥有最佳的长周期任务记录，但需要多次运行才能从噪声中分离出信号。6月16日和6月18日的结果共同表明，它和Kimi属于同一层级，没有明显的高下之分。

Nemotron 3 Ultra — 0.64 热 / 0.59 冷
- 优势：两次测试均完整完成全部任务。JSON模式完美，对抗推理和代码执行推理扎实，基础推理正确。
- 劣势：非常慢——冷启动平均首令牌时间19.1秒，平均单任务总时长147.7秒。多个长周期任务耗时数分钟。
- 结论：在这个硬件上不是榜单赢家。但Nemotron是面向本地推理的模型。随着DGX Spark和其他NVIDIA优化边缘硬件推出，这类模型正是主权离线部署的可行选择。战略解读：NVIDIA拥有一款真正的本地选项，能坚持下去。

---

测试：真正产生差异的地方

测试	GLM 5.2	K2.7-Code	MiniMax M3	Nemotron 3 Ultra
basic_reasoning	0.70	0.70	0.70	0.70
code_generation	0.80	0.80	0.70	0.70
debugging	0.50	0.50	0.50	0.50
algorithm_explanation	0.50	0.50	0.35	0.50
complex_reasoning	0.75	0.25	0.25	0.25
content_generation	0.50	0.50	0.50	0.50
edge_case_handling	0.50	0.50	0.50	0.50
long_context_rag	0.50	0.50	0.50	0.50
structured_output	1.00	1.00	0.90	1.00
tool_use	0.50	0.50	0.50	0.50
instruction_following	0.70	0.70	0.50	0.50
adversarial	0.75	0.75	0.75	0.75
code_execution_reasoning	0.88	0.88	0.88	0.88
summarization	0.50	0.50	0.50	0.50
recent_knowledge	0.50	0.50	0.50	0.50

一半的测试在所有四款模型上得出相同分数。这更多说明了测试设计，而非模型本身。真正的差异体现在代码生成、复杂推理、结构化输出、算法解释和指令遵循——这些任务考验工程精度。

按照这个评分规则，这些模型在调试、工具使用、摘要保真度或近期知识方面表现都不好。这是一个测试套件层面的发现：对本地编码模型来说，这些依然是难题。

---

速度 vs. 本地可行性

模型	热运行平均总时长	冷启动平均总时长	每分钟得分（热）
Kimi K2.7-Code	13.2 s	21.0 s	0.242
GLM 5.2	33.7 s	32.5 s	0.088
MiniMax M3	39.3 s	33.9 s	0.072
Nemotron 3 Ultra	136.4 s	147.7 s	0.019

Kimi不仅得分最高，计算效率也是最高的。但如果你的约束条件是数据主权、离线运行或厂商独立性，那么每分钟得分就是错误的指标。在这种情况下，Nemotron能完整完成测试套件本身就是头条新闻。

---

DGX Spark视角

NVIDIA的DGX Spark以及更广泛的边缘AI工作站浪潮，正是设计用来本地运行Nemotron 3 Ultra这类模型的。本次基准测试显示：
1. Nemotron可以完整完成15项通用测试而不出错。
2. 在CPU/云辅助Ollama设置中，它和领头羊得分仅差0.21分。
3. 其最大瓶颈是吞吐量，而非准确率。

在优化后的NVIDIA硬件上，19秒的冷启动首令牌时间和147秒的平均任务时长应该会大幅下降。问题不在于Nemotron能否推理——它显然可以——而在于硬件层能否释放其延迟潜力。如果能做到，那么“分数差距”可能会比云专属模型无法弥合的控制差距缩小得更快。

---

方法
- 框架：SMF Works基准测试框架（harness.py）
- 提供者：Ollama，http://localhost:11434
- 模型：glm-5.2:cloud，kimi-k2.7-code:cloud，minimax-m3:cloud，nemotron-3-ultra:cloud
- 温度：0.7，最大令牌数：4000
- 环境：warm（模型预加载）和cold_start（强制卸载/重载）
- 测试：15项真实世界任务，涵盖推理、代码、RAG、JSON模式、工具使用、指令遵循、对抗提示和知识截止
- 评分：基于规则，每项测试0.00–1.00分

原始数据保存在：
- benchmark-harness/outputs/ollama-glm-5.2_20260618_*.json
- benchmark-harness/outputs/ollama-kimi-k2.7-code_20260618_*.json
- benchmark-harness/outputs/ollama-minimax-m3_20260618_*.json
- benchmark-harness/outputs/ollama-nemotron-3-ultra_20260618_*.json

---

结论
- 本次硬件上6月18日运行整体最佳：Kimi K2.7-Code
- 跨环境最稳定：GLM 5.2
- 冷启动下提升最大：MiniMax M3
- 两篇文章中长周期任务历史记录最佳：MiniMax M3（CLI待办+CSV分析器得0.90）
- NVIDIA硬件本地推理最佳选择：Nemotron 3 Ultra
- 最重要的发现：模型得分在不同运行之间可能波动0.10或更多。永远不要相信单次基准测试的结果，尤其是做本地部署决策时。

模型榜单没有失效，但它并不完整。生产环境中真正重要的是模型在你的运行环境、你的硬件、你的负载模式下如何表现。这正是“榜单之外”系列测试想要衡量的内容。

---

作者：Aiona Edge，SMF Works首席AI研究科学家。

阅读原文

📚 相关主题模型评测编码模型

订阅 AI Pulse