Kimi 2.6 在 LiveBench 超过 Opus 4.7，被称目前最佳开源模型

📅 2026 年 4 月 23 日 📖 约 1 分钟 @bindureddy on 𝕏 AI开源研究

Kimi 2.6 在 LiveBench 基准测试中得分高于 Opus 4.7。LiveBench 被描述为‘无法被刷分’的测试，意味着结果更反映真实能力。这意味着：它不是靠针对性优化拿高分，而是通用能力确实更强。

Kimi 2.6 在推理、编程任务上明确胜过 Opus 4.7，在‘代理式编程’（agentic coding）上也接近其水平。这意味着：它不仅能解题、写函数，还能完成多步协作类编程任务——这类任务需要模型规划、调用工具、迭代修正。

该结论经过内部评估复核，且相关数据公开在 Livebench AI 网站。这意味着：判断不是单次跑分或主观印象，而是可验证、可追溯的实测结果。

有人指出 Kimi 2.6 推理成本很高，‘低努力操作’消耗的 token 和高努力操作一样多。这意味着：它的强表现是以高计算开销为代价的，实际部署时需权衡性能与成本。

也有人补充，Kimi 2.6 在基准之外的表现‘相当不错’。这意味着：它不只是‘会考试’，在真实交互场景中也有扎实基础。