📡 X 信号

开发者测试对比不同大语言模型版本性能差异

@teortaxesTex 1.8K 浏览 · 11 喜欢 · 4 收藏 AI大模型模型评测

V4 和 V4.1（或者说 V4-Preview 和 V4）之间有一个和「模型气味」相关的有趣差异：新模型可以同时进行LARP和正经完成任务。

我用旧版 expert-web 测试 @victor207755822 的角色扮演后缀时，它基本上都是在假装推理。而现在，它会做规划了。

网页模型做出来的LARP质量一样低劣，生成的HTML满是错误。API思考了630秒，生成了31K个token，结果产出的……这个东西，它不是体素！

但话说回来，它其实非常关注提示词，甚至还尝试做出装着沙丁鱼的半透明袋子。不管怎么说，这个提示词本身就是一团LARP模型写出来的混乱垃圾（我一向认为不应该这么测试智能体，它们的优势本来就不是生成零错误的内容）。

GLM要好得多，只用了1/5的token（所以成本相同，速度快约3倍），甚至做出了横爬的螃蟹，只不过它还多出来一个怪异的旋转自行车。

它们全都搞错了方向，而且是完全随机地错。总的来说，我认为这个DeepSeek和「GLM 5.15」水平相当。

新版V4会在CoT里写很多草图，内容多少有点蠢。这是一个非常好笑的误解，它尝试把「Voxel」和「ASCII」结合在一起，最后得到了一个非常离谱的结果。我有点担心这个模型（V4-Flash做出来的3D HTML玩具没什么新意，但至少能用）。

本文由 AI 翻译自英文原帖，技术名词保留英文。

📬 订阅 AI Pulse