AI Pulse
📡 X 信号

开发者测试对比不同大语言模型版本性能差异

V4 和 V4.1(或者说 V4-Preview 和 V4)之间有一个和「模型气味」相关的有趣差异:新模型可以同时进行LARP和正经完成任务。

我用旧版 expert-web 测试 @victor207755822 的角色扮演后缀时,它基本上都是在假装推理。而现在,它会做规划了。

网页模型做出来的LARP质量一样低劣,生成的HTML满是错误。API思考了630秒,生成了31K个token,结果产出的……这个东西,它不是体素!

但话说回来,它其实非常关注提示词,甚至还尝试做出装着沙丁鱼的半透明袋子。不管怎么说,这个提示词本身就是一团LARP模型写出来的混乱垃圾(我一向认为不应该这么测试智能体,它们的优势本来就不是生成零错误的内容)。

GLM要好得多,只用了1/5的token(所以成本相同,速度快约3倍),甚至做出了横爬的螃蟹,只不过它还多出来一个怪异的旋转自行车。

它们全都搞错了方向,而且是完全随机地错。总的来说,我认为这个DeepSeek和「GLM 5.15」水平相当。

新版V4会在CoT里写很多草图,内容多少有点蠢。这是一个非常好笑的误解,它尝试把「Voxel」和「ASCII」结合在一起,最后得到了一个非常离谱的结果。我有点担心这个模型(V4-Flash做出来的3D HTML玩具没什么新意,但至少能用)。

本文由 AI 翻译自英文原帖,技术名词保留英文。

查看 X 原帖

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部