模型自己尝了三口菜，成绩突然追平顶尖水平

📅 2026 年 4 月 14 日 📖 约 1 分钟 @Azaliamirh on 𝕏 AI工程研究

研究者搞了个测试时的小把戏，让智能体在基准上直接干到接近当前最优。传统大模型做题跟饭馆点单似的——厨师（模型）炒完一盘就端上来，不管咸淡；现在改成先炒三盘，再让后厨小工（轻量验证模块）尝一口打个分，挑最顺口的上桌。

这个小工压根没进过培训营，也不动主厨的配方（权重），连灶台（GPU集群）都不用换。同一套尝菜逻辑，换个主厨照样管用。

原来以为得砸钱买更大锅（参数）、烧更久火（训练）才能提味，结果发现只要多走一步“自己尝尝”，现有模型立马能打。中小团队不用等新模型开张，手头的老家伙也能榨出新汁水。

研究者觉得，问题可能不在模型“想得浅”，而在它“不会品自己想得对不对”。一旦让它兼任质检员，答题机器就变成了会挑答案的明白人。

目前所有判断全靠模型自己输出的味道，没开外挂，也没让真实用户试吃。