模型自己尝了三口菜,成绩突然追平顶尖水平
研究者搞了个测试时的小把戏,让智能体在基准上直接干到接近当前最优。传统大模型做题跟饭馆点单似的——厨师(模型)炒完一盘就端上来,不管咸淡;现在改成先炒三盘,再让后厨小工(轻量验证模块)尝一口打个分,挑最顺口的上桌。
这个小工压根没进过培训营,也不动主厨的配方(权重),连灶台(GPU集群)都不用换。同一套尝菜逻辑,换个主厨照样管用。
原来以为得砸钱买更大锅(参数)、烧更久火(训练)才能提味,结果发现只要多走一步“自己尝尝”,现有模型立马能打。中小团队不用等新模型开张,手头的老家伙也能榨出新汁水。
研究者觉得,问题可能不在模型“想得浅”,而在它“不会品自己想得对不对”。一旦让它兼任质检员,答题机器就变成了会挑答案的明白人。
目前所有判断全靠模型自己输出的味道,没开外挂,也没让真实用户试吃。