AI Pulse
📡 X 信号

干活的 AI 助理,天生不太会说‘这版不合格’

读 Anthropic 的《长期运行应用的 Harness 设计》, 想明白一个很多agent现实的问题: 干活的 Agent,最好不要自己给自己验收。原因也挺好理解。大模型本来就不是按“公司里的严格 reviewer”训练出来的。

公开语料里有很多夸奖、解释、安慰、圆场,再加上后训练又会鼓励它礼貌、有帮助、别太冒犯用户。所以它默认更像一个好说话的助理,不太像一个会冷脸说“这版不合格”的leader 这在写代码这种有单测的任务里,问题还没那么明显。跑不跑得通,测试会告诉你。

但到了设计、文案、产品方案、页面体验这种主观任务,就麻烦了。一个 Agent 做完之后再让它自己评价,它很容易把“能解释得过去”,当成“做得还不错”。这也是为什么 Anthropic 这里把 Generator 和 Evaluator 拆开很重要。

一个 Agent 负责生成,一个 Agent 负责挑刺。而且 Evaluator 不能只是换个模型说一句“整体不错,可以优化”。它得有明确标准,要能看结果、跑流程、找边界问题,必要时直接把东西打回去。

这不是为了把架构搞复杂,而是把真实公司里最基本的工作机制搬进 Agent 里: 有人负责交付,有人负责验收。Agent 真正能不能干活,不只取决于它会不会生成东西,还取决于系统里有没有一个足够狠、足够具体、敢说“不行,重做”的评价者

查看 X 原帖

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部