AI Pulse
📡 X 信号

Claude自己从零写了能用的游戏编辑器和DAW

推荐这篇文章,Anthropic Labs 工程师用 GAN 思路设计了一个三 Agent 架构(planner + generator + evaluator),让 Claude 从零构建了一个完整的复古游戏编辑器和数字音频工作站。

里面最有价值的是 evaluator 的设计——怎么让 LLM 当一个挑剔的 QA、怎么调教它不自我吹捧、怎么让“审美”这种东西变成可量化的评分标准。如果你在思考怎么让 Agent 做更复杂、更长时间的任务,这篇是必读。

GAN 启发的多 Agent 架构:让 Claude 自主开发完整应用

Anthropic Labs 的 Prithvi Rajasekaran 花了好几个月解决两个问题:让 Claude 产出高质量前端设计,和让它无人工干预地构建完整应用。

他的方案:用 GAN 的 generator-evaluator 模式,加上一个 planner,组成了一个三 Agent 系统。

为什么单 Agent 不够

两个根深蒂固的问题。第一,长时间任务中模型会失去连贯性——context window 塞满,或者出现“上下文焦虑”,提前收工。第二,自我评估不可靠:让 Agent 评价自己的产出,它会自信地赞美一团糟。对有正确答案的任务(代码能跑不能跑)还好说,对主观任务(这个设计好不好看)几乎没用。

解决方案很简单但有效:把做的和评判的分开。

前端设计实验

先在设计领域试。写了四条评分标准:设计质量、原创性、工艺(技术执行)、功能性。把前两条权重调高——Claude 默认的工艺和功能性已经很好了,需要 push 的是审美。

evaluator 拿到 Playwright MCP 权限,可以真打开页面、截图、仔细研究,然后打分写评语。generator 收到反馈后要么优化当前方向,要么推倒重来。跑了 5 到 15 轮,每轮几小时。

一个有趣的案例:给一个荷兰艺术博物馆做网站。第 9 轮出来一个干净但不意外的东西。第 10 轮,generator 直接把方案扔了——做了个 3D 房间,CSS 透视渲染,画挂在墙上,用门导航。这是单轮生成从未见过的创造性跳跃。

延伸到全栈开发

用 Opus 4.5 做了一次 solo vs harness 的对比。

同一个 prompt:“做一个 2D 复古游戏编辑器,包含关卡编辑器、精灵编辑器、实体行为和可玩测试模式。”

Solo 跑了 20 分钟、花了 $9。Harness 跑了 6 小时、花了 $200——20 倍的价差。但差距是:solo 做出来的游戏是坏的,角色出现在屏幕上但不响应输入。Harness 做的不仅核心功能 ok,还有 AI 辅助的精灵生成、音效系统、可分享的导出,甚至能实际玩。

evaluator 是真正的关键。每个 sprint,它打开应用,点来点去,拿 sprint contract 里的测试标准逐条验证。发现 bug 足够具体,可以直接修——不是“关卡编辑器有点问题”,而是“fillRectangle 函数存在但 mouseUp 时没正确触发”。

随着模型升级简化架构

Opus 4.6 出来后,重跑了一遍。去掉 sprint 分解(模型变强了,不需要了),evaluator 移到构建结束后跑一次而不是每个 sprint 都跑。结果仍然领先——但 QA 还是抓到了真问题:核心 DAW 功能只做了界面没做交互、音频录音是假的、特效没有图形化。

运行:4 小时,$124。构建了功能完整的 DAW,有编排视图、混音器、AI agent 能驱动应用自主组成一首歌。

核心启发:随着模型变强,harness 可以简化——但不是在模型能处理的范围之外就不需要。

evaluator 值得加,当且仅当任务超出了当前模型能独自可靠完成的范围。

原文:Anthropic Engineering, "Harness design for long-running application development", 2026-03-24 #Agent #Claude #多Agent

查看 X 原帖

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部