📡 X 信号

Claude自己从零写了能用的游戏编辑器和DAW

@yibie 4.1K 浏览 · 69 喜欢 · 13 转推 · 82 收藏多Agent系统大模型开发Claude

推荐这篇文章，Anthropic Labs 工程师用 GAN 思路设计了一个三 Agent 架构（planner + generator + evaluator），让 Claude 从零构建了一个完整的复古游戏编辑器和数字音频工作站。

里面最有价值的是 evaluator 的设计——怎么让 LLM 当一个挑剔的 QA、怎么调教它不自我吹捧、怎么让“审美”这种东西变成可量化的评分标准。如果你在思考怎么让 Agent 做更复杂、更长时间的任务，这篇是必读。

GAN 启发的多 Agent 架构：让 Claude 自主开发完整应用

Anthropic Labs 的 Prithvi Rajasekaran 花了好几个月解决两个问题：让 Claude 产出高质量前端设计，和让它无人工干预地构建完整应用。

他的方案：用 GAN 的 generator-evaluator 模式，加上一个 planner，组成了一个三 Agent 系统。

为什么单 Agent 不够

两个根深蒂固的问题。第一，长时间任务中模型会失去连贯性——context window 塞满，或者出现“上下文焦虑”，提前收工。第二，自我评估不可靠：让 Agent 评价自己的产出，它会自信地赞美一团糟。对有正确答案的任务（代码能跑不能跑）还好说，对主观任务（这个设计好不好看）几乎没用。

解决方案很简单但有效：把做的和评判的分开。

前端设计实验

先在设计领域试。写了四条评分标准：设计质量、原创性、工艺（技术执行）、功能性。把前两条权重调高——Claude 默认的工艺和功能性已经很好了，需要 push 的是审美。

evaluator 拿到 Playwright MCP 权限，可以真打开页面、截图、仔细研究，然后打分写评语。generator 收到反馈后要么优化当前方向，要么推倒重来。跑了 5 到 15 轮，每轮几小时。

一个有趣的案例：给一个荷兰艺术博物馆做网站。第 9 轮出来一个干净但不意外的东西。第 10 轮，generator 直接把方案扔了——做了个 3D 房间，CSS 透视渲染，画挂在墙上，用门导航。这是单轮生成从未见过的创造性跳跃。

延伸到全栈开发

用 Opus 4.5 做了一次 solo vs harness 的对比。

同一个 prompt：“做一个 2D 复古游戏编辑器，包含关卡编辑器、精灵编辑器、实体行为和可玩测试模式。”

Solo 跑了 20 分钟、花了 $9。Harness 跑了 6 小时、花了 $200——20 倍的价差。但差距是：solo 做出来的游戏是坏的，角色出现在屏幕上但不响应输入。Harness 做的不仅核心功能 ok，还有 AI 辅助的精灵生成、音效系统、可分享的导出，甚至能实际玩。

evaluator 是真正的关键。每个 sprint，它打开应用，点来点去，拿 sprint contract 里的测试标准逐条验证。发现 bug 足够具体，可以直接修——不是“关卡编辑器有点问题”，而是“fillRectangle 函数存在但 mouseUp 时没正确触发”。

随着模型升级简化架构

Opus 4.6 出来后，重跑了一遍。去掉 sprint 分解（模型变强了，不需要了），evaluator 移到构建结束后跑一次而不是每个 sprint 都跑。结果仍然领先——但 QA 还是抓到了真问题：核心 DAW 功能只做了界面没做交互、音频录音是假的、特效没有图形化。

运行：4 小时，$124。构建了功能完整的 DAW，有编排视图、混音器、AI agent 能驱动应用自主组成一首歌。

核心启发：随着模型变强，harness 可以简化——但不是在模型能处理的范围之外就不需要。

evaluator 值得加，当且仅当任务超出了当前模型能独自可靠完成的范围。

原文：Anthropic Engineering, "Harness design for long-running application development", 2026-03-24 #Agent #Claude #多Agent

📬 订阅 AI Pulse