元-元提示：让AI智能体真正起作用的秘诀

📅 2026 年 5 月 10 日 📖 约 21 分钟 @garrytan on 𝕏 AI工程开源

**元-元提示：让AI智能体真正起作用的秘诀**

人们一直问我为什么每晚编码到凌晨2点。我有工作，而且是份大工作——Y Combinator的CEO。我们每年帮助数千位创业者实现梦想，打造真正有收入、快速增长的初创公司。

过去5个月，AI让我重新成为建造者。去年末，工具足够好了，我又开始动手搭建。不是玩具项目，而是真正能复合增长的系统。我想用具体例子向你展示，当你停止把AI当作聊天窗口、开始把它当作操作系统时，个人AI到底是什么样子。我把它开源并写进这类文章，因为我希望你和我一起加速。

这是系列文章的一部分： - 《胖技能，胖代码，瘦框架》介绍了核心架构 - 《解析器》涵盖了智能的路由表 - 《LOC争议》是关于每个技术人员如何把自己放大100倍到1000倍 - 《裸模型更蠢》论证了模型是引擎，不是车 - 《技能化宣言》解释了为什么LangChain融资1.6亿美元却只给了你一个深蹲架和哑铃而没有训练计划，然后给了你真正需要的训练计划

**那本把我读回去的书**

上个月我在读佩玛·丘卓的《当生命陷落时》。162页，22章，关于佛教对痛苦、无根基和放下的理解。一位朋友在我困难时期推荐了这本书。

我让我的AI做了一面"书镜"。

具体来说：系统提取了全书的22章，然后对每一章运行一个子代理，同时做两件事：总结作者的观点，然后把这些观点映射到我的实际生活。不是泛泛的"这对领导者适用"之类的陈词滥调，而是具体的映射。它知道我的家庭背景（移民父母，父亲来自香港和新加坡，母亲来自缅甸）。它知道我的职业背景（经营YC，构建开源工具，指导数千位创始人）。它知道我在读什么，凌晨2点在想什么，我的治疗师和我在处理什么。

输出是一篇3万字的脑页面。每一章呈现为两栏：佩玛说了什么，以及它如何映射到我正在经历的生活。关于无根基的那一章与上周一次具体的创始人对话相连。关于恐惧的那一章映射到我的治疗师曾指出的模式。关于放下的那章引用了一个深夜记录，当时我写下了今年找到的创作自由。

整个过程大约用了40分钟。一位每小时300美元的治疗师读完这本书并应用到我的生活，在40小时内也做不到，因为他们没有我完整的职业背景图谱、阅读历史、会议笔记和创始人关系——所有这些都已加载并可交叉引用。

我现在已经对20多本书做了这个： - 《放大》（Dion Lim） - 《伯特兰·罗素自传》 - 《设计你的人生》 - 《天才儿童的悲剧》 - 《有限与无限的游戏》 - 《海的礼物》（林德伯格） - 《悉达多》（黑塞） - 《荒原狼》（黑塞） - 《科学与工程的艺术》（Hamming） - 《梦想机器》 - 《认识自己的禁忌之书》（Alan Watts） - 《你在乎别人怎么想吗》（费曼） - 《当生命陷落时》（佩玛·丘卓） - 《万物简史》（肯·威尔伯） - 以及更多。

每一本书都变得更丰富，因为大脑变得更丰富。第二次书镜知道了第一次的内容。第二十次知道了前十九次的一切。

**书镜如何通过迭代变得更好**

我做的第一个书镜很糟糕。第一个版本有三个关于我家庭的事实错误。它说我父母离婚了——其实没有。说我出生在香港——其实我出生在加拿大。这些基本错误如果分享出去，会破坏信任。

于是我增加了一个强制的事实核查步骤。现在每个书镜在发布前都会运行跨模态评估，对照大脑中已知事实进行检查。Opus 4.7 1M捕捉精度错误。GPT-5.5捕捉缺失的上下文。DeepSeek V4-Pro捕捉那些读起来太泛泛的内容。

然后我通过GBrain工具使用升级到深度检索。原始版本擅长综合，但具体性不足。版本3对每个小节进行大脑搜索。每一栏的右侧条目都引用实际的大脑页面。当书籍谈论如何处理困难对话时，它不仅仅概括普遍原则，而是从我与特定创始人的实际会议记录中提取——那些正在与联合创始人进行艰难对话的创始人。或者某个周四和我兄弟詹姆斯闲逛时的想法。或者我19岁时和大学室友的即时通讯聊天。这简直不可思议。

这就是技能化（在GBrain中使用/skillify）的实际含义。我把第一次手动尝试提取出来，抽取出可重复的模式，编写了一个经过测试的技能文件，包含触发条件和边缘情况，每一次修复都叠加到未来所有的书镜中。

**构建技能的技能**

这里开始递归，也是我认为最大的洞见所在。

那个管理我生活的系统并非作为单体存在。它是由技能组装起来的。而这些技能本身又是被一个技能创建的。

Skillify是一个元技能，用于创建新技能。当我遇到一个会重复使用的工作流时，我说"skillify this"，它就会检查刚才发生了什么，提取出可重复的模式，编写一个经过测试的技能文件（包含触发条件和边缘情况），然后在解析器中注册。书镜管道在我第一次手动操作时就被技能化了。会议准备工作流在我注意到每次通话前都做同样步骤时被技能化了。

技能可以组合。书镜调用brain-ops进行存储，enrich进行上下文丰富，cross-modal-eval进行质量评估，pdf-generation进行输出。每个技能专注于一件事。它们串联起来形成复杂的工作流。当我改进一个技能时，所有使用它的工作流都会自动变得更好。再也不需要"忘记在提示词中提及这个边缘情况"了。技能会记住。

**自己准备的会议**

Demis Hassabis来YC做炉边谈话。Sebastian Mallaby写的他的传记刚刚出版。

我让系统为我做准备。

不到两分钟，它拉出了：Demis的完整脑页面（已经通过文章、播客文字记录和我自己的笔记积累了几个月）。他公开关于AGI时间线的信念（"50%扩展，50%创新"，认为AGI还有5-10年）。Mallaby传记的亮点。他公开的研究优先级（持续学习、世界模型、长期记忆）。与我公开说过的话的交叉引用。三个演示脚本，用于在对话中展示大脑的多跳推理能力。以及一组基于我们世界观重叠和分歧的对话钩子。

这不仅仅是更好的谷歌搜索。这是利用我积累的关于Demis的上下文、我自己的立场以及对话的战略目标所做的准备。系统准备的不仅是事实，还有角度。

**10万页大脑是什么样子**

我维护着一个结构化知识库，大约有10万页。每个我见过的人都有一页，包含时间线、状态部分（当前真实情况）、开放线程和评分。每次会议都有文字记录、结构化摘要以及我称为"实体传播"的东西：每次会议后，系统会遍历所有被提及的人和公司，用讨论内容更新他们的大脑页面。我读过的每本书都有逐章书镜。我参与过的每篇文章、播客和视频都会被摄取、标记和交叉引用。

结构很简单。每页包含：顶部是编译后的真相（当前最佳理解），下面是一个只追加的时间线（按时间顺序的事件），以及用于原始资料的元数据侧栏。把它想象成一个个人维基百科，每一页都由AI持续更新——这个AI参加了会议、读了邮件、看了演讲、摄取了PDF。

下面是一个复合的例子。我在办公时间遇到一位创始人。系统创建或更新他们的人页面、公司页面，交叉引用会议记录，检查我之前是否见过他们（并显示上次讨论的内容），检查他们的申请数据，拉取他们最新指标，并识别我的投资组合公司或联系人中哪些与他们的难题相关。到我参加下一次与他们的会议时，系统已经准备好完整的上下文包。

这就是拥有文件柜和拥有神经系统之间的区别。文件柜存储东西。神经系统连接它们，标记有什么变化，并浮现出与当下相关的信息。

**架构**

以下是它的工作原理。我认为这是构建个人AI的正确方式，我把整个东西开源了，这样你也可以自己构建。

框架很薄。OpenClaw是运行时。它接收我的消息，判断哪个技能适用，然后分发。几千行路由逻辑。它不知道任何关于书、会议或创始人的事。它只是路由。

技能很胖。现在有100多个技能，每个都是一个自包含的markdown文件，包含一个特定任务的详细指令。你已经看到了上面的book-mirror和meeting-prep。以下是随GBrain一起提供的几个：

- meeting-ingestion：每次会议后，拉取文字记录，创建结构化摘要，然后遍历所有被提及的人和公司，用讨论内容更新他们的大脑页面。会议页面不是最终产品。返回到每个个人和公司页面的实体传播才是真正的价值。 - enrich：给它一个人的名字。它从五个不同来源拉取信息，将一切合并成一个带职业轨迹、联系方式、会议历史和关系上下文的单一脑页面。每个声明都带引用的来源。 - media-ingest：处理视频、音频、PDF、截图、GitHub仓库。转录、提取实体、归档到正确的大脑位置。我经常用它处理YouTube视频、播客和语音备忘录。 - perplexity-research：大脑增强的网络研究。通过Perplexity搜索网络，但在综合之前，先检查大脑已经知道什么，这样它就能告诉你什么是真正新的，什么是你已经捕捉过的。

我为自己工作构建了几十个，可能会开源：email-triage、investor-update-ingest（检测我邮件中的投资组合更新并将指标提取到公司页面）、calendar-check（用于冲突检测和旅行不可能性），以及一个用于公民工作的完整新闻研究栈。每个技能都编码了需要新人类助手几个月才能学会的操作知识。当有人问我如何"提示"我的AI时，答案是：我不做。技能就是提示。

数据很胖。大脑仓库中有10万页结构化知识。每个我接触过的人、公司、会议、书、文章和想法，全部链接、全部可搜索、每天都在增长。

代码很胖。提供数据的代码（转录、OCR、社交媒体归档、日历同步、API集成的脚本）也很重要，但数据才是复合价值所在。我每天运行超过100个定时任务来检查所有事情：社交媒体、Slack、邮件，还有我注意到的任何东西——我的OpenClaw/Hermes代理也会为我检查。

模型是可互换的。我运行Opus 4.7 1M用于精度；GPT-5.5用于召回和穷尽提取；DeepSeek V4-Pro用于创意工作和第三方视角；Groq搭配Llama用于速度。技能决定哪个模型为哪个任务调用。框架不关心。当有人问"哪个AI模型最好"时，答案是：问题错了。模型只是引擎。其他一切都是车。

**凌晨2点的建造者和复合系统**

人们问我关于生产力的事。我不这么想。我想的是复合。

我参加的每一次会议都增加大脑的内容。我读的每一本书都丰富了下一本书的上下文。我构建的每一个技能都让下一个工作流更快。我更新的每一页都让下一次会议准备更精准。今天这个系统是两个月前的10倍，而两个月后它又会是现在的10倍。

当我还在凌晨2点编码时（我经常这样，因为AI让我重拾了建造的乐趣），我不仅仅是在写软件。我是在为一个每小时都在变好的系统添加内容。每天100个定时任务，24小时运行。会议摄取自动运行。邮件分类每10分钟运行一次。知识图谱通过每一次对话自我丰富。系统处理每天的文字记录，提取我实时错过的模式。

这不是一个写作工具。不是一个搜索引擎。不是一个聊天机器人。这是一个真正有效的第二大脑——不是作为比喻，而是作为一个运行中的系统，拥有10万页面、100多个技能、15个定时任务，以及过去一年我参与过的每一个职业关系、会议、书和想法的积累上下文。

我把整个技术栈开源了。GStack是我用来构建它的编码技能框架（已获得超过8.7万颗星）。当代理需要编码时，我仍然在OpenClaw/Hermes Agent内部将它作为一个技能使用。里面有一个很棒的可编程浏览器（有头和无头都有）。GBrain是知识基础设施。OpenClaw和Hermes Agent是框架，你应该选择其中一个，但我通常两者都用。数据仓库在GitHub上。

论点很简单：未来属于那些构建复合AI系统的个体，而不是那些使用企业拥有的中心化AI工具的个体。区别在于拥有日记和拥有神经系统之间的区别。

**如何开始**

如果你想构建这个：

1. **选择一个框架。** OpenClaw、Hermes Agent，或者用Pi从头构建你自己的。保持薄。框架只是路由器。把它托管在你家里的一台备用电脑上（配合Tailscale），或者在云上使用Render或Railway。

2. **用GBrain启动一个大脑。** 我受到Karpathy的LLM Wiki启发，在OpenClaw中实现并扩展成了GBrain。这是我基准测试过的最好的检索系统（在LongMemEval上达到97.6%的召回率，在没有LLM参与检索循环的情况下击败了MemPalace），并且它提供了39个可安装技能，包括本文描述的所有内容。一个命令安装。一个git仓库，每个人、会议、文章和想法都有自己的页面。

3. **做些有趣的事。** 不要先计划你的技能架构。先做一件事。写一份报告。研究一个人。下载一个赛季的NBA比分，为你的体育博彩构建一个预测模型。分析你的投资组合。无论你真正关心什么。用你的代理去做，迭代直到它变好，然后运行Skillify（之前的元技能）将模式提取成可重用的技能。然后运行check_resolvable来验证新技能是否已接入解析器。这个循环将一次性工作转化为复合基础设施。

4. **持续使用并查看输出。** 技能一开始会很平庸。这很正常。使用它，阅读它产生的内容，当有什么不对时，运行跨模态评估：将输出通过多个模型，让它们在你关心的维度上互相评分。就是我如何发现书镜中的事实错误的方法。修复被固化到技能中，之后每一次书镜都保持干净。六个月后，你将拥有任何聊天机器人无法复制的东西，因为价值不在模型中，而在你教会系统关于你特定生活、工作和判断的东西上。

我用这个系统构建的第一个东西很糟糕。第一百个则是我愿意信任我的日历、收件箱、会议准备和阅读清单的东西。系统学习了。我也学习了。复合曲线是真实的。

胖技能。胖代码。瘦框架。大语言模型本身只是引擎。你可以建造自己的车。

我在这里描述的一切——所有技能、书镜管道、跨模态评估框架、skillify循环、解析器架构，外加30多个可安装技能包——都是开源的，免费在GitHub上：github.com/garrytan/gbrain。去建造吧。

📎 阅读原文 · @garrytan on 𝕏

📬 订阅 AI Pulse