元-元提示:让AI智能体真正起作用的秘诀
**元-元提示:让AI智能体真正起作用的秘诀**
人们一直问我为什么每晚编码到凌晨2点。我有工作,而且是份大工作——Y Combinator的CEO。我们每年帮助数千位创业者实现梦想,打造真正有收入、快速增长的初创公司。
过去5个月,AI让我重新成为建造者。去年末,工具足够好了,我又开始动手搭建。不是玩具项目,而是真正能复合增长的系统。我想用具体例子向你展示,当你停止把AI当作聊天窗口、开始把它当作操作系统时,个人AI到底是什么样子。我把它开源并写进这类文章,因为我希望你和我一起加速。
这是系列文章的一部分: - 《胖技能,胖代码,瘦框架》介绍了核心架构 - 《解析器》涵盖了智能的路由表 - 《LOC争议》是关于每个技术人员如何把自己放大100倍到1000倍 - 《裸模型更蠢》论证了模型是引擎,不是车 - 《技能化宣言》解释了为什么LangChain融资1.6亿美元却只给了你一个深蹲架和哑铃而没有训练计划,然后给了你真正需要的训练计划
**那本把我读回去的书**
上个月我在读佩玛·丘卓的《当生命陷落时》。162页,22章,关于佛教对痛苦、无根基和放下的理解。一位朋友在我困难时期推荐了这本书。
我让我的AI做了一面"书镜"。
具体来说:系统提取了全书的22章,然后对每一章运行一个子代理,同时做两件事:总结作者的观点,然后把这些观点映射到我的实际生活。不是泛泛的"这对领导者适用"之类的陈词滥调,而是具体的映射。它知道我的家庭背景(移民父母,父亲来自香港和新加坡,母亲来自缅甸)。它知道我的职业背景(经营YC,构建开源工具,指导数千位创始人)。它知道我在读什么,凌晨2点在想什么,我的治疗师和我在处理什么。
输出是一篇3万字的脑页面。每一章呈现为两栏:佩玛说了什么,以及它如何映射到我正在经历的生活。关于无根基的那一章与上周一次具体的创始人对话相连。关于恐惧的那一章映射到我的治疗师曾指出的模式。关于放下的那章引用了一个深夜记录,当时我写下了今年找到的创作自由。
整个过程大约用了40分钟。一位每小时300美元的治疗师读完这本书并应用到我的生活,在40小时内也做不到,因为他们没有我完整的职业背景图谱、阅读历史、会议笔记和创始人关系——所有这些都已加载并可交叉引用。
我现在已经对20多本书做了这个: - 《放大》(Dion Lim) - 《伯特兰·罗素自传》 - 《设计你的人生》 - 《天才儿童的悲剧》 - 《有限与无限的游戏》 - 《海的礼物》(林德伯格) - 《悉达多》(黑塞) - 《荒原狼》(黑塞) - 《科学与工程的艺术》(Hamming) - 《梦想机器》 - 《认识自己的禁忌之书》(Alan Watts) - 《你在乎别人怎么想吗》(费曼) - 《当生命陷落时》(佩玛·丘卓) - 《万物简史》(肯·威尔伯) - 以及更多。
每一本书都变得更丰富,因为大脑变得更丰富。第二次书镜知道了第一次的内容。第二十次知道了前十九次的一切。
**书镜如何通过迭代变得更好**
我做的第一个书镜很糟糕。第一个版本有三个关于我家庭的事实错误。它说我父母离婚了——其实没有。说我出生在香港——其实我出生在加拿大。这些基本错误如果分享出去,会破坏信任。
于是我增加了一个强制的事实核查步骤。现在每个书镜在发布前都会运行跨模态评估,对照大脑中已知事实进行检查。Opus 4.7 1M捕捉精度错误。GPT-5.5捕捉缺失的上下文。DeepSeek V4-Pro捕捉那些读起来太泛泛的内容。
然后我通过GBrain工具使用升级到深度检索。原始版本擅长综合,但具体性不足。版本3对每个小节进行大脑搜索。每一栏的右侧条目都引用实际的大脑页面。当书籍谈论如何处理困难对话时,它不仅仅概括普遍原则,而是从我与特定创始人的实际会议记录中提取——那些正在与联合创始人进行艰难对话的创始人。或者某个周四和我兄弟詹姆斯闲逛时的想法。或者我19岁时和大学室友的即时通讯聊天。这简直不可思议。
这就是技能化(在GBrain中使用/skillify)的实际含义。我把第一次手动尝试提取出来,抽取出可重复的模式,编写了一个经过测试的技能文件,包含触发条件和边缘情况,每一次修复都叠加到未来所有的书镜中。
**构建技能的技能**
这里开始递归,也是我认为最大的洞见所在。
那个管理我生活的系统并非作为单体存在。它是由技能组装起来的。而这些技能本身又是被一个技能创建的。
Skillify是一个元技能,用于创建新技能。当我遇到一个会重复使用的工作流时,我说"skillify this",它就会检查刚才发生了什么,提取出可重复的模式,编写一个经过测试的技能文件(包含触发条件和边缘情况),然后在解析器中注册。书镜管道在我第一次手动操作时就被技能化了。会议准备工作流在我注意到每次通话前都做同样步骤时被技能化了。
技能可以组合。书镜调用brain-ops进行存储,enrich进行上下文丰富,cross-modal-eval进行质量评估,pdf-generation进行输出。每个技能专注于一件事。它们串联起来形成复杂的工作流。当我改进一个技能时,所有使用它的工作流都会自动变得更好。再也不需要"忘记在提示词中提及这个边缘情况"了。技能会记住。
**自己准备的会议**
Demis Hassabis来YC做炉边谈话。Sebastian Mallaby写的他的传记刚刚出版。
我让系统为我做准备。
不到两分钟,它拉出了:Demis的完整脑页面(已经通过文章、播客文字记录和我自己的笔记积累了几个月)。他公开关于AGI时间线的信念("50%扩展,50%创新",认为AGI还有5-10年)。Mallaby传记的亮点。他公开的研究优先级(持续学习、世界模型、长期记忆)。与我公开说过的话的交叉引用。三个演示脚本,用于在对话中展示大脑的多跳推理能力。以及一组基于我们世界观重叠和分歧的对话钩子。
这不仅仅是更好的谷歌搜索。这是利用我积累的关于Demis的上下文、我自己的立场以及对话的战略目标所做的准备。系统准备的不仅是事实,还有角度。
**10万页大脑是什么样子**
我维护着一个结构化知识库,大约有10万页。每个我见过的人都有一页,包含时间线、状态部分(当前真实情况)、开放线程和评分。每次会议都有文字记录、结构化摘要以及我称为"实体传播"的东西:每次会议后,系统会遍历所有被提及的人和公司,用讨论内容更新他们的大脑页面。我读过的每本书都有逐章书镜。我参与过的每篇文章、播客和视频都会被摄取、标记和交叉引用。
结构很简单。每页包含:顶部是编译后的真相(当前最佳理解),下面是一个只追加的时间线(按时间顺序的事件),以及用于原始资料的元数据侧栏。把它想象成一个个人维基百科,每一页都由AI持续更新——这个AI参加了会议、读了邮件、看了演讲、摄取了PDF。
下面是一个复合的例子。我在办公时间遇到一位创始人。系统创建或更新他们的人页面、公司页面,交叉引用会议记录,检查我之前是否见过他们(并显示上次讨论的内容),检查他们的申请数据,拉取他们最新指标,并识别我的投资组合公司或联系人中哪些与他们的难题相关。到我参加下一次与他们的会议时,系统已经准备好完整的上下文包。
这就是拥有文件柜和拥有神经系统之间的区别。文件柜存储东西。神经系统连接它们,标记有什么变化,并浮现出与当下相关的信息。
**架构**
以下是它的工作原理。我认为这是构建个人AI的正确方式,我把整个东西开源了,这样你也可以自己构建。
框架很薄。OpenClaw是运行时。它接收我的消息,判断哪个技能适用,然后分发。几千行路由逻辑。它不知道任何关于书、会议或创始人的事。它只是路由。
技能很胖。现在有100多个技能,每个都是一个自包含的markdown文件,包含一个特定任务的详细指令。你已经看到了上面的book-mirror和meeting-prep。以下是随GBrain一起提供的几个:
- meeting-ingestion:每次会议后,拉取文字记录,创建结构化摘要,然后遍历所有被提及的人和公司,用讨论内容更新他们的大脑页面。会议页面不是最终产品。返回到每个个人和公司页面的实体传播才是真正的价值。 - enrich:给它一个人的名字。它从五个不同来源拉取信息,将一切合并成一个带职业轨迹、联系方式、会议历史和关系上下文的单一脑页面。每个声明都带引用的来源。 - media-ingest:处理视频、音频、PDF、截图、GitHub仓库。转录、提取实体、归档到正确的大脑位置。我经常用它处理YouTube视频、播客和语音备忘录。 - perplexity-research:大脑增强的网络研究。通过Perplexity搜索网络,但在综合之前,先检查大脑已经知道什么,这样它就能告诉你什么是真正新的,什么是你已经捕捉过的。
我为自己工作构建了几十个,可能会开源:email-triage、investor-update-ingest(检测我邮件中的投资组合更新并将指标提取到公司页面)、calendar-check(用于冲突检测和旅行不可能性),以及一个用于公民工作的完整新闻研究栈。每个技能都编码了需要新人类助手几个月才能学会的操作知识。当有人问我如何"提示"我的AI时,答案是:我不做。技能就是提示。
数据很胖。大脑仓库中有10万页结构化知识。每个我接触过的人、公司、会议、书、文章和想法,全部链接、全部可搜索、每天都在增长。
代码很胖。提供数据的代码(转录、OCR、社交媒体归档、日历同步、API集成的脚本)也很重要,但数据才是复合价值所在。我每天运行超过100个定时任务来检查所有事情:社交媒体、Slack、邮件,还有我注意到的任何东西——我的OpenClaw/Hermes代理也会为我检查。
模型是可互换的。我运行Opus 4.7 1M用于精度;GPT-5.5用于召回和穷尽提取;DeepSeek V4-Pro用于创意工作和第三方视角;Groq搭配Llama用于速度。技能决定哪个模型为哪个任务调用。框架不关心。当有人问"哪个AI模型最好"时,答案是:问题错了。模型只是引擎。其他一切都是车。
**凌晨2点的建造者和复合系统**
人们问我关于生产力的事。我不这么想。我想的是复合。
我参加的每一次会议都增加大脑的内容。我读的每一本书都丰富了下一本书的上下文。我构建的每一个技能都让下一个工作流更快。我更新的每一页都让下一次会议准备更精准。今天这个系统是两个月前的10倍,而两个月后它又会是现在的10倍。
当我还在凌晨2点编码时(我经常这样,因为AI让我重拾了建造的乐趣),我不仅仅是在写软件。我是在为一个每小时都在变好的系统添加内容。每天100个定时任务,24小时运行。会议摄取自动运行。邮件分类每10分钟运行一次。知识图谱通过每一次对话自我丰富。系统处理每天的文字记录,提取我实时错过的模式。
这不是一个写作工具。不是一个搜索引擎。不是一个聊天机器人。这是一个真正有效的第二大脑——不是作为比喻,而是作为一个运行中的系统,拥有10万页面、100多个技能、15个定时任务,以及过去一年我参与过的每一个职业关系、会议、书和想法的积累上下文。
我把整个技术栈开源了。GStack是我用来构建它的编码技能框架(已获得超过8.7万颗星)。当代理需要编码时,我仍然在OpenClaw/Hermes Agent内部将它作为一个技能使用。里面有一个很棒的可编程浏览器(有头和无头都有)。GBrain是知识基础设施。OpenClaw和Hermes Agent是框架,你应该选择其中一个,但我通常两者都用。数据仓库在GitHub上。
论点很简单:未来属于那些构建复合AI系统的个体,而不是那些使用企业拥有的中心化AI工具的个体。区别在于拥有日记和拥有神经系统之间的区别。
**如何开始**
如果你想构建这个:
1. **选择一个框架。** OpenClaw、Hermes Agent,或者用Pi从头构建你自己的。保持薄。框架只是路由器。把它托管在你家里的一台备用电脑上(配合Tailscale),或者在云上使用Render或Railway。
2. **用GBrain启动一个大脑。** 我受到Karpathy的LLM Wiki启发,在OpenClaw中实现并扩展成了GBrain。这是我基准测试过的最好的检索系统(在LongMemEval上达到97.6%的召回率,在没有LLM参与检索循环的情况下击败了MemPalace),并且它提供了39个可安装技能,包括本文描述的所有内容。一个命令安装。一个git仓库,每个人、会议、文章和想法都有自己的页面。
3. **做些有趣的事。** 不要先计划你的技能架构。先做一件事。写一份报告。研究一个人。下载一个赛季的NBA比分,为你的体育博彩构建一个预测模型。分析你的投资组合。无论你真正关心什么。用你的代理去做,迭代直到它变好,然后运行Skillify(之前的元技能)将模式提取成可重用的技能。然后运行check_resolvable来验证新技能是否已接入解析器。这个循环将一次性工作转化为复合基础设施。
4. **持续使用并查看输出。** 技能一开始会很平庸。这很正常。使用它,阅读它产生的内容,当有什么不对时,运行跨模态评估:将输出通过多个模型,让它们在你关心的维度上互相评分。就是我如何发现书镜中的事实错误的方法。修复被固化到技能中,之后每一次书镜都保持干净。六个月后,你将拥有任何聊天机器人无法复制的东西,因为价值不在模型中,而在你教会系统关于你特定生活、工作和判断的东西上。
我用这个系统构建的第一个东西很糟糕。第一百个则是我愿意信任我的日历、收件箱、会议准备和阅读清单的东西。系统学习了。我也学习了。复合曲线是真实的。
胖技能。胖代码。瘦框架。大语言模型本身只是引擎。你可以建造自己的车。
我在这里描述的一切——所有技能、书镜管道、跨模态评估框架、skillify循环、解析器架构,外加30多个可安装技能包——都是开源的,免费在GitHub上:github.com/garrytan/gbrain。去建造吧。