AI Pulse

递归自学习:为何现在至关重要——从图灵“儿童机器”到Jack Clark 2028预测,系统开始构建自身的进化循环

递归自学习:为何现在至关重要——从图灵“儿童机器”到Jack Clark 2028预测,系统开始构建自身的进化循环

递归自学习:为何现在至关重要 从图灵的“儿童机器”到Jack Clark的2028预测——当系统开始着手构建自身的系统时,会发生什么改变

每个人都在谈论递归自学习

循环是机器学习的基本单元。模型预测、获得反馈、更新。 智能体做的也差不多:写代码、运行测试、编辑、再次运行测试。系统记录自身失败,存储教训,下次尝试不同路径。 在AI历史的大部分时间里,循环之外有一个常数:人类——用领域术语说就是“人在回路中”。如今,人类成了瓶颈。 递归自学习(RSL)是一种改变这一局面的方式,并且它已经在重塑那条边界。

最近,Anthropic联合创始人、现任Public Benefit主管Jack Clark在推文中写道:

到底什么是递归自学习?

这个想法最近即使没有正式名称也已流传开来。Andrej Karpathy的自动研究是最简洁的小例子。一个智能体被给予一个真实的LLM训练脚本,编辑代码,运行一个固定的五分钟实验,度量验证bits-per-byte,如果结果改进则保留改动,否则丢弃,然后重复。自动研究从循环中移除的是Karpathy本人——因为Karpathy就是瓶颈。他仍然设定度量、预算和初始研究计划。他不再参与每一次迭代。他提升了一个层级,从调整实验变为设计调整实验的循环。

这就是理解递归自学习的有效方式。它不是一个模型苏醒并选择变得更好。它是一个系统开始自动化自身——或类似系统——改进过程的部分环节:编写代码、生成训练数据、运行实验、优化内核、微调模型、构建评估、改进提示词、改进工具,最终帮助训练后继系统。

递归自学习的历史

这个想法比这个领域本身还要古老。1950年,Alan Turing提出构建一个“儿童机器”并教育它,而非直接编程成人的智能。Arthur Samuel在1950年代末的跳棋程序通过自我对弈提升,表明机器可以在一项任务上变得更好,而无需每次改进都手工编码。I.J. Good在1965年提出了这个论点最强版本:如果设计更好的机器本身是一项智力任务,那么比人类更擅长智力任务的机器将设计出更好的机器。Jürgen Schmidhuber在2003年用哥德尔机给这个循环赋予了形式化表达——一个在能证明改写是改进时重写自身代码的系统。六十多年来,几乎所有这一切都停留在理论层面。

实际应用版本都很狭窄。AlphaGo Zero通过自我对弈改进,但围棋是一个封闭世界:固定规则、清晰奖励、无隐藏状态。AutoML、神经架构搜索、自蒸馏和合成数据管线都增加了组件——证明了机器可以帮助改进机器学习系统,但始终在人类构建的框架内。

如今的变化在于,循环正在进入AI研发本身

AI研究有一个不同寻常的特性:大部分工作已经是数字化的。代码、数据、训练运行、评估脚本、基准、日志、仪表盘。日常工作不是灵光一现的洞察;而是运行变体、发现错误、改进吞吐量、测试想法、比较分数、决定下一步尝试什么。这使得它比例如生物学研究更容易实现自动化。

这是Jack Clark最新一期Import AI文章的主轴。他的主要论断是,到2028年底,“无人类参与的AI研发”——一个能够训练自身后继系统的系统——出现的概率超过60%。论证不是单个基准,而是累积:SWE-Bench、METR时间跨度、CORE-Bench、MLE-Bench、PostTrainBench、内核优化、自动化对齐研究,以及管理其他AI系统的AI系统。这组证据是由开始连接的部分循环构成的马赛克。

根据 No Priors 播客,Karpathy认为,最有趣的RSL版本可能正是前沿实验室已经在做的:在小模型上实验,使流程尽可能自主,将研究人员从尽可能多的执行循环中移除。研究人员仍可以贡献想法,但他们不应手动执行每一个想法。这极大地改变了研究人员的工作。

学术界也开始跟上这一框架。ICLR 2026关于递归自我改进的研讨会将该领域描述为从推测性愿景转向具体的系统问题:什么改变了、何时改变、改变如何产生、系统在哪里运行,以及对齐、评估和回滚应该如何工作。递归自学习获得了一些实际分量,正在成为一个有参数的设计问题。

甚至有一个刚成立一个月、名为“Recursive Superintelligence”的初创公司,刚刚为自学习AI筹集了5亿美元。所以,你知道,这事儿可不小。

我想留给你这些

几十年来,我们构建了在循环中学习的系统。现在,我们正在构建可能会学习如何构建循环的系统。而我们将与它们一同学习:一旦系统也开始帮助决定“更好”的标准,那么“更好”又意味着什么。

这里还有另一项义务。当一个系统开始自主演化时,它需要严格、持续的验证和对齐,以确保其改进循环始终锚定在人类安全和福祉上。两者都是非常困难的问题,因为我们仍然不完全了解这些机器是如何“思考”的。

如果这些想法中的任何一个引起了你的共鸣——请在你的社交网络上分享它们。让我们继续对话。

阅读全文请访问:https://www.turingpost.com/p/fod151

📎 阅读原文 · @TheTuringPost on 𝕏

📬 订阅 AI Pulse

每天两次更新,不错过重要信号

▲ 回到顶部