AI Pulse

为何更长的训练周期未能减缓AI进步?

为何更长的训练周期未能减缓AI进步?

为何更长的训练周期未能减缓AI进步?

Dwarkesh Patel¹ 最近为四个关于AI的关键问题的最佳答案设立了一个奖项。这既是一个挑战,也是一场面试,因为部分获奖者将获得“研究合作者”的职位。我不想要这份工作,但我确实想写下我对他的第一个问题的回答:为什么AI进步没有减速更多?

我们可能会认为AI进步会放缓的原因有几个。Dwarkesh 关心的具体原因如下:训练一个模型(特别是强化学习)需要模型执行任务,然后根据输出进行“评分”。随着模型变得更强大、任务变得更困难,它们需要更长时间和更多FLOPs²来完成,因此训练也需要更多FLOPs:所以训练更难的模型需要更长时间。

但直觉上,AI进步并没有减缓太多。著名的METR时间跨度图显示,AI系统能够随着时间的推移执行越来越复杂的任务,并且这一过程正在加速,而非减缓。为什么会这样?

FLOPs 中蕴含了什么?

首先,可能只是因为新模型受益于数量级更多的FLOPs。当然,AI实验室并没有增加数量级更多的GPU(他们正在尝试,但物理限制决定了数据中心扩展速度有限)。但很有可能的是,他们正在学习以数量级更高的效率利用现有FLOPs。

复杂软件系统——前沿AI模型的训练代码绝对符合——的效率通常不取决于其中的天才想法数量,而是取决于其中的愚蠢错误数量。举一个例子³:最初GPT-4训练运行中,当对许多小数值求和时使用了FP16格式,如果这些数值的总和很大,这会完全破坏结果。解决这类错误能带来多少每FLOP的训练效率提升?很可能足以抵消训练更强大模型带来的任何固有低效。

人们对智能的判断力较差

其次,关于AI进步速度的直觉既奇怪又不可靠。人类衡量AI进步——以及广义的智能——的尺度非常不均匀。当AI(或人类)比你笨时,很容易判断,因为你能看到他们犯错。但判断他们是否更聪明则非常困难,因为这时犯错的是你。你必须依赖更微妙的上下文线索:他们是否在长期结果上比你好?或者在某些情况下他们让你困惑,但后来你又同意他们的观点?等等。

从GPT-3到GPT-4的飞跃看似巨大,因为GPT-3比几乎所有人类都笨,而GPT-4有时能像人类一样聪明。然而,前沿模型现在足够聪明,在许多话题上处于模棱两可的领域。因此,很难判断他们变聪明的“真实”速度。也许“原始智能”的增长速度确实放缓了!我不知道我们如何能确定这一点。

智能并非能力的唯一决定因素

第三,除智能外,许多其他特质也决定了AI模型的能力。以去年十月的飞跃为例,OpenAI和Anthropic的模型突然变得“具有代理性”(即它们能够可靠地从头到尾执行复杂任务)。这可能归因于智能,但也可能只是更大的工作记忆、对LLM工具基本操作的更机械熟悉、更关注上下文窗口的能力,甚至仅仅是更适合Claude Code或Codex等工具的性格。当然,所有这些特质很可能都属于“智能”。但你可以通过各种巧妙技巧(甚至只是调整系统提示)来灌输这些特质,而不是通过暴力增加FLOPs。

这里以苹果公司臭名昭著的《思维错觉》论文为例,该论文研究人员让不同模型暴力求解不同圆盘数量的汉诺塔问题,并用结果来评估模型的推理能力。但当你阅读输出时,会发现所有失败情况都是模型意识到需要几百步,然后拒绝尝试。这些模型可以轻易编写代码执行步骤,或者正确完成任意较小的子步骤。问题不在于智能,而在于持久性:这些模型缺乏埋头苦干直到得出答案的意愿⁵。

最后的思考

即使在AI实验室内部,我认为也没有人清楚一次训练运行到底投入了多少“真正”的FLOPs(不包括浪费在错误上的FLOPs)。我们也不清楚AI进步是否真的在放缓。Mythos看起来令人印象深刻,编码代理现在非常强大,但一旦模型接近人类智能,监控就变得极其困难。最后,几乎所有人都通过能力来判断智能,但能力是由多种特质共同产生的(智能只是其中之一)。

我认为这非常复杂。像“强化学习随着任务变长需要更多每奖励的FLOPs,因此训练将逐渐放缓”这样的通用理论听起来不错,但实际上AI开发是由闪电式突破主导的:愚蠢的错误使训练效率降低百倍,聪明的想法使模型有用性提高百倍,以及突现的能力在某些领域产生耀眼成果,但在其他领域却毫无改进。我们仍然处于非常早期的阶段。

---

¹ 如果你在阅读本文,你可能知道Dwarkesh是谁,但如果你不知道:他是一位知名的科技相关播客主持人,他的特点是每次采访前都会进行深入研究并提出具体的技术问题。

² FLOP指浮点运算,即矩阵乘法,也就是“GPU上的时间”。

³ 我在一条推文中看到这个信息,直到为本文做研究时才意识到来源是Dwarkesh。

⁵ 顺便说一句,这是我关于去年模型在代理任务上表现更好的个人理论:在越来越长的代理轨迹上训练意味着模型开始“相信自己能做到”,从而大大减少了放弃、走捷径或拒绝继续的可能性。

⁶ 如果你喜欢这篇文章,可以考虑订阅邮件更新以获取我的新文章,或在Hacker News上分享。

以下是与此文共享标签的相关文章预览。

软件工程可能不再是终身职业 我认为没有令人信服的证据表明使用AI会让你整体上变笨。然而,使用AI执行任务意味着你对该任务的了解会减少,这似乎很明显。一些软件工程师认为这是反对使用AI的决定性论据。他们的论点大致如下: 我并不同意(2)。一方面,从汇编语言转向C语言使程序员在某些方面效率降低,其他方面效率提高。另一方面,从手工编写代码转向使用AI的转变可以说更大,谁知道呢?但这并不重要。即使我们承认(2)是正确的,这仍然是一个糟糕的论证。 继续阅读...

阅读原文
📚 相关主题 研究工程

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部