为何更长的训练周期未能减缓AI进步？

📅 2026 年 5 月 8 日 📖 约 6 分钟 seangoedecke.com AI研究工程

为何更长的训练周期未能减缓AI进步？

Dwarkesh Patel¹ 最近为四个关于AI的关键问题的最佳答案设立了一个奖项。这既是一个挑战，也是一场面试，因为部分获奖者将获得“研究合作者”的职位。我不想要这份工作，但我确实想写下我对他的第一个问题的回答：为什么AI进步没有减速更多？

我们可能会认为AI进步会放缓的原因有几个。Dwarkesh 关心的具体原因如下：训练一个模型（特别是强化学习）需要模型执行任务，然后根据输出进行“评分”。随着模型变得更强大、任务变得更困难，它们需要更长时间和更多FLOPs²来完成，因此训练也需要更多FLOPs：所以训练更难的模型需要更长时间。

但直觉上，AI进步并没有减缓太多。著名的METR时间跨度图显示，AI系统能够随着时间的推移执行越来越复杂的任务，并且这一过程正在加速，而非减缓。为什么会这样？

FLOPs 中蕴含了什么？

首先，可能只是因为新模型受益于数量级更多的FLOPs。当然，AI实验室并没有增加数量级更多的GPU（他们正在尝试，但物理限制决定了数据中心扩展速度有限）。但很有可能的是，他们正在学习以数量级更高的效率利用现有FLOPs。

复杂软件系统——前沿AI模型的训练代码绝对符合——的效率通常不取决于其中的天才想法数量，而是取决于其中的愚蠢错误数量。举一个例子³：最初GPT-4训练运行中，当对许多小数值求和时使用了FP16格式，如果这些数值的总和很大，这会完全破坏结果。解决这类错误能带来多少每FLOP的训练效率提升？很可能足以抵消训练更强大模型带来的任何固有低效。

人们对智能的判断力较差

其次，关于AI进步速度的直觉既奇怪又不可靠。人类衡量AI进步——以及广义的智能——的尺度非常不均匀。当AI（或人类）比你笨时，很容易判断，因为你能看到他们犯错。但判断他们是否更聪明则非常困难，因为这时犯错的是你。你必须依赖更微妙的上下文线索：他们是否在长期结果上比你好？或者在某些情况下他们让你困惑，但后来你又同意他们的观点？等等。

从GPT-3到GPT-4的飞跃看似巨大，因为GPT-3比几乎所有人类都笨，而GPT-4有时能像人类一样聪明。然而，前沿模型现在足够聪明，在许多话题上处于模棱两可的领域。因此，很难判断他们变聪明的“真实”速度。也许“原始智能”的增长速度确实放缓了！我不知道我们如何能确定这一点。

智能并非能力的唯一决定因素

第三，除智能外，许多其他特质也决定了AI模型的能力。以去年十月的飞跃为例，OpenAI和Anthropic的模型突然变得“具有代理性”（即它们能够可靠地从头到尾执行复杂任务）。这可能归因于智能，但也可能只是更大的工作记忆、对LLM工具基本操作的更机械熟悉、更关注上下文窗口的能力，甚至仅仅是更适合Claude Code或Codex等工具的性格。当然，所有这些特质很可能都属于“智能”。但你可以通过各种巧妙技巧（甚至只是调整系统提示）来灌输这些特质，而不是通过暴力增加FLOPs。

这里以苹果公司臭名昭著的《思维错觉》论文为例，该论文研究人员让不同模型暴力求解不同圆盘数量的汉诺塔问题，并用结果来评估模型的推理能力。但当你阅读输出时，会发现所有失败情况都是模型意识到需要几百步，然后拒绝尝试。这些模型可以轻易编写代码执行步骤，或者正确完成任意较小的子步骤。问题不在于智能，而在于持久性：这些模型缺乏埋头苦干直到得出答案的意愿⁵。

最后的思考

即使在AI实验室内部，我认为也没有人清楚一次训练运行到底投入了多少“真正”的FLOPs（不包括浪费在错误上的FLOPs）。我们也不清楚AI进步是否真的在放缓。Mythos看起来令人印象深刻，编码代理现在非常强大，但一旦模型接近人类智能，监控就变得极其困难。最后，几乎所有人都通过能力来判断智能，但能力是由多种特质共同产生的（智能只是其中之一）。

我认为这非常复杂。像“强化学习随着任务变长需要更多每奖励的FLOPs，因此训练将逐渐放缓”这样的通用理论听起来不错，但实际上AI开发是由闪电式突破主导的：愚蠢的错误使训练效率降低百倍，聪明的想法使模型有用性提高百倍，以及突现的能力在某些领域产生耀眼成果，但在其他领域却毫无改进。我们仍然处于非常早期的阶段。

---

¹ 如果你在阅读本文，你可能知道Dwarkesh是谁，但如果你不知道：他是一位知名的科技相关播客主持人，他的特点是每次采访前都会进行深入研究并提出具体的技术问题。

² FLOP指浮点运算，即矩阵乘法，也就是“GPU上的时间”。

³ 我在一条推文中看到这个信息，直到为本文做研究时才意识到来源是Dwarkesh。

⁵ 顺便说一句，这是我关于去年模型在代理任务上表现更好的个人理论：在越来越长的代理轨迹上训练意味着模型开始“相信自己能做到”，从而大大减少了放弃、走捷径或拒绝继续的可能性。

⁶ 如果你喜欢这篇文章，可以考虑订阅邮件更新以获取我的新文章，或在Hacker News上分享。

以下是与此文共享标签的相关文章预览。

软件工程可能不再是终身职业
我认为没有令人信服的证据表明使用AI会让你整体上变笨。然而，使用AI执行任务意味着你对该任务的了解会减少，这似乎很明显。一些软件工程师认为这是反对使用AI的决定性论据。他们的论点大致如下：
我并不同意（2）。一方面，从汇编语言转向C语言使程序员在某些方面效率降低，其他方面效率提高。另一方面，从手工编写代码转向使用AI的转变可以说更大，谁知道呢？但这并不重要。即使我们承认（2）是正确的，这仍然是一个糟糕的论证。
继续阅读...

阅读原文

📚 相关主题研究工程

📬 订阅 AI Pulse