大规模测试时计算对LLM评估和AI安全的深远影响

📅 2026 年 6 月 9 日 📖 约 10 分钟 @polynoamial on 𝕏 AI研究安全

大规模测试时计算的影响

tl;dr: 随着LLM能力增强，基准测试性能越来越取决于测试时计算。事实上，我们很可能不知道现代LLM的能力上限，因为测量成本太高。我们应该改变LLM评估方式，通过测量性能与token、成本或时间的关系来反映这一点。

GPT-5.5发布那天，最初的反应是怀疑。基准测试数字有所提升，但幅度不大：

然而，几小时内，一旦人们有时间试用这个模型，就明显看出它相对于GPT-5.4是一次阶跃变化。经典的“基准测试网格”显然没有讲述完整的故事。为什么会这样？

当我们比较GPT-5.5和5.4，并将token放在x轴上时，原因就变得更清楚了：

GPT-5.5并未在与5.4相同的token预算（或美元预算）下被评估。一旦我们控制了测试时计算，5.5看起来比5.4强大得多。

当我讨论这一点时，人们经常问为什么我们不使用一个让测试时计算持续增加直至性能趋于平稳的评估框架。问题在于，根据经验，这个平稳点非常遥远。有时在实际预算内我们可能根本观察不到任何平稳。以下是@karpathy的自动研究实验，其中性能甚至在数百次实验后仍在继续提升：

以下是@AISecurityInst的网络评估，其中Mythos和GPT-5.5的性能在超过1亿token后仍在快速提升：

注意：对于更强的模型，性能随时间提升的幅度更大。似乎随着模型变得更强，它们在更长范围内运作的效率也更高。平稳点被推后，甚至可能消失。

因此，我相信评估模型的正确方法是绘制性能与测试时计算的关系图，以token、成本或墙上时钟时间为x轴。一些基准测试已经朝这个方向前进。例如，ARC-AGI评估的是分数与成本的关系。

另一个合理的选择是设定明确的token/时间/成本预算，并将其告知模型。这类似于人类在SAT或国际数学奥林匹克等场景中的评估方式。

每种x轴都有权衡。Token不能直接跨模型比较，因为分词器、速度和每个token的成本不同。美元取决于批处理、硬件利用率等实现细节，因此成本和延迟可以相互权衡。最后，墙上时钟时间是一个不完美的度量，因为像best-of-N这样的多智能体技术可以在不显著增加延迟的情况下扩展测试时计算。然而，这些曲线中的任何一个都比单个标量更有信息量。

对AI就绪性的影响

在前沿模型发布之前，实验室通常会评估网络、生物和其他误用风险。如果模型跨越了能力阈值，则可能推迟发布，直到缓解措施到位。但如果能力是推理计算的函数，那么安全评估应该在什么推理预算下进行？

实际上，大多数针对模型发布的安全评估并未考虑投入模型的推理量。Gemini 3 Deep Think的发布以及由此引发的强烈抗议是一个有用的例子。

当Gemini 3 Deep Think发布时，其基准测试分数远高于之前的模型。然而，并未同时发布评估其风险的模型卡。

这引发了AI安全界一些人的愤怒。

在我看来，对DeepMind发布的批评忽略了更深层的问题：AI实验室和安全机构在评估模型发布时，并没有一致地考虑测试时计算。

Deep Think看起来很可能是一个其他模型（这些模型已有系统卡）的脚手架。任何外部人员都可能复制这样的脚手架。换句话说，似乎Deep Think的能力对于任何愿意支付Deep Think级别推理量的用户来说，通过将一堆模型查询组合成脚手架，都是可得的。Deep Think只是让普通用户更方便。

在我看来，真正的愤怒应该是：当Gemini 3和其他模型发布时，它们的系统卡并没有将基准测试性能作为测试时计算的函数来测量。在我的理想世界中，模型评估应该是这样的：

一个专门的州级行为者可能对单个任务投入超过1000万美元的推理。但评估一个模型通常需要数千甚至数百万次 rollout，因此对每次 rollout 都在如此高的计算预算下进行评估是不切实际的。幸运的是，性能似乎随着推理计算量的增加而大致可预测地扩展。因此，我们可以在相对较低的推理预算下进行评估，然后（带不确定性地）预测在更高预算下可能的能力。

长期评估可能引入复杂性，这些复杂性有时无法通过从小预算外推来解决。例如，可能评估一个AI智能体在一年时间范围内的错误对齐的唯一方法，就是实际运行该智能体一年。AI实验室可能很快就会发现自己处于一种奇怪的境地：他们的智能体的运行范围超过了新模型的开发周期。到那时，可能不可能在模型发布前完成对其最大运行寿命内的评估，而不推迟模型发布。

具体建议

具体来说，我向AI界提出以下建议：

- AI实验室应发布新发布模型的基准测试性能，以token、成本或时间为x轴。至少，实验室应报告实现某个标量基准测试结果所使用的推理预算。
- 基准测试应在排行榜上追踪推理使用量，或设定明确的token/成本/时间预算。许多基准测试已经朝这个方向转变，但尚未成为标准做法。
- 准备框架和负责任的扩展政策应在确定模型是否跨越安全阈值时明确考虑推理计算。此外，评估应估计多个推理预算下的能力，包括从小预算运行中给出的带不确定性的预测。

如果你关注我一段时间，整篇文章可能看起来没什么新意。自2024年9月o1宣布以来，我们就知道推理模型的性能随着更多推理计算而提升。

然而，将近两年后，前沿AI实验室仍然普遍为其新模型发布报告单个数字的基准测试结果；AI安全机构仍然对一个脚手架通过使用100倍推理预算获得更好性能感到惊讶；准备框架和RSP在确定模型是否达到关键能力水平时，仍然经常忽略推理计算的使用。

最新的模型比以往任何时候都更好地利用了测试时计算，将性能平稳点推得更远。如果这一趋势继续下去（我完全预期如此），那么不考虑推理计算使用的基准测试分数在每个模型发布周期中将变得信息量递减。因此，现在是时候将推理预算作为能力测量和安全政策的一等公民来对待了。

阅读原文

📚 相关主题研究安全

大规模测试时计算的影响

对AI就绪性的影响

具体建议

订阅 AI Pulse