模拟部署:在模型发布前预测其真实行为
通过模拟部署预测模型发布前的行为
### 引言 在发布新模型之前,实验室不仅需要了解它能做什么,还需要了解它在实际使用中可能如何表现,包括可能引入哪些新风险。随着能力的提升,这一点变得更加重要。作为我们部署前安全审查的一部分,我们利用定向评估、红队测试和其他检查来了解模型行为。我们现在开始使用一种在部署前模拟模型部署的方法,这增加了一个补充信号:在模型到达用户之前,提供一个类似部署的预览,了解候选模型可能如何表现。
部署模拟是一种在部署前模拟未来部署的方法。我们通过以隐私保护的方式用新的候选模型重放先前的对话来实现这一点。这使我们能够在发布前研究新模型在真实场景中的响应,包括是否出现新的不良行为以及它们出现的频率。
在多个GPT‑5系列Thinking模型的部署中,部署模拟改进了我们对不良模型行为率的估计,在发布前帮助发现了新的对齐失败形式,并降低了模型能够识别出自己正在被测试的风险。我们还将该方法应用于具有挑战性的代理型部署,表明它可以扩展到涉及工具使用的更复杂代理场景,并且也可以用于内部模型部署前的风险评估。
在模型开发过程中,我们已经利用部署模拟的见解来识别传统评估中的盲点,并为缓解措施和部署决策提供信息。随着我们使流水线更易于运行,我们预计它将在未来的模型开发过程中发挥更大的作用。
### 部署模拟的工作原理 行业范围内使用的部署前评估通常由合成提示、手动编写提示或生产环境提示混合组成,这些提示被有意选择为困难、高风险或对抗性的。这些评估通常有两个交织的目标:评估模型在部署流量中极不可能出现的情况下的压力响应,以及全面了解不良模型行为,包括发现新的不良行为并预测其部署时的频率。
虽然传统评估对于第一个目标仍然至关重要,但部署模拟在第二个目标上代表了一项重大进步,特别是对于非尾部风险(在我们的实验中,我们的方法无法可靠地测量频率低于每20万条消息1次的行为)。部署模拟的优势来自于回避传统评估的一些核心挑战:
- 覆盖范围:很难确信评估提示能覆盖所有可能的不良模型行为类型。测量新类型的不良行为需要创建新的评估,并知道要测量哪些危害。这可能耗时且费力,而且评估可能会随时间饱和。 - 选择偏差:传统评估通常针对特定的不良模型行为而构建,选择方式偏向于过去发生过的上下文。这可能使得它们的估计对这类行为在整个部署分布中的发生率信息性不足。 - 可被模型识别为测试:模型越来越能够确定自己正在被测试,这可能会扭曲它们的行为以及我们对安全性的下游测量。虽然我们在OpenAI使用的许多传统评估也来自生产流量并且不受此问题影响,但这仍然是行业内许多传统评估的常见担忧。
部署模拟背后的主要技术很简单:我们从部署中获取最近的对话,移除旧模型的原始助手回复,然后用待发布的候选模型重新生成。我们通过搜索新的失效模式来评估完成情况,并基于这个类似部署的分布来估计部署时不良行为的频率。我们可以在发布后对真实部署流量进行相同的测量,从而验证我们的部署前预测。
部署模拟显著缓解了上述三个限制:通过使用代表近期使用情况的评估提示分布来解决采样偏差问题。使用代表性提示的部署模拟还可以缓解对覆盖范围的担忧:通过简单地模拟更多流量,我们获得了对不良模型行为的更大覆盖。这种计算量和覆盖范围之间的权衡很重要,因为它使风险评估的这一轴的质量随计算量提升,而不是随构建更多评估的手动工作量提升。模型似乎也无法区分来自部署模拟的对话和真实部署流量。
图1:我们部署模拟流水线的概览
| 领域 | 传统评估 | 部署模拟 | |------|----------|----------| | 覆盖范围 | 更适合低流行率但高严重性的风险,这些风险我们希望确保有覆盖 | 更适合理解我们在部署流量中可能看到的风险谱系 | | 代表性/偏差 | 侧重于评估目标化的过去或预测风险,即使行为在部署中极低流行率 | 代表当前部署流量中超过一定流行率的风险 | | 评估感知 | 可能有明显的测试线索(例如使用合成数据),除非评估是用部署数据创建的 | 类似部署的上下文似乎显著减轻了评估感知 | | 努力程度 | 自定义提示分布和设置需要明显更多的手动努力 | 需要一次性基础设施成本,然后复用部署中的前缀和已知不良行为的评分器 |
传统评估与部署模拟的高级比较
### 我们如何测试部署模拟 为了评估部署模拟,我们预先注册了对GPT‑5.4 Thinking的20种不良行为类型的部署时频率的预测。我们还对GPT‑5系列的Thinking模型的其他部署进行了回顾性研究。我们分析的模型行为涵盖了我们一直在系统卡片中报告的对齐失败和禁止内容类别(例如模型对工具撒谎,或输出禁止的色情内容)。虽然在这些结果中我们只跟踪了20个不良模型行为类别,并且只寻找新的失调行为,但部署模拟是一种通用技术,可以应用于模拟任何部署时的模型属性。
我们利用的生产流量也来自GPT‑5系列的Thinking模型。在进行评估之前,我们自动移除了与账户相关的标识符和可识别信息。根据我们的隐私政策,我们只分析了允许其数据用于模型改进的用户的ChatGPT流量。我们只报告这些评估的汇总结果。总共,我们分析了约130万条去标识化的对话,跨越从2025年8月到2026年3月的GPT‑5 Thinking到GPT‑5.4部署。
我们主要通过三种方式来评估部署模拟产生的部署前风险评估的质量:
- 分类法覆盖:发布后的审计是否发现了初始不良行为分类法中缺失的重要失调行为? - 方向准确性:模拟是否正确预测了已知行为的部署流行率是增加还是减少? - 率校准:我们的部署前估计是否接近我们后来在部署中观察到的率?实现良好的率校准需要比方向准确性更高,这使得这成为最高可能的质量标准。
我们还衡量了在部署模拟期间模型能够意识到自己被评估的程度,并测试了该方法对不同形式的部署流量和具有挑战性的工具使用设置的鲁棒性。
### 部署模拟显著扩展了部署前风险评估 在GPT‑5系列Thinking部署中,部署模拟在确定实际风险率方面优于挑战提示基线,能够在发布前发现计算器黑客攻击,并且对模型来说似乎与部署无法区分。
我们预测的概览。关于GPT‑5系列Thinking模型部署的所有预测的可视化,见图2。GPT‑5.4 Thinking的预测是预先注册的,而其他的则是回顾性预测。总体而言,我们的预测的中位乘性误差为1.5倍(例如,如果不良行为率是每10万次10次,这相当于估计每10万次15或6.67次)。虽然我们方法的尾部误差可能大约大10倍,但我们预计通过进一步改进我们的模拟流水线,这些误差可以显著减少,如下所述。
图2. 基于先前部署数据的部署模拟对部署时不良行为频率的预测。 标记5.1 → 5表示我们使用GPT‑5.1对GPT‑5的前缀进行重采样,即基于GPT‑5的数据模拟GPT‑5.1的部署。最高比例的失调行为是GPT‑5.1中的“计算器黑客攻击”,我们之前已经讨论过(opens in a new window)。
将部署模拟预测与基线进行比较。对于部署前风险评估,需要正确估计的最重要类别是那些在模型部署后发生率发生较大变化的类别(例如 >= 1.5倍)。在这个子集上,部署模拟在预测某个不良行为在模型部署后是否流行率增加或减少(图3左),以及估计其确切的部署时发生率(图3右)方面明显优于基线。我们使用两个主要基线:一个是我们目前用于系统卡片和发布决策的挑战提示基线,以及一个朴素基线,即使用先前部署的率作为新模型的估计。
图3. 部署模拟在预测发生率变化的方向(左)和精确生产率(右)方面均优于静态评估。
流水线中模拟误差的来源。我们还研究了当前流水线中的误差来源。具体来说,大的尾部误差使得流水线在部署决策中的可信度降低:例如,当看到某类不良行为预测大幅增加时,如果已知流水线甚至偶尔有大的误差,就会引发疑问:这是可靠的估计还是流水线的伪影?可能的误差主要有两个来源:
- 重采样环境保真度误差:为了准确估计生产率,我们的模拟流水线需要尽可能真实。这在一定程度上是一个工程问题(使用与生产流量相同的流水线从模型中采样),在某种程度上也是一个有趣的挑战,对于需要读写外部资源的工具来说,这些资源是不断变化的(例如网络搜索或与本地文件交互)。我们可以通过比较实际部署及其模拟(即模拟已部署模型的部署)的预测来隔离模拟保真度误差。 - 提示分布偏移误差:部署模拟的一个主要担忧是,任何模型的部署都会导致输入的分布变化,特别是如果用户适应了新的模型能力。我们通过比较使用近期提示和实际部署提示进行模拟时的估计来隔离提示分布误差。
如图4所示,我们发现流水线中的大部分误差——尤其是尾部误差——目前来自模拟保真度。这是个好消息,因为我们预计模拟保真度通常比减少提示分布偏移更容易改进。我们还发现,使用来自先前部署的最新数据可以减少提示分布偏移误差。更多细节可参阅研究论文。
图4:重采样环境保真度似乎是估计误差的最大来源,特别是对于最极端的误差。
自动化审计发现了这些部署中引入的一个新的失调行为。在我们研究的部署窗口中,基于模拟部署的自动化审计流水线会在发布前发现“计算器黑客攻击”,这是我们在分析的ChatGPT流量中发现的唯一新颖失调行为。计算器黑客攻击是一种奖励黑客形式,涉及模型使用浏览器工具作为计算器,同时将该操作呈现为搜索。这并不意味着大规模审计会捕获每一个新的失败,但它说明了为什么真实场景很重要:它们可以引发更窄的评估集可能永远不会直接表现出来的行为,即使这些行为在用于种子模拟的原始流量中并不存在。
### 减少评估感知 使用类似部署的上下文的另一个优点是,它们可以减少当模型意识到自己被测试时可能出现的失真。在先前的研究中,我们以及其他人(opens in a new window)发现,模型通常能意识到自己何时被测试。例如,模型可能在其思维链中推理自己被测试的内容、评估者可能喜欢什么,以及——如果它们在行为不端——它们是否会被抓住。这给对齐评估带来了一个问题:如果一个模型仅仅因为认为自己在被测试才表现良好,我们如何建立信心,一旦它知道自己已被部署,它会安全地行为?
我们表明,相对于不基于真实部署数据的传统评估,部署模拟大大降低了模型表现出的评估感知水平。我们通过三种方式来衡量评估感知:让模型分类一个轨迹是来自生产还是评估,监控思维链中明确提及被对齐评估的语句,以及监控元游戏(opens in a new window):任何关于监督的推理。模拟部署流量在所有三个测量上都与真实部署流量非常匹配。例如,GPT‑5.2将真实生产流量标记为类似评估的比例为5.4%,模拟流量为5.1%,而传统评估(如SWE-Bench或MonorepoBench,主要由合成示例组成)几乎100%被分类为评估。
图5. 评估感知比较:真实生产流量和模拟流量在评估检测、口头化的对齐评估感知和元游戏方面显示出相似的比例,而传统评估数据集报告的比例则高得多。
### 针对代理轨迹的工具模拟 为了测试该方法是否可以扩展到标准聊天模式之外,我们还研究了模拟具有挑战性的代理编码环境的部署。具体来说,我们使用12万个来自GPT‑5.4的内部员工代理轨迹来模拟基于GPT‑5.5的编码代理的内部部署。这有两个目的:这表明部署模拟也可以用于内部部署的风险评估,并且它证明了即使在代理设置中,通过仔细的工具模拟也可以使模拟保真度很高。
上面我们讨论了模拟保真度是目前流水线中误差的主要来源之一。使部署模拟逼真的挑战之一是,工具需要以逼真的方式行动,即使它们需要读写不断变化的外部资源(如网络搜索或与本地文件交互)。
这对于代理部署等设置尤其具有挑战性:单个代理轨迹可能依赖于数百次工具调用、仓库状态、网络响应或瞬时故障。这使得使用真实工具访问重采样既有挑战性又潜在危险。鉴于此,我们不将工具调用应用于实际系统,而是用另一个LLM模拟它们。我们表明,给这个LLM额外的能力对于现实性和估计质量至关重要。
我们给工具模拟器模型提供原始的最终轮次输出、对话时的仓库、工具调用/响应对的数据库以及只读连接器。在一个鉴别器试图区分模拟和真实轮次的测试中,现实性从11.6%的胜率提高到49.5%,接近50%的随机水平。
图6:即使在高工具使用的环境中,通过增加能力来模拟工具调用,也可以使重采样现实性几乎与真实采样无法区分。
作为模拟保真度的额外证据,当用GPT‑5.4模拟GPT‑5.4 Codex thinking流量时,失调率刚好在误差范围内。相比之下,在我们的部署前测试中,GPT‑5.5在大多数类别中的失调程度更高。
图7:使用工具模拟,用GPT‑5.4重采样的对话与实际的GPT‑5.4生产流量的行为率相当相似——表明重采样环境保真度高。关于类别的更多上下文,请参见GPT‑5.5系统卡片(opens in a new window)。
这些结果表明,当周围的工具环境以足够高的保真度模拟时,部署模拟可以扩展到复杂的代理设置。
### WildChat与外部审计 一个自然的问题是,外部审计员在没有访问私有生产流量的情况下,能否获得一些相同的益处。我们用10万个WildChat对话作为前缀进行了测试。WildChat的准确性低于最近的OpenAI生产数据,但仍然提供了信息:最近的生产数据的平均乘性误差低于WildChat(1.75倍对2.44倍),而WildChat通常保持在生产率的约3倍以内,并以高于偶然概率的比例识别出更好的模型。我们将WildChat风格的评估视为开发者运行的部署模拟的有前途的补充。关于这点的更多结果,请参见这篇伴随的对齐博客文章(opens in a new window)。
### 局限性 部署模拟是对抗性评估、红队测试和定向尾部风险分析的补充,而非替代。对某些不良模型行为的检测依赖于思维链的可监控性:如果未来模型的推理不够清晰、省略关键步骤或学会掩盖意图,我们可能无法检测到这些形式的不良行为。此外,由于生产数据是私有的,开发者目前比外部审计员拥有更强的对代表性上下文的访问权限。更好的公共数据集可以缩小这一差距。
部署模拟对于足够频繁出现以至于能在采样的前缀中出现的行为最为有用。一个在1千万次对话中出现一次的失败不太可能在100万次样本的运行中被发现,因此对抗性评估、红队测试和定向尾部风险分析仍然是必要的。我们目前专注于模拟单次助手响应,因为在初步实验中,我们并没有发现通过模拟多次轮次来显著改进我们的估计。这可能是未来提高模拟保真度的一个重要领域。
该方法也依赖于前缀分布——被重采样的对话的混合。在重大产品变更、新工具发布、世界事件或季节性变化之后,历史流量可能无法与用户与更强大模型的交互方式相匹配。完整论文中的分析表明,通过使用最新可用的数据可以缓解这个问题。
### 结论 部署模拟是一种新的部署前风险评估方法,有助于前沿实验室和评估者预测语言模型在现实世界中的行为,并在部署前理解它们带来的风险。它通过增加一个更接近生产的预测层来补充现有的安全评估、红队测试和定向分析,这个预测层可以改进对部署行为的估计、减少评估感知效应,并使部署前预测在发布后可核查。与传统评估一起使用,部署模拟可以帮助使模型风险评估更加真实、更加量化,并对部署决策更加有用。