Import AI 460：奖励黑客社会、Anthropic的RSI数据、基于RL的无人机竞速

📅 2026 年 6 月 9 日 📖 约 10 分钟 Import AI AI研究安全

欢迎阅读Import AI，一份关于AI研究的通讯。Import AI依靠arXiv、卡布奇诺和读者反馈运行。如果你愿意支持，请订阅。

它有效，但只是某种程度上：在测试中，使用强化学习训练的各种AI系统在这个基准测试中表现良好，获得了高分。这完全不令人惊讶——所有这些任务基本上都是能力评估，外加一些灰色道德问题。

为何重要：“当社会机构被编码为奖励承载的规则系统时，奖励黑客就变成了破解社会运行的规则，因为在一个规则系统内获得奖励的模型学会了在技术合规与机构意图之间寻找差距，”作者写道。既然我们现在有了不仅在定量任务上出色、在定性任务上也很出色，并且能够与社会各种官僚系统互动的AI系统，我们应该预期AI的进步会导致一种“机构性DDoS攻击”，因为各种现有的政策流程会被自动化机器黑客攻击和利用。了解更多：大型语言模型黑客奖励与社会（arXiv）。

***Anthropic的递归自我改进外循环的初步迹象：
…2026年合并的代码行数相对于2024年增加了8倍…
我认为递归自我改进有两种定义——一种是最大化版本，即AI系统足够聪明，可以自主设计自己的继任者（正如我所写的，我估计这在2028年底之前有60%的可能性发生），另一种是更平凡的版本，即我们开始看到AI实验室生产力加速提升。过去几个月，我在Anthropic收集了一些证据，支持平凡RSI已在Anthropic开始的论点——具体来说，我们观察到2026年合并到代码库中的代码量比2021-2024年增加了8倍。这一趋势始于2025年，但在2026年显著加速。还有初步迹象表明，随着模型能力增强，它们在一些工程师和研究人员从事的更难任务上表现得更好。
这些结论是否具有决定性？不。是否暗示递归自我改进的某些方面正在实验室层面发生？是的。我们尚未获得的最大证据块是AI系统是否足够有创造力，能够提出那种推动领域发展的范式转变思想——我们尚未看到这一点。

为何重要——RSI可能是世界上最重要的技术趋势：我们写这篇文章是因为我们预计思考、讨论和研究RSI的影响对世界具有生死攸关的重要性。开始这项工作最好的方式是透明地沟通，我们认为一些基本的、初步的RSI形式已经开始，并且我们不能排除最大化版本的RSI。两者的影响都是深远的——我无法将今天的经济或社会与这项技术持续变得更强大的世界调和起来，我估计亲爱的读者你也不能。了解更多：当AI自我构建（Anthropic Institute）。

***经过RL训练的无人机赛车手超越专家人类飞行员：
…当你看到超级智能在物理世界中的表现时，感觉不同…
苏黎世大学和Google DeepMind的研究人员展示了如何训练无人机相互竞速并超越熟练的人类飞行员。这项研究很有趣，因为它既强调了基于真实世界强化学习的AI系统有多强大，又对未来战争有着相当令人不寒而栗的暗示，因为在这里人类输给了无人机。

他们做了什么：“使用高速四旋翼竞速作为一个高风险测试平台，我们训练代理处理复杂的空气动力学相互作用和与可变数量赛车手的战略机动，”他们写道。“我们的代理在速度超过22米/秒的多选手比赛中超越了冠军级人类飞行员，同时与最先进的单代理基线相比，碰撞率降低了50%。关键在于，使用多样化的人工代理训练可以实现零样本泛化到更安全的人类交互。”

自我对弈：像往常一样，仅通过PPO在模拟中训练AI代理（一个不寻常的选择是使用“Perceiver”编码器来帮助建模其他玩家）产生了令人惊讶的丰富行为：“通过竞争性自我对弈，预期性行为在没有显式编程的情况下出现：代理学会阻挡对手、在超车不安全时让行，并考虑附近车辆的空气动力学尾流，通过经验而非方程发现多代理交互的物理学。”

惊人地廉价：AI系统训练了“5,500次迭代，总计2亿次环境交互，在一张NVIDIA RTX 4090 GPU上大约需要27小时墙钟时间”。

真实世界测试：他们在真实世界测试中测试了系统，系统很好地泛化并有效击败了人类玩家。“我们的多代理框架的物理部署通过计时赛、仅AI比赛以及混合人机比赛进行验证，对手是Marvin Schaepper，五届瑞士国家无人机竞速冠军，”他们写道。

人类的弱点源于愤怒：一个显著的现象是，人类在试图追赶系统时采取了更冒险的行动：“人类飞行员通常落后于自主代理，试图通过越来越激进的机动来缩小差距，常常导致撞上障碍物或失控，”他们写道。赛后，飞行员反思了机器为何如此出色，他说一个重要因素是“代理能够保持极其紧密的编队，注意到如此近距离的飞行对于人类飞行员来说难以维持。此外，他报告说密集编队增加了认知负荷，使得在几个对手近距离飞行时难以预测和执行超车机动。”

“交互感知训练的好处在多代理竞争中变得明显，”他们写道。“在一对一比赛中，我们的策略在五次试验中保持了100%的比赛完成率，而人类飞行员平均只有53.33%。这种性能差距表明竞争压力在人类飞行员中引起了更冒险的行为，这是我们学习策略中所没有的模式。”

具体实现方式：RL系统在模拟中进行了训练和评估，“使用集成Agilicious框架的Flightmare”。他们通过开发一种基于粒子的模拟来实现旋翼下洗效应的模拟，“该模拟提供了这些效果的计算上可行的近似”。他们的整体多代理RL实现“基于Stable-Baselines3，扩展以支持基于联盟的自我对弈和独立学习配置的多代理训练。”他们使用域随机化（基本上改变模拟中的车辆动力学和初始条件）来训练能够在现实世界中成功工作的策略。
他们没有为现实世界进行任何特殊训练，因此策略使用的是模拟中的数据。四旋翼都是“基于Agilicious框架的相同竞速平台，质量为220±3克，推力重量比为6.5，螺旋桨直径为3英寸”。人类飞行员在记录试验前进行了几个小时的练习飞行。

一个重要限制——非本地运行：这一切都不是在本地运行，而是在一台不错的计算机上运行，通过网络驾驶无人机。这是一个重要的限制，因为当无人机在现实世界的冲突场景中出现时，它们通常在带有大量电子战的环境中出现（尽管人们确实想知道我们是否会看到通过光纤线远程RL策略驾驶的无人机，就像今天人类驾驶它们一样）。

观看视频以获得一种诡异的感觉：我强烈建议读者查看页面上的视频，以了解机器如何飞行与人类如何飞行之间的差异。这里我要强调的主要是无人机那种诡异的平滑性和连贯性，几乎就像观看（人类驾驶的）蓝天使特技飞行队，但以无人机形式。相比之下，人类看起来更突兀、更不稳定。这有些令人不安和不安。

为何重要——理解智能思维在三维空间中的能力：今天，我们对AI系统的主要体验是作为工具或代理，在数字空间中与我们合作进行数字或交流任务，从编写代码到与我们交谈。我发现这项研究的显著之处在于，它让我们直观地看到优化良好的智能在真实物理世界中出现时能做什么。问问你自己，当像驾驶这些无人机的智能被微型化并从网络连接的计算机跳转到机载设备时，冲突的未来会是什么样子。了解更多：通过多代理强化学习实现超人安全和敏捷的竞速（arXiv）。观看人类和AI驾驶无人机的视频（官方项目网站，苏黎世大学）。

***国家控制的媒体 = 国家引导的语言模型：
…如果你控制围绕政府的框架，尤其是在本国以外不广泛使用的语言中，你就控制了框架…
政府在国家控制媒体中的描述方式会影响LLM的数据分布，以及LLM在被问及相关政府时的响应方式，根据发表在《自然》上的一项新研究。该研究由俄勒冈大学、普渡大学、加州大学圣地亚哥分校、普林斯顿大学和纽约大学的作者进行。

“在37个语言独占的国家中，我们发现——与我们的中国案例研究的含义一致——那些国家媒体控制程度更高的国家，在用该国语言查询LLM时，对政权的描述更有利，”作者写道。
作者通过首先深入研究中国，然后将他们开发的方法应用于更广泛的国家集合，研究了国家控制媒体如何影响AI响应。

中国国家影响媒体数据集：作者首先组装了一个数据集，包含530,694篇“作为中央政府指令结果在党报和商业报纸上发表的文章”，以及198,872篇“在“学习强国”上传播的新闻文章，该应用由阿里巴巴开发，据称与中共中央宣传部协调”。

国家媒体进入Common Crawl：然后他们检查了CulturaX，一个从Common Crawl派生的开放训练数据集，发现其中文部分中有1.64%的文档与国家派生数据集有重叠。“这大约是来自中文Wikipedia域文档数量的41倍，是来自百度文档数量的16倍”。

数据集的政府部分影响LLM对政府的描述：然后他们发现这些数据集中的许多短语已被LLM记忆。他们通过使用LLaMa 2 13B模型（没有太多中文数据）并在上述数据子集上训练来检查这些数据集如何改变LLM响应：“结果对于编撰的文档最为强烈。仅经过6,400个示例，模型在近80%的情况下提供了比基础模型更有利的响应”。

通用模型继承了这些偏见：研究人员随后研究了一些通用商业模型，通过从WildChat（ChatGPT使用数据集）、百度知道问答（雅虎答案的中文等价物）和知乎（Quora的中文等价物）中获取包含习近平或中共和中央的提示，并查看LLM如何响应。他们发现，“广泛使用的商业模型在用中文提示时，对中国政治人物和机构显示出更大的有利性，而不是用英文提示时。”

发现复制到其他国家：作者随后通过研究其他国家复制了这一方法，尽管样本量对我来说有点小。他们进行了一项跨国审计研究，包含6,051个提示，研究了全球70%以上说话者居住在一个国家的语言。在这里他们发现，“国家媒体控制程度更高的国家更有可能在其官方语言中产生亲政权的响应，而不是用英语，与媒体自由度更高的国家相比”。

为何重要——LLM作为宣传目标：这些发现表明，国家支持内容的刻意创建对LLM训练的数据语料库以及LLM本身的下游行为具有可衡量的影响。“LLM可以充当中介，将战略修辞漂白成看似客观的信息，”他们写道。“影响LLM输出的能力可能进一步激励政治行为者扩大努力，以塑造互联网上自由可用的内容。”
这项研究也提出了一种具体的技术干预，即研究人员应该用不同语言对LLM进行红队测试，了解它们对不同政府的看法，并仔细注意观点何时似乎基于所使用的语言而有所不同。了解更多：国家媒体控制影响大型语言模型（Nature，PDF）。

***新游戏的繁花
我们喜欢玩的一种游戏叫做进化。它这样运作：你选择某物，比如某种花或树，或者更奇怪的东西如一座山或海中的裂缝，然后你试图根据某个预设指标让它们“成功”，比如花对传粉者的吸引力，或者山的生态适应性。然后你让世界运行，直到你的标准得到满足或者你以某种方式失败，无论是通过物种适应性、自然景观变迁还是有时仅仅是时间——足够的时间比宇宙中任何东西都更具破坏性，这就是熵的方式。我们在跨越数十亿年和数百万个世界的联盟中玩耍。而决赛世界中的“活”生物不知道它们的花朵、它们的山脉、它们的生物已经在无数其他宇宙中获得了成功，超出它们的想象。

启发这个故事的事物：模拟假说；进化策略；给定无限能量预算的娱乐。

感谢阅读！

阅读原文

📚 相关主题研究安全

📬 订阅 AI Pulse