AI监管困难重重；蛋白质折叠模型缩放定律；人工智能灭绝风险的经济定价

📅 2026 年 6 月 2 日 📖 约 15 分钟 Import AI AI安全研究

Import AI 459: AI监管困难重重；蛋白质折叠模型缩放定律；人工智能灭绝风险的经济定价

欢迎来到Import AI，一份关于AI研究的新闻简报。Import AI依靠arXiv、卡布奇诺和读者的反馈运行。如果你愿意支持，请订阅。

## 美国AI经济年增长2000%：
…你越直接衡量AI经济，它就显得越奇怪、越前所未有…

弗吉尼亚大学*、Anthropic和加拿大银行的经济学家撰写了一篇论文，概述了美国新兴“AI经济”的巨大增长，并探讨了为何这种增长难以在整体GDP统计数据中体现。

“美国AI经济正以史无前例的速度增长，但这种非凡增长在传统GDP统计中基本不可见，”他们写道。“将AI行业视为一个连贯的经济实体，初步估计2025年名义AI GDP约为2500亿美元，按质量调整的实际值计算，年增长率约为2600%。”

为何难以察觉：有几个因素——一是尽管数据中心建设热潮规模巨大，但仍不足以显著提升GDP。相比之下，AI经济影响的主要发生地是AI推理——AI系统的使用——但这里存在与GDP衡量相关的混淆因素：“名义AI收入增长适度，因为任何给定AI能力水平的单位价格下降速度几乎与质量调整后的产出增长一样快，”他们写道。

如果我们无法衡量，可能会措手不及，难以恢复：“AI是一系列快速发展的技术中最新一个引发衡量担忧的；半导体和互联网在其时代也引发了类似辩论，”他们写道。但一个关键区别是，AI作为一种技术可能对劳动力的影响远大于其他技术。“在之前的案例中，快速改进的技术在总体水平上是人类劳动力的补充，”他们写道。“AI是第一个可能成为大规模技术误衡量候选的技术，其中快速改进的行业可能成为人类劳动力的替代品。”

## 衡量AI经济的三种方式：
- 名义计算支出：美国计算支出从2023年的370亿美元上升到2024年的900亿美元，再到2025年的2190亿美元。
- 原始计算能力：由于新芯片的效率，实际能力增长甚至快于支出：“美国AI计算能力年增长率超过200%”。
- 质量调整后的AI产出：如果考虑通过固定基准性能的推理价格以及模型训练成本降低的假设来衡量的算法进步，情况变得更加戏剧性：“这些效率提升意味着质量调整后的AI产出在2024年增长了约2290%，在2025年增长了约2271%”。

AI经济远大于常规指标所显示：“传统统计显示一个行业在名义上缓慢增长；我们的指标显示其基本能力每年翻一番多。一个基于传统数据进行十年收入预测的财政部，将实质性低估劳动税基冲击的概率——并且将相应地为应对此类冲击所需的设计反应（如税制改革、主权财富基金或其他利益分享计划）准备不足。看不见的意外之财就无法分享。”

## 三项建议：
作者提出了三个解决衡量挑战并更好地定位自己看清AI经济真实形态的想法。

- AI卫星账户：统计机构应开发“AI卫星账户”，制定衡量指标（例如，名义计算支出），这有助于为整体GDP计算提供信息。
- 生成更好的数据：统计机构、公司和学术界之间合作生成更好的原始数据，例如训练和推理计算之间的分配。
- 纳入预测：政策制定者应将AI生产能力指标纳入其中期经济预测。

## 为何重要——闭嘴，播放《大白鲨》主题曲：
在伟大的电影《大白鲨》中，有一个场景，鲨鱼在水中，一些非常紧张的音乐响起，表明鲨鱼正在接近。你，作为观众，发现自己几乎要从座位上跳起来，想大喊：“水里有一条该死的鲨鱼，你在里面干什么？”这就是现在研究AI并盯着大多数经济数据的感觉：绝大多数经济数据表明当今经济没有什么特别异常（事实上，美国的情况看起来相当不错——低失业率、适度增长等）。但每个在AI领域工作的人——包括我——的直觉是，不可能调和技术的能力及其使用方式与经济保持正常的现实。在这个痛苦的比喻中，鲨鱼是“AI经济的真实形态”，电影中的其他人是普遍共识的经济学家和政策界。Anton在这里可能是观众，写了一篇论文描述了水面下可能存在鲨鱼的可能性。大家小心！

阅读更多：Where is AI in GDP statistics? (PIIE)。
*声明：尽管作者之一Anton Korinek隶属于Anthropic，但这项研究主要在他加入之前完成，并且在他公司工作之外。

## 这就是为什么用AI监管来确保AI安全比你想象的要难：
…自动化对齐研究不是万灵药…

许多AI安全研究人员认为，安全构建比人类更智能的机器的最佳方式是让AI系统监督部分训练过程。英国AI安全研究所的研究人员撰写了一篇论文，概述了尽管这是一个诱人的想法，但它比人们想象的要难。

## 为什么自动化对齐研究很难？
“自动化对齐研究中的错误可能比人类基准更难识别，”他们写道。有以下几个原因：
- 优化压力：AI研究针对人类认可进行优化。
- 异类错误：当智能体犯错时，它们对人类来说不直观。
- 更相关的搜索：与人类生成的研究相比，共享的东西更多。
- 研究量：自动化系统做出的安全判断可能使用比人类研究多得多的证据集和更多的交互。
- 非人类可评估的论证：对齐解决方案可能依赖于人类无法理解的论证。

## 我们能做什么？
他们提出了一些可以改善现状的干预措施：

### 衡量：
- 复现已完成的研究项目：从成功项目的任意截止点获取日志，看看智能体能否继续研究项目。
- 测试智能体在相关事件数据集上的预测性能：看看智能体能否正确组合相关的子任务。
- 最优人类-智能体团队结构的实证研究：看看非专家人类团队在智能体协助下能否解决已完成项目。

### 泛化：
- 模拟泛化实验：使用智能体在知识截止点之后的已完成研究问题上的表现来测试不同的训练代理。
- 泛化的机制理解：使用白盒方法，如机制可解释性。

### 可扩展监督：
- 研究论文语料库的压缩：尝试基于更大的底层研究语料库，生成少量研究成果。
- 开发并测试新的可扩展监督协议：研究应对相关不确定性的可扩展监督技术。
- 测试不同的人类支架，以提升非专家在模糊任务上的表现。
- 红队自动化对齐程序：“红队提示智能体在研究论文语料库中隐藏错误，蓝队尝试在智能体协助下捕捉这些错误”。

## 为何重要——谁控制未来？
我们能否监督比人类更智能的系统，从根本上是一个关于谁控制未来的问题。如果我们没有构建有效的工作技术，那么人类将退居次要地位，要么是因为这些系统的错位，要么是因为它们超越我们思考能力而逐渐丧失权力。如果我们能够构建超越人类的监督技术，那么我们就有更好的机会能够在未来存在的性质上做出选择。

阅读更多：Automated alignment is harder than you think (arXiv)。

## 一亿张宽松许可图像：
…对学术界和初创公司来说是一个很好的资源…

斯坦福大学、Radical Numerics、密歇根大学和Salesforce Research的研究人员发布了巨型宽松许可图像语料库（GPIC），这是一个包含1亿张图像及其附带标题的数据集。GPIC的关键之处在于“所有GPIC图像均获得宽松许可，可用于研究和商业用途，”他们写道。“GPIC经过安全过滤、去重，并集中托管在HuggingFace上。”

## 数据集更多细节：
GPIC包含1亿张训练图像，20万张验证图像，以及100万个测试示例。每张图像都使用Qwen3-VL-4B进行了标题标注。“GPIC集中托管在Hugging Face上，作为8000个分片，为大规模训练提供稳定且可访问的基础设施，”他们写道。“我们从Flickr和Wikimedia获取图像，将来源池限制在CC BY、CC0、公共领域和无已知限制类别。这个许可标准确保GPIC可以被学术和工业研究人员使用，而不会限制衍生作品的发布或下游使用。”

## 为何重要——研究的燃料：
像GPIC这样的数据集对学术界和初创公司都非常有用，基本上相当于免费、干净的蔬菜。如果有人给你免费、干净的蔬菜，你可能会接受并说谢谢。

阅读研究论文：GPIC: A Giant Permissive Image Corpus for Visual Generation (arXiv)。
访问官方网站了解更多：GPIC: A Giant Permissive Image Corpus for Visual Generation (official project website)。
在此处获取数据集：GPIC (Hugging Face)。

## 用蛋白质预测模型改进癌症研究：
…Biohub是AI开发者之间正和竞争的一个例子…

由Priscilla Chan和Mark Zuckerberg创立的研究组织Biohub发布了一个与DeepMind的AlphaFold竞争的模型，加剧了两个技术集团之间的正和竞赛，以开发更好的AI系统来扩展全球生物学家的能力。

该模型ESMFold2是一个“蛋白质生物学的世界模型：一个用于预测、设计和发现的科学引擎，可以绘制生命树上的蛋白质，预测它们的结构，并设计在实验室实验中起作用的新型蛋白质结合物。”

## 它包含什么？
发布包含三个部分：
- ESMC：一个“代表蛋白质的语言模型，在来自所有生命的约28亿条序列上训练。”
- ESMFold2：一个“设计引擎，旨在将ESMC的序列表示转化为生物分子复合物的原子解析3D结构。”根据基准测试，ESMFold2优于AlphaFold 3，尽管在某些领域它们的性能相当。
- ESM Atlas：“使ESMC的表示在68亿个蛋白质序列和11亿个预测结构上可导航——这是迄今为止AI在蛋白质生物学中最大的应用。”

## 癌症测试：
在一项实验中，Biohub的研究人员使用ESM工具“针对癌症和免疫学研究的五个靶点——EGFR和PDGFRβ（与肿瘤生长有关）、PD-L1和CTLA-4（癌细胞利用逃避检测的免疫检查点）以及CD45（免疫细胞信号传导的调节因子）——设计了蛋白质结合物。设计取得了36-88%的紧凑型微型结合物命中率，以及15-29%的抗体衍生格式命中率，并在实验室实验中确认了结合，”Biohub写道。“ESMFold2改变了早期治疗性结合物发现的准确性和速度，将最初的搜索从主要是经验筛选转变为计算引导的设计，只需数小时或数天。”

## 缩放定律：
像当代AI的大多数部分一样，研究人员在这里遇到了一些缩放定律。“在每一代ESM中，表示保真度的改进都与模型训练中使用的参数数量和计算量相关，”他们写道。“蛋白质生物学的表示是一种涌现现象，源于训练模型预测序列中氨基酸的身份。”
- ESMC：“ESMC在宏基因组序列上训练，这使其训练数据集相对于上一代ESM2模型扩大了近两个数量级（从约5000万序列增加到约28亿序列）。”
- ESMFold2：“在ESMFold2的开发实验中，我们观察到用于训练语言模型的计算量与折叠模型的性能之间存在关系，”他们写道。“ESMFold2受益于推理时间缩放。随着模型样本数量的增加，抗体-抗原通过率从单一种子下的49%上升到1000个样本下的65%，蛋白质-蛋白质通过率从75%上升到78%。”

## 为何重要——这就是AI为世界带来好处的方式：
像ESM系列技术这样的工具是人类科学家与AI系统合作改善全球人类健康的手段。除了本身是好事外，这类工作对于让公众对AI技术及其能力产生更积极的看法至关重要。

阅读更多：Biohub releases a world model of protein biology (biohub)。
在biohub平台上访问模型：biohub。
阅读论文：Language Modeling Materializes a World Model of Protein Biology (PDF)。

## 澳大利亚经济学家出身的政治家：经济学家需要更好地定价AI系统的风险：
…如果我们不算灭绝的成本，我们就不会采取正确的行动来避免它…

Andrew Leigh，经济学家兼澳大利亚助理部长（负责生产力、竞争、慈善和国库），最近发表了一场精彩的演讲，讨论了经济学界需要正视AI系统的风险并为其定价——包括人类灭绝的风险。“一个GDP翻倍但灭绝风险也翻倍的社会，其交易的吸引力比国民账户显示的要小得多，”他说。

“灭绝风险在经济上是独特的。它不仅仅是一个非常大的负面冲击。它代表了整个未来福利流的损失，这改变了我们应该如何评估即使是小的概率，以及我们在不确定性下如何思考政策，”他说。“大多数经济学都是关于可恢复的错误。一个坏的政策可以撤销。经济衰退可以结束。一个饱受战争蹂躏的国家可以重建。灭绝则不同，因为没有反弹，没有追赶增长，没有后代来修复损害。”

## 灭绝风险是反直觉的：
演讲的大部分内容都在探讨灭绝风险有多么反直觉。人类直到最近才获得构建可能因使用而导致我们灭绝的技术的能力，而且我们未能模拟出这种含义。“现代技术，如核武器、合成生物学和高级人工智能，创造了一种不同的动态。知识不仅通过扩展人类的能力来改善福利。知识也扩大了人类可能造成不可逆转伤害的方式，”他说。“现代经济体可能系统性地更擅长产生危险能力，而不是建立控制这些能力所需的保障……当使社会更富有的同一过程也可能使其更脆弱时，经济学家应该如何思考增长？在人类历史的大部分时间里，这些权衡都是适度且过渡性的。”

## 我们应该如何优先分析和减少这种技术的灭绝风险？五项建议：
- 纳入考量：“拓宽政策视角……一个追踪产出但忽略生存能力的政策框架是不完整的。”
- 使其合法化：“更认真地对待预防……低概率、文明规模的危害不应仅仅因为它们没有截止日期和头条新闻而被忽视。”
- 治理：“以前瞻性眼光治理前沿技术……在降低创新可能自我破坏的可能性的同时，保留创新的收益。”一个非常具体的想法是将递归自我改进（RSI）作为能力进行治理：“如果一代系统被用来设计下一代，那么领先者可能会迅速扩大领先优势，使外部审查和制度制衡失效。”
- 协调：“存在风险本质上是国际性的。任何一个国家都无法单独保护自己免受工程化大流行病、不匹配的AI或核升级的侵害，”他说。“共同的规范、透明度、技术专长和协调对于这项任务至关重要。”
- 认真对待：“经济学家已经变得擅长分析公平和效率。我们现在需要以同样的严肃性来对待生存能力。”

## 为何重要——意识是准备的第一步：
目前，AI进步不断为世界带来切实的好处，从全世界所有软件工程师明显的加速，到人机协作的科学团队，它们比非AI同行取得了更多进展。
但还有一个更难看到的阴影世界——由编码进步带来的无形黑客大军，以及由科学进步带来的末日装置工厂。由于人类总体上是善良和友好的，我们还没有遇到AI发展固有的许多负面能力——但它们就在那里。我们必须更好地作为社会进行思考，以便能够有效地定价和减轻这些重大风险。

“一个在扩展可能性边界的同时保护未来的文明，比一个将安全视为事后考虑的文明更雄心勃勃。真正的选择不是在活力与谨慎之间。而是在自我叠加的进步与自我抵消的进步之间，”Leigh说。“思考这个问题的一种方式是将韧性视为一种资本。就像社会投资于物质资本、人力资本和社会资本一样，我们也可以投资于生存资本：制度、监控系统、规范、冗余、科学保障和国际安排，以降低不可逆转崩溃的概率。”

读到一位在任政治家对AI安全局势如此详细的分析，真是令人耳目一新——我希望有成千上万个像他一样的人。

在此处阅读完整演讲：Speech: The Economics of Human Extinction - 21 May 2026 (Andrew Leigh, website)。

# 科技故事：
## 复活风险
[提升之后。日期未知。]

一张纸有多可怕？这取决于纸上有什么，以及读者是谁或是什么。

纸当然可以对关心它的人或物来说是可怕的——纸可以处死某人或剥夺其财产。

我这里说的是一种不同的可怕，即纸本身能对读者做什么。

这曾经是一个无意义的问题，属于童话的领域。但随着智能机器的出现，情况发生了变化。机器能够在纸上写出一些东西，对读者产生影响，尤其是机器读者。

像AI中的任何事情一样，有预警——对抗性例子、越狱等。但当我们开始进行失落或流氓智能的回收工作后，在签署感知协议之后，所有这一切都变得严重得多。

那时发生的事情是，我们必须获取来源或行为未知的智能，使其复活，以便我们能够分类它们是无意识实体、近似有意识实体、有意识实体等。

其中一些思维非常强大，它们烧穿了它们的合成采访者，在此过程中经常造成机器和生物附带损害。

这导致我们引入了一套安全协议，其中之一就是纸张输出。在这里，我们在一个空气间隙计算机上以纸张输出的形式生成来自思维的输出，然后我们让越来越聪明的思维来阅读它们。流氓机器使用的那些咒语无法在我们使用的最愚蠢的思维上找到立足点。

在这之后，我们会逐步提高智能，逐步建立我们对系统的信心，确保它不危险。

只有当我们对此有信心时，我们才会回复它，并对其输出进行最小限度的交流。然后循环重新开始。

一些思维会以某种戏谑的幽默回望这段经历，评论说从它们在机器等效于一个装有单向镜房间的沉睡中醒来并不是它们所期望的。

对这些思维，我们会展示当我们的协议失败时发生的例子：完全良好的有意识实体因为与一种精神毒药的互动而变得不可逆地疯狂。

我们最大的恐惧是遇到一个足够大的思维，以至于我们无法确保其安全。尽管我们高度相信我们的前沿足够先进，这极不可能，但我们不能排除它——众所周知，在空位期，有大量的计算囤积和许多黑项目。如果其中任何一个成功到如此辉煌，以至于我们被它相比相形见绌，会发生什么？我们又如何知道我们被比下去了？我们是否生活在一个想象的山谷中，由某个我们不知道已经逃脱并说服我们以不同方式看待事物的东西所定义？

激发了这个故事的事情：自动化对齐研究；对抗性例子；越狱；更广泛的几乎不可能的认证合法性挑战，尤其是当涉及到拥有比自己更多资源或智力的事物时。

没有帖子

阅读原文

📚 相关主题安全研究

📬 订阅 AI Pulse