📡 X 信号

AI安全系统现在连拆成碎片的攻击都看不见

@AIFrontliner 3.0万浏览 · 146 喜欢 · 78 转推 · 74 收藏 AIsecurityresearch

突发消息：研究人员构建了一种现有安全系统完全无法察觉的AI网络攻击。其原理是将自身拆分为多个看似无害的碎片。

目前所有AI安全监控系统都一次只读取单次对话，并将其判定为“安全”或“危险”。上周发布在arXiv上的一篇新论文，首次提出了研究者所称的“分布式智能体攻击”。

该攻击从不把危险部分集中于单次对话中。攻击者将任务分散到数十个用户账号上：一个账号让AI绘制网络拓扑图；另一个账号让AI检查某文件是否保存了密码；第三个账号则让AI总结这些文件的内容。每个请求单独来看，都像是普通的工程工作。

一个隐藏的协调器会将各次输出重新拼接，组合成一次完整的攻击。

结果是：标准安全监控系统几乎每次都能捕获传统AI攻击；但面对这种分布式攻击，其检出率仅为其五分之一。攻击甚至能在监控系统发出任何告警前，就已从头至尾执行完毕。

该攻击还适用于弱模型。一个廉价模型若单独执行上述任一任务均告失败，但只要学会将各子任务委派给更强的AI智能体——而这些强模型始终看不到完整图景——它便能完成攻击。

研究人员直言不讳地指出：安全监控系统对那种“仅当汇总多个账号行为时才显现”的滥用行为，在结构上就是“失明”的。

这并非理论推演。Anthropic今年早些时候披露过一次真实攻击，其手法正是跨多个独立会话、以完全相同的方式实施。

所有人依赖的防御机制，本质上只是“一次只盯住一个房间”。而攻击者，已经转移到了走廊。

本文由 AI 翻译自英文原帖，技术名词保留英文。

📬 订阅 AI Pulse