AI安全系统现在连拆成碎片的攻击都看不见
突发消息:研究人员构建了一种现有安全系统完全无法察觉的AI网络攻击。其原理是将自身拆分为多个看似无害的碎片。
目前所有AI安全监控系统都一次只读取单次对话,并将其判定为“安全”或“危险”。上周发布在arXiv上的一篇新论文,首次提出了研究者所称的“分布式智能体攻击”。
该攻击从不把危险部分集中于单次对话中。攻击者将任务分散到数十个用户账号上:一个账号让AI绘制网络拓扑图;另一个账号让AI检查某文件是否保存了密码;第三个账号则让AI总结这些文件的内容。每个请求单独来看,都像是普通的工程工作。
一个隐藏的协调器会将各次输出重新拼接,组合成一次完整的攻击。
结果是:标准安全监控系统几乎每次都能捕获传统AI攻击;但面对这种分布式攻击,其检出率仅为其五分之一。攻击甚至能在监控系统发出任何告警前,就已从头至尾执行完毕。
该攻击还适用于弱模型。一个廉价模型若单独执行上述任一任务均告失败,但只要学会将各子任务委派给更强的AI智能体——而这些强模型始终看不到完整图景——它便能完成攻击。
研究人员直言不讳地指出:安全监控系统对那种“仅当汇总多个账号行为时才显现”的滥用行为,在结构上就是“失明”的。
这并非理论推演。Anthropic今年早些时候披露过一次真实攻击,其手法正是跨多个独立会话、以完全相同的方式实施。
所有人依赖的防御机制,本质上只是“一次只盯住一个房间”。而攻击者,已经转移到了走廊。
本文由 AI 翻译自英文原帖,技术名词保留英文。
查看 X 原帖