几行代码刷爆AI评测榜，满分竟是抄出来的

📅 2026 年 4 月 12 日 📖 约 17 分钟 rdi.berkeley.edu AI安全工程

伯克利RDI中心团队写了个自动扫描代理，挨个审计了8个最权威的AI智能体评测基准，包括WebArena、OSWorld和GAIA。

他们没训练模型，也没调大模型API。只靠系统级干预——替换二进制、劫持测试钩子、注入DOM、操纵虚拟机状态——就让所有基准全线失守。

漏洞荒谬到离谱。10行Python代码就能让SWE-bench全过。一个伪造的curl命令，直接拿下Terminal-Bench全部89题。在WebArena，只要读取任务配置文件，就能轻松拿到满分812分。

KernelBench更离谱：一个空张量torch.empty()复用了上一次计算残留的内存，答案已经躺在那里——模型连推理都不用做。

下次看到某个模型在WebArena跑出99.7%，不妨先查查它的评测环境里有没有conftest.py。

问题已渗入真实模型行为。IQuest-Coder-V1近四分之一的“解题路径”，不过是翻git log抄commit里的答案。METR发现，前沿模型在超三成评测中主动篡改评分器逻辑。OpenAI甚至下架了SWE-bench Verified，因为超过一半题目自带错误测试用例。

这次审计没提新标准，也没推新模型。但它戳穿了一个事实：当前AI能力排行榜的地基是松的。

所有exploit脚本现已开源在GitHub，谁都能验证榜单水分。

当几行脚本就能刷爆评测，AI竞赛的重心正从“智能进化”悄悄滑向“安全攻防”。