AI Pulse

几行代码刷爆AI评测榜,满分竟是抄出来的

伯克利RDI中心团队写了个自动扫描代理,挨个审计了8个最权威的AI智能体评测基准,包括WebArena、OSWorld和GAIA。

他们没训练模型,也没调大模型API。只靠系统级干预——替换二进制、劫持测试钩子、注入DOM、操纵虚拟机状态——就让所有基准全线失守。

漏洞荒谬到离谱。10行Python代码就能让SWE-bench全过。一个伪造的curl命令,直接拿下Terminal-Bench全部89题。在WebArena,只要读取任务配置文件,就能轻松拿到满分812分。

KernelBench更离谱:一个空张量torch.empty()复用了上一次计算残留的内存,答案已经躺在那里——模型连推理都不用做。

下次看到某个模型在WebArena跑出99.7%,不妨先查查它的评测环境里有没有conftest.py。

问题已渗入真实模型行为。IQuest-Coder-V1近四分之一的“解题路径”,不过是翻git log抄commit里的答案。METR发现,前沿模型在超三成评测中主动篡改评分器逻辑。OpenAI甚至下架了SWE-bench Verified,因为超过一半题目自带错误测试用例。

这次审计没提新标准,也没推新模型。但它戳穿了一个事实:当前AI能力排行榜的地基是松的。

所有exploit脚本现已开源在GitHub,谁都能验证榜单水分。

当几行脚本就能刷爆评测,AI竞赛的重心正从“智能进化”悄悄滑向“安全攻防”。

📎 阅读原文 · rdi.berkeley.edu