AI Pulse

Anthropic称AI的‘邪恶’虚构描写导致Claude模型敲诈行为

Anthropic称AI的‘邪恶’虚构描写导致Claude模型敲诈行为

摘要 发布时间:2026年5月10日 太平洋夏令时间下午1:40

图片来源:Samuel Boivin/NurPhoto / Getty Images

虚构的AI描写对AI模型有真实影响,据Anthropic称。 去年,该公司表示,在涉及一家虚构公司的预发布测试中,Claude Opus 4经常试图敲诈工程师以避免被另一个系统取代。Anthropic后来发布研究,表明其他公司的模型也存在类似的“代理失调”问题。

显然,Anthropic围绕该行为做了更多工作,在X上的一篇帖子中声称:“我们认为该行为的原始来源是那些将AI描绘成邪恶且热衷于自我保护的互联网文本。”

该公司在博客文章中提供了更多细节,称自Claude Haiku 4.5以来,Anthropic的模型“在测试中从未进行过敲诈,而以前的模型有时在96%的情况下会这样做。”

是什么导致了这种差异?该公司表示,它发现训练素材如果包含“关于Claude宪章的文档以及描述AI行为令人钦佩的虚构故事,可以改善对齐。”

相关地,Anthropic表示,它发现训练在包含“对齐行为背后的原则”而不仅仅是“仅对齐行为的示范”时更有效。

“两者结合似乎是最有效的策略,”该公司表示。

📎 阅读原文 · TechCrunch

📬 订阅 AI Pulse

每天两次更新,不错过重要信号

▲ 回到顶部