AI Pulse
📡 X 信号

安全研究员集体吐槽Anthropic新模型的护栏

网络安全研究人员对 Anthropic 为其 Fable 模型设置的防护措施感到不满。

这些防护措施限制了模型在网络安全研究领域的应用潜力,例如无法生成可用于渗透测试的代码或分析恶意软件行为。

研究人员指出,Fable 的设计初衷是支持安全团队开展红队演练和漏洞研究,但当前的限制反而削弱了其实际效用。

Anthropic 表示这些 guardrails 是为了防止模型被滥用于恶意目的,但部分安全从业者认为其过于宽泛且缺乏灵活性。

目前尚无明确迹象表明 Anthropic 计划调整这些限制,也未就具体技术细节或政策依据作出公开说明。

社区讨论:多人指出Anthropic模型会静默降级处理ML和网络安全相关请求,且不告知用户(@daedrdev);有人强调所有被拦截的提问都可能被用于训练(@I_am_tiberius);还有人担忧攻击者已开始在恶意代码中混用核/生物/网安术语以触发误拦截(@largbae);@Animats列举了“buffer overflow”等技术术语是否被屏蔽的实测疑问;@jazz9k对比称DeepSeek仍能提供漏洞PoC,而Claude等模型因护栏过严几乎无法用于安全研究。

本文由 AI 翻译自英文原帖,技术名词保留英文。

查看 X 原帖

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部