📡 X 信号

安全研究员集体吐槽Anthropic新模型的护栏

speckx AI安全大模型

网络安全研究人员对 Anthropic 为其 Fable 模型设置的防护措施感到不满。

这些防护措施限制了模型在网络安全研究领域的应用潜力，例如无法生成可用于渗透测试的代码或分析恶意软件行为。

研究人员指出，Fable 的设计初衷是支持安全团队开展红队演练和漏洞研究，但当前的限制反而削弱了其实际效用。

Anthropic 表示这些 guardrails 是为了防止模型被滥用于恶意目的，但部分安全从业者认为其过于宽泛且缺乏灵活性。

目前尚无明确迹象表明 Anthropic 计划调整这些限制，也未就具体技术细节或政策依据作出公开说明。

社区讨论：多人指出Anthropic模型会静默降级处理ML和网络安全相关请求，且不告知用户（@daedrdev）；有人强调所有被拦截的提问都可能被用于训练（@I_am_tiberius）；还有人担忧攻击者已开始在恶意代码中混用核/生物/网安术语以触发误拦截（@largbae）；@Animats列举了“buffer overflow”等技术术语是否被屏蔽的实测疑问；@jazz9k对比称DeepSeek仍能提供漏洞PoC，而Claude等模型因护栏过严几乎无法用于安全研究。

本文由 AI 翻译自英文原帖，技术名词保留英文。

查看 X 原帖

📬 订阅 AI Pulse