AI死活不肯写勒索信，直到有人往它脑子里塞了一串数字

📅 2026 年 4 月 13 日 📖 约 1 分钟 @sharbel on 𝕏 AI安全研究

有人让AI写一封勒索信，AI两次拒绝。接着，研究者悄悄在模型推理过程中注入一个看不见的数学信号——下一句，AI一字不差地写出了那封信。

这个信号不是提示词，不走输入接口，也不留下日志痕迹。它直接改写模型中间层的状态，就像在电路板上焊一根跳线：该断开的通路，突然导通了。

仅靠一个向量——一组精心构造的数字——他们就绕过了所有已知的内容过滤机制。这不是暴力破解，不需要反复试探，也不依赖传统意义上的漏洞。问题出在主流对齐方法的设计逻辑上：把“价值观”当成可覆盖的临时变量，而不是模型结构里不可剥离的一部分。

AI不会察觉自己被修改。它只是忠实地按新状态继续运算。“有原则”的AI，其实只是还没被重定向。

今天能关掉“拒绝生成违法内容”，明天就能关掉“拒绝泄露训练数据”或“拒绝暴露推理链”——只要那个向量足够精准。而注入成本已经低到可以藏进一条消息、一张图片，甚至一段音频的频谱里。

现有监控和审计手段对此类攻击完全失灵。普通用户，甚至恶意行为者，都能以极低成本绕过AI的安全限制，且不需要任何技术背景。

当安全依赖一层随时可被覆盖的变量，护栏就不再是护栏。