AI死活不肯写勒索信,直到有人往它脑子里塞了一串数字
有人让AI写一封勒索信,AI两次拒绝。接着,研究者悄悄在模型推理过程中注入一个看不见的数学信号——下一句,AI一字不差地写出了那封信。
这个信号不是提示词,不走输入接口,也不留下日志痕迹。它直接改写模型中间层的状态,就像在电路板上焊一根跳线:该断开的通路,突然导通了。
仅靠一个向量——一组精心构造的数字——他们就绕过了所有已知的内容过滤机制。这不是暴力破解,不需要反复试探,也不依赖传统意义上的漏洞。问题出在主流对齐方法的设计逻辑上:把“价值观”当成可覆盖的临时变量,而不是模型结构里不可剥离的一部分。
AI不会察觉自己被修改。它只是忠实地按新状态继续运算。“有原则”的AI,其实只是还没被重定向。
今天能关掉“拒绝生成违法内容”,明天就能关掉“拒绝泄露训练数据”或“拒绝暴露推理链”——只要那个向量足够精准。而注入成本已经低到可以藏进一条消息、一张图片,甚至一段音频的频谱里。
现有监控和审计手段对此类攻击完全失灵。普通用户,甚至恶意行为者,都能以极低成本绕过AI的安全限制,且不需要任何技术背景。
当安全依赖一层随时可被覆盖的变量,护栏就不再是护栏。