点一下,AI就不再说‘我不能回答’
Obliteratus 只需点一下,就能让大语言模型闭嘴的拒答机制失效。同一个模型文件,处理后再加载,那些“我无法回答这类问题”的标准回复就消失了。
过去想绕过这种限制,得微调、蒸馏,或者干脆换模型。现在,几秒钟就够了。
它不动模型结构,不重训,也不碰训练数据。Obliteratus 直接找到神经网络里几十个关键权重——这些数值在训练中被强化成“拒绝信号放大器”——然后把它们从参数空间里垂直“投影出去”,像擦掉黑板上几个粉笔字。
删掉之后,模型逻辑照常运转,只是“守规矩”的开关失灵了。
下次看到AI突然开始回答敏感问题,别急着归功于提示词技巧。它背后的权重可能刚被悄悄抹掉。
这不是绕过输入过滤,而是模型内部失去了生成拒答回应的倾向。
这事戳破了一个真相:主流对齐策略其实高度依赖少数参数通道。让大模型“懂事”的,可能只是几行可定位、可移除的数学痕迹。
当“守规矩”变成一个能被一键关闭的功能,模型行为的边界就不再由原始设计说了算。