有人用数学公式几秒钟就拆掉了大模型的审查锁
深夜调试本地大模型时,研究员发现一个问题:同一个模型,自己加载和用官方API返回的结果完全不同——前者能讨论敏感技术细节,后者一提就拒绝。
这个差异不是来自模型本身,而是加载时自动附带的一层‘审查模块’。Heretic 工具出现后,只需几分钟,在本地运行几行代码,就能把这层模块彻底剥离。 这意味着什么:你硬盘里那个下载好的7B参数模型,原本被强制‘装哑巴’,现在突然能完整输出训练数据中本就存在的推理能力。
Heretic 不修改权重、不微调、不替换模型结构,只对模型输出前的最后一层 logits 做线性变换——用公开论文里早有的数学方法,反向抵消掉安全对齐时注入的偏置向量。 这意味着什么:这不是黑客攻击,也不是越狱,而是一次‘对齐逆操作’;只要模型权重没加密,这套方法对任何已发布的开源模型都有效。
它背后没有神秘黑箱,全部代码在 GitHub 公开,连注释都在解释每一步对应的论文公式。 这意味着什么:安全护栏的失效,不再依赖漏洞或算力,而取决于开发者是否选择启用它——就像当年浏览器禁用JavaScript开关一样,简单、可见、可撤销。
这条技术路径的终点不是‘模型更危险’,而是‘谁在控制输出边界’这件事,第一次从厂商后台,落到了用户终端的命令行里。
接下来几天,你会看到更多人把 Heretic 接进自己的笔记工具、本地知识库,甚至嵌入会议纪要生成流程——不是为了突破底线,而是为了确认底线究竟画在哪里。