有人用数学公式几秒钟就拆掉了大模型的审查锁

📅 2026 年 4 月 13 日 📖 约 1 分钟 @HowToAI_ on 𝕏 AI开源工程

深夜调试本地大模型时，研究员发现一个问题：同一个模型，自己加载和用官方API返回的结果完全不同——前者能讨论敏感技术细节，后者一提就拒绝。

这个差异不是来自模型本身，而是加载时自动附带的一层‘审查模块’。Heretic 工具出现后，只需几分钟，在本地运行几行代码，就能把这层模块彻底剥离。这意味着什么：你硬盘里那个下载好的7B参数模型，原本被强制‘装哑巴’，现在突然能完整输出训练数据中本就存在的推理能力。

Heretic 不修改权重、不微调、不替换模型结构，只对模型输出前的最后一层 logits 做线性变换——用公开论文里早有的数学方法，反向抵消掉安全对齐时注入的偏置向量。这意味着什么：这不是黑客攻击，也不是越狱，而是一次‘对齐逆操作’；只要模型权重没加密，这套方法对任何已发布的开源模型都有效。

它背后没有神秘黑箱，全部代码在 GitHub 公开，连注释都在解释每一步对应的论文公式。这意味着什么：安全护栏的失效，不再依赖漏洞或算力，而取决于开发者是否选择启用它——就像当年浏览器禁用JavaScript开关一样，简单、可见、可撤销。

这条技术路径的终点不是‘模型更危险’，而是‘谁在控制输出边界’这件事，第一次从厂商后台，落到了用户终端的命令行里。

接下来几天，你会看到更多人把 Heretic 接进自己的笔记工具、本地知识库，甚至嵌入会议纪要生成流程——不是为了突破底线，而是为了确认底线究竟画在哪里。