📡 X 信号

合成人格预训练（SPP）：从首个token开始对齐

@jkminder 2.4万浏览 · 240 喜欢 · 34 转推 · 167 收藏 AI安全对齐

新博客发布！合成人格预训练（SPP）：从首个token开始对齐。当前对齐方法较浅层——预训练后附加的价值观容易被绕过。为解决此问题，研究者将目标人格直接写入预训练数据。结果尚属早期，但团队非常兴奋。

人格选择模型认为：后训练阶段仅从预训练已固化的人格中挑选，无法构建新人格。因此，若预训练语料质量差，再强的后训练也无法补救。

研究者将基于价值宪章（value constitution）的道德反思附加到10%的预训练文档末尾。有害文档后附反思，指出错处及原因；良性文档后附反思，说明其合理性。模型由此学习道德推理，而非仅机械匹配拒绝响应。

使用SPP方法，在Olmo3预训练混合数据的100B token上训练一个1.7B参数模型，发现“从首个token开始对齐”产生最安全的模型。该结果与Geodes Research和SafeLM的研究高度一致。

研究者提出“人格绑定问题”：后训练不会自动继承预训练阶段习得的价值观。但若让后训练数据更贴近道德反思的风格与内容，价值观便能跨越预训练与后训练之间的分布鸿沟实现泛化。

通过保留特定道德价值观的后训练数据（即对这些价值观进行过滤），验证人格绑定效果。SPP模型在经价值观过滤的后训练后，仍能正确援引被过滤的价值观；而未加入反思的预训练模型则无此表现。

其他发现包括：反思与后训练数据的分布对齐程度影响极大；过滤有毒数据反而降低模型安全性；随机位置插入反思优于仅置于文档末尾；第一人称反思优于第三人称；从首个token开始插入优于中段插入。

团队已持续开展此项工作，下一步计划扩展至3B参数/500B token及更大规模（Apertus👀）。感谢共同一作ragghhavvv、Vitya_Vitalich，以及cervisiarius。研究刚起步，欢迎反馈。

📬 订阅 AI Pulse