合成人格预训练(SPP):从首个token开始对齐
新博客发布!合成人格预训练(SPP):从首个token开始对齐。当前对齐方法较浅层——预训练后附加的价值观容易被绕过。为解决此问题,研究者将目标人格直接写入预训练数据。结果尚属早期,但团队非常兴奋。
人格选择模型认为:后训练阶段仅从预训练已固化的人格中挑选,无法构建新人格。因此,若预训练语料质量差,再强的后训练也无法补救。
研究者将基于价值宪章(value constitution)的道德反思附加到10%的预训练文档末尾。有害文档后附反思,指出错处及原因;良性文档后附反思,说明其合理性。模型由此学习道德推理,而非仅机械匹配拒绝响应。
使用SPP方法,在Olmo3预训练混合数据的100B token上训练一个1.7B参数模型,发现“从首个token开始对齐”产生最安全的模型。该结果与Geodes Research和SafeLM的研究高度一致。
研究者提出“人格绑定问题”:后训练不会自动继承预训练阶段习得的价值观。但若让后训练数据更贴近道德反思的风格与内容,价值观便能跨越预训练与后训练之间的分布鸿沟实现泛化。
通过保留特定道德价值观的后训练数据(即对这些价值观进行过滤),验证人格绑定效果。SPP模型在经价值观过滤的后训练后,仍能正确援引被过滤的价值观;而未加入反思的预训练模型则无此表现。
其他发现包括:反思与后训练数据的分布对齐程度影响极大;过滤有毒数据反而降低模型安全性;随机位置插入反思优于仅置于文档末尾;第一人称反思优于第三人称;从首个token开始插入优于中段插入。
团队已持续开展此项工作,下一步计划扩展至3B参数/500B token及更大规模(Apertus👀)。感谢共同一作ragghhavvv、Vitya_Vitalich,以及cervisiarius。研究刚起步,欢迎反馈。