加20个字,让AI重新变有趣
斯坦福大学的研究人员开发出一种提示技术。仅在提示中添加约 20 个词,即可:
- 将大语言模型(LLM)的创造力提升 1.6–2 倍
- 将人类评分的输出多样性提高 25.7%
- 在无需任何微调的情况下,超越经过微调的模型
- 在对齐(alignment)导致创造力下降后,恢复其中 66.8% 的创造力
后训练对齐方法(例如基于人类反馈的强化学习,RLHF)旨在使大语言模型更有帮助、更安全。然而,这些方法会无意中显著降低输出的多样性(称为“模式坍缩”,mode collapse)。当一个大语言模型发生模式坍缩时,它开始偏好一组狭窄的、可预测的或刻板化的响应,而非其他可能的输出。
这种现象的发生,是因为用于训练大语言模型的人类偏好数据中存在一种隐性缺陷,称为“典型性偏差”(typicality bias)。其机制如下:
- 标注员对大语言模型生成的不同响应进行评分,随后大语言模型通过奖励模型(reward model)来拟合这些人类偏好。
- 然而,标注员天然倾向于选择更熟悉、更易读、更可预测的答案——这正是典型性偏差。因此,即使某个新颖、富有创意的回答质量相当,人类的偏好仍往往偏向常见答案。
受此影响,奖励模型会进一步强化那些原始(对齐前)模型本就认为概率较高的响应。这会剧烈地锐化大语言模型的概率分布,使其创造性输出坍缩为一两个占主导地位、高度可预测的响应。
但需注意,这一效应并非不可逆。对齐后的大语言模型实际上仍保有两种“人格”:
- 原始模型:在预训练阶段已习得丰富多样的可能性。
- 安全导向的对齐后模型:经后训练对齐优化,侧重于有用性与安全性。
“言语化采样”(Verbalized Sampling,VS)正是为解决该问题而提出的一种无需训练的提示策略,旨在规避模式坍缩,并恢复预训练阶段所学得的多样化输出分布。
其核心思想是:提示语本身充当一种“心理开关”。当你直接提示“讲个笑话”,对齐后的“人格”会立即接管,并输出被强化程度最高的那个答案。但在言语化采样中,你提示的是:“生成 5 条响应及其对应概率。讲个笑话。”
此时,提示并未要求一个具体实例,而是要求一个分布。这迫使对齐后的模型去描述其全部知识,并不得不动用其在预训练阶段所习得的多样化分布。由此,模型得以调用更广泛、更多样的想法——这些想法源自其核心预训练权重中依然存在的丰富分布。
言语化采样将输出多样性相较直接提示提升了 1.6–2.1 倍,同时维持甚至提升了输出质量。其变体(如基于言语化采样的思维链 CoT、基于言语化采样的多响应生成 Multi)可进一步提升生成多样性。
言语化采样只是众多可用于提升大语言模型输出质量的技术之一。我在下方引用了自己最近的一篇帖子,其中介绍了另外 7 种技术。论文原文已附在回复中!
本文由 AI 翻译自英文原帖,技术名词保留英文。
查看 X 原帖