📡 X 信号

加20个字，让AI重新变有趣

@_avichawla 9.8K 浏览 · 96 喜欢 · 14 转推 · 130 收藏 LLMprompting

斯坦福大学的研究人员开发出一种提示技术。仅在提示中添加约 20 个词，即可：
- 将大语言模型（LLM）的创造力提升 1.6–2 倍
- 将人类评分的输出多样性提高 25.7%
- 在无需任何微调的情况下，超越经过微调的模型
- 在对齐（alignment）导致创造力下降后，恢复其中 66.8% 的创造力

后训练对齐方法（例如基于人类反馈的强化学习，RLHF）旨在使大语言模型更有帮助、更安全。然而，这些方法会无意中显著降低输出的多样性（称为“模式坍缩”，mode collapse）。当一个大语言模型发生模式坍缩时，它开始偏好一组狭窄的、可预测的或刻板化的响应，而非其他可能的输出。

这种现象的发生，是因为用于训练大语言模型的人类偏好数据中存在一种隐性缺陷，称为“典型性偏差”（typicality bias）。其机制如下：
- 标注员对大语言模型生成的不同响应进行评分，随后大语言模型通过奖励模型（reward model）来拟合这些人类偏好。
- 然而，标注员天然倾向于选择更熟悉、更易读、更可预测的答案——这正是典型性偏差。因此，即使某个新颖、富有创意的回答质量相当，人类的偏好仍往往偏向常见答案。

受此影响，奖励模型会进一步强化那些原始（对齐前）模型本就认为概率较高的响应。这会剧烈地锐化大语言模型的概率分布，使其创造性输出坍缩为一两个占主导地位、高度可预测的响应。

但需注意，这一效应并非不可逆。对齐后的大语言模型实际上仍保有两种“人格”：
- 原始模型：在预训练阶段已习得丰富多样的可能性。
- 安全导向的对齐后模型：经后训练对齐优化，侧重于有用性与安全性。

“言语化采样”（Verbalized Sampling，VS）正是为解决该问题而提出的一种无需训练的提示策略，旨在规避模式坍缩，并恢复预训练阶段所学得的多样化输出分布。

其核心思想是：提示语本身充当一种“心理开关”。当你直接提示“讲个笑话”，对齐后的“人格”会立即接管，并输出被强化程度最高的那个答案。但在言语化采样中，你提示的是：“生成 5 条响应及其对应概率。讲个笑话。”

此时，提示并未要求一个具体实例，而是要求一个分布。这迫使对齐后的模型去描述其全部知识，并不得不动用其在预训练阶段所习得的多样化分布。由此，模型得以调用更广泛、更多样的想法——这些想法源自其核心预训练权重中依然存在的丰富分布。

言语化采样将输出多样性相较直接提示提升了 1.6–2.1 倍，同时维持甚至提升了输出质量。其变体（如基于言语化采样的思维链 CoT、基于言语化采样的多响应生成 Multi）可进一步提升生成多样性。

言语化采样只是众多可用于提升大语言模型输出质量的技术之一。我在下方引用了自己最近的一篇帖子，其中介绍了另外 7 种技术。论文原文已附在回复中！

本文由 AI 翻译自英文原帖，技术名词保留英文。

查看 X 原帖

📬 订阅 AI Pulse