📡 X 信号

LLM记忆越强，越难模拟真实用户行为

@NickATomlin 1.4万浏览 · 188 喜欢 · 31 转推 · 110 收藏 AI认知科学人机交互

新论文！大语言模型的记忆能力持续提升，但这反而让它们作为用户模拟器时表现更差。如果我们希望构建能模拟真实学生等角色的模型，以训练聊天机器人成为更优秀的教师，那么这些模型就需要具备像人类一样的“遗忘”能力 📄：

为比较人类与语言模型的记忆表现，我们设计了一套包含 10 项记忆任务的评测集，涵盖经典工作记忆测试（例如“记住以下一串数字”），也包括更开放的任务（例如“学习这张地图并回答相关问题”）。

我们发现，在所有任务中，语言模型均达到天花板水平（例如，能完美记住 20 位数字，且零错误），即使我们明确提示它们模仿人类有限的工作记忆能力。这一趋势在多种模型和多种提示策略下均保持一致。

由于仅靠提示无法有效模拟人类记忆，我们还提出了一种名为 COMPACTOR 的方法：由一个 LLM 智能体向键值对形式的记忆存储器写入信息。我们发现，该方法能带来更接近人类的记忆行为：

最后，我们提供了初步证据，表明具备更类人记忆能力的用户模拟器更具实用性。具体而言，我们发现最类人的模型，更能准确预测人类最容易理解与记住的 LLM 输出内容：

本工作由王启涵、@michahu8、Brian Dillon 和 @tallinzen 共同完成！我们非常期待继续挖掘认知科学/语言学中的思想，并将其用于改进用户模拟器——从而训练出能与真实人类更高效协作的模型。

@henrytdowling 是的，您说得完全正确！我们当前考察的是相对简单的任务（例如记住一串 20 个数字，或阅读一篇 600 词的短文并回答问题），因此 LLM 表现优于人类；若换成真正挑战 LLM 记忆极限的极复杂任务，我们可能会观察到不同的趋势。

@HaokunLiu5280 您好！关于第 (1) 点：我们提出的 COMPACTOR 模型是一种结构化遗忘方法，但这仅是初步尝试，要实现真正类人的遗忘行为，还有大量工作亟待开展。

@NishantBalepur 哦，这个我之前完全没有想过，但确实是个非常有趣的想法！

本文由 AI 翻译自英文原帖，技术名词保留英文。

📬 订阅 AI Pulse