AI Pulse
📡 X 信号

LLM记忆越强,越难模拟真实用户行为

新论文!大语言模型的记忆能力持续提升,但这反而让它们作为用户模拟器时表现更差。如果我们希望构建能模拟真实学生等角色的模型,以训练聊天机器人成为更优秀的教师,那么这些模型就需要具备像人类一样的“遗忘”能力 📄:

为比较人类与语言模型的记忆表现,我们设计了一套包含 10 项记忆任务的评测集,涵盖经典工作记忆测试(例如“记住以下一串数字”),也包括更开放的任务(例如“学习这张地图并回答相关问题”)。

我们发现,在所有任务中,语言模型均达到天花板水平(例如,能完美记住 20 位数字,且零错误),即使我们明确提示它们模仿人类有限的工作记忆能力。这一趋势在多种模型和多种提示策略下均保持一致。

由于仅靠提示无法有效模拟人类记忆,我们还提出了一种名为 COMPACTOR 的方法:由一个 LLM 智能体向键值对形式的记忆存储器写入信息。我们发现,该方法能带来更接近人类的记忆行为:

最后,我们提供了初步证据,表明具备更类人记忆能力的用户模拟器更具实用性。具体而言,我们发现最类人的模型,更能准确预测人类最容易理解与记住的 LLM 输出内容:

本工作由王启涵、@michahu8、Brian Dillon 和 @tallinzen 共同完成!我们非常期待继续挖掘认知科学/语言学中的思想,并将其用于改进用户模拟器——从而训练出能与真实人类更高效协作的模型。

@henrytdowling 是的,您说得完全正确!我们当前考察的是相对简单的任务(例如记住一串 20 个数字,或阅读一篇 600 词的短文并回答问题),因此 LLM 表现优于人类;若换成真正挑战 LLM 记忆极限的极复杂任务,我们可能会观察到不同的趋势。

@HaokunLiu5280 您好!关于第 (1) 点:我们提出的 COMPACTOR 模型是一种结构化遗忘方法,但这仅是初步尝试,要实现真正类人的遗忘行为,还有大量工作亟待开展。

@NishantBalepur 哦,这个我之前完全没有想过,但确实是个非常有趣的想法!

本文由 AI 翻译自英文原帖,技术名词保留英文。

查看 X 原帖

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部