📡 X 信号

AI忘东西不是因为改太多，而是方向错了

@itarutomy 1.4万浏览 · 226 喜欢 · 44 转推 · 152 收藏 LLM破滅的忘却

当对大语言模型（LLM）在多个任务上依次进行微调时，会出现先前任务性能下降的“灾难性遗忘”现象。一篇论文首次从几何学角度对“为何会遗忘”进行了定量刻画（https://arxiv[.]org/abs/2605.09608）。直觉上，人们常认为“权重改变越大，越容易遗忘”，但仅靠改变量大小无法充分解释该现象。

本研究的核心思想是用数学方式刻画“更新的方向”。具体而言，将任务学习过程中模型权重的变化方向建模为协方差矩阵（该矩阵表征更新所集中的维度分布），并指出：当新任务的更新方向与当前模型的“几何结构”发生偏离时，遗忘即会发生。这种偏离被命名为 Geometry Conflict（几何学冲突）。

使用 Spearman 秩相关系数（衡量预测一致性的指标）进行对比：仅用更新量大小预测遗忘时，ρs = 0.48；而采用 Geometry Conflict 进行预测时，ρs 提升至 0.59，表明“方向”比“大小”与遗忘具有更强的关联性。基于该发现所提出的方法是 GCWM（Geometry-Conflict Wasserstein Merging）：一种无需过往数据即可融合各任务权重更新的技术。它逐层判断“该层的更新是否与模型当前结构相容”，仅对相容性差的层施加校正。

在 Qwen3 0.6B 至 14B 全尺度模型上，GCWM 在所有无需数据的方法中取得了最高性能。遗忘的关键不在于“改变多少”，而在于“朝哪个方向改变”。将遗忘以几何学方式形式化后，其本身即可作为校正的控制信号。

本文由 AI 翻译自英文原帖，技术名词保留英文。

查看 X 原帖

📬 订阅 AI Pulse