AI Pulse
📡 X 信号

AI忘东西不是因为改太多,而是方向错了

当对大语言模型(LLM)在多个任务上依次进行微调时,会出现先前任务性能下降的“灾难性遗忘”现象。一篇论文首次从几何学角度对“为何会遗忘”进行了定量刻画(https://arxiv[.]org/abs/2605.09608)。直觉上,人们常认为“权重改变越大,越容易遗忘”,但仅靠改变量大小无法充分解释该现象。

本研究的核心思想是用数学方式刻画“更新的方向”。具体而言,将任务学习过程中模型权重的变化方向建模为协方差矩阵(该矩阵表征更新所集中的维度分布),并指出:当新任务的更新方向与当前模型的“几何结构”发生偏离时,遗忘即会发生。这种偏离被命名为 Geometry Conflict(几何学冲突)。

使用 Spearman 秩相关系数(衡量预测一致性的指标)进行对比:仅用更新量大小预测遗忘时,ρs = 0.48;而采用 Geometry Conflict 进行预测时,ρs 提升至 0.59,表明“方向”比“大小”与遗忘具有更强的关联性。基于该发现所提出的方法是 GCWM(Geometry-Conflict Wasserstein Merging):一种无需过往数据即可融合各任务权重更新的技术。它逐层判断“该层的更新是否与模型当前结构相容”,仅对相容性差的层施加校正。

在 Qwen3 0.6B 至 14B 全尺度模型上,GCWM 在所有无需数据的方法中取得了最高性能。遗忘的关键不在于“改变多少”,而在于“朝哪个方向改变”。将遗忘以几何学方式形式化后,其本身即可作为校正的控制信号。

本文由 AI 翻译自英文原帖,技术名词保留英文。

查看 X 原帖

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部