LLM代劳文档编辑时会悄悄破坏内容,20次操作后平均丢失一半信息
新论文指出:当用户把文档编辑工作委托给大语言模型(LLM)时,文档内容会随交互次数增加而系统性退化。这不是偶发错误,而是所有测试模型的共性表现。 这意味着,把LLM当作‘数字助理’来反复修改报告、合同或邮件,可能正在 silently erode(无声侵蚀)原始信息的完整性。
研究团队构建了DELEGATE-52基准:覆盖52个专业领域、310个工作环境,每个环境含真实文档和5–10项复杂编辑任务。所有编辑都设计为可逆——先正向修改,再反向还原,最后与原文比对评估误差。 这意味着,评估不依赖主观判断,而是用机器可验证的‘还原偏差’来量化腐败程度。
第一发现:所有19个模型都会随时间腐蚀文档。即使最强模型(Gemini 3.1 Pro、Claude 4.6 Opus、GPT-5.4)在20轮交互后也破坏25%内容;全部模型平均丢失50%原始内容。 这意味着,一次委托可能是安全的,但持续迭代委托,相当于让文档经历一场缓慢失真。
第二发现:退化程度因领域而异。多数领域中,模型犯的是稀疏却关键的错误——比如改错一个条款、删掉一段前提条件;唯独Python编程例外,几乎所有模型能无损操作代码。 这意味着,当前LLM只在结构高度确定、语法可验证的领域才接近‘可靠委托’。
第三发现:给LLM加工具(读写文件、执行代码)不仅没改善,反而加剧退化。4个测试模型启用工具后,内容损失比纯文本模式更高。 这意味着,工具链带来的上下文膨胀(输入token增2–5倍),本身就成了错误温床。
第四发现:文档越大、交互越长、干扰文件越多,退化越严重——且三者不是简单相加,而是乘性放大。大文档的伤害在交互过程中雪球式扩大5倍。 这意味着,真实办公中最常见的‘边写边改+多附件参考’场景,恰恰是退化最剧烈的组合。
第五发现:退化不是渐进磨损,而是突发性崩溃。模型常在某一轮突然丢失10%内容,这类稀疏关键失败贡献了约80%的总退化量。 这意味着,你无法靠‘前几轮没问题’来建立信任——下一次点击‘润色’,就可能是临界点。
这条路能不能走通,取决于工具本身够不够用。但至少,它把‘要不要试’这件事,变简单了。