本周十大AI论文：长上下文、自演化代理与RAG新范式

📅 2026 年 4 月 27 日 📖 约 19 分钟 @dair_ai on 𝕏 AI研究工程

本周顶级AI论文（4月19日至4月26日）

1. DeepSeek V4 DeepSeek V4是首个从头开始以百万token上下文为默认设置而非附加功能构建的开放模型系列。此次发布包括DeepSeek-V4-Pro（总计1.6T / 活跃49B）和DeepSeek-V4-Flash（总计284B / 活跃13B），两者均原生训练于1M上下文长度。技术报告详细介绍了混合注意力架构、新的训练稳定性技术以及领域专家后训练流程，这些共同将开源前沿推向了更接近GPT-5.2和Gemini 3.0-Pro的水平，而成本仅为其一小部分。混合注意力机制（CSA和HCA）：DeepSeek V4用压缩稀疏注意力（CSA）和重度压缩注意力（HCA）取代了单一的注意力堆栈。CSA压缩KV条目，然后应用带有滑动窗口KV的DeepSeek稀疏注意力来处理细粒度局部依赖关系。HCA则对极端上下文层的KV进行重度压缩，使模型在1M token规模下保持可行性。万亿参数规模的训练稳定性：团队引入了两项技术，显著减少了损失尖峰。预期路由将主干网络和路由器更新解耦，使用当前权重处理特征，但使用历史权重处理路由索引。SwiGLU裁剪限制了SwiGLU的线性分量和门控分量，以稳定整个预训练过程中的激活值。领域专家后训练：DeepSeek并非采用一个大型混合强化学习阶段，而是为每个领域训练一个独立的专家模型。每个专家在领域数据上经历监督微调，然后使用领域特定的奖励模型进行组相对策略优化（GRPO）强化学习。这些专家被合并到最终模型中，在恢复能力的同时不会破坏通用模型的稳定性。以开源成本实现接近前沿的性能：DeepSeek-V4-Pro-Max在标准推理基准测试上击败了GPT-5.2和Gemini 3.0-Pro，仅落后于GPT-5.4和Gemini 3.1-Pro，实际上落后封闭前沿大约3到6个月。对于需要长上下文推理但不愿承担封闭API定价的开源权重团队来说，这是本周最重要的发布。论文 | 推文

2. Autogenesis 静态智能体很快就会过时。随着部署环境的变化和新工具的出现，能够安全地自我重写的智能体才能生存下来。本文介绍了Autogenesis，一种自我进化的智能体协议，其中智能体识别自身能力差距，生成候选改进方案，通过测试进行验证，并将有效的内容整合回自身的操作框架中。无需重新训练，也无需人工修补，只是一个持续的评估、提议、验证和整合循环。双层协议设计：Autogenesis将资源子层协议层（RSPL）与自我进化协议层（SEPL）分开。RSPL标准化了对提示、工具、环境和记忆的访问；SEPL则在可进化变量上运行一个生成、反思、改进、评估、提交的循环。这种分离使得核心能力注册保持稳定，而进化在其之上进行。可审计的谱系和回滚：改进提交时带有版本谱系、状态访问控制和可逆的生命周期操作。该协议将每一次自我修改视为一等制品，可以进行审查、复现或回滚，这使得自我改进足够安全，可以部署。多智能体应用：Autogenesis在具有规划者、执行者和分析者角色的多智能体系统上得到了演示。智能体使用共享协议进化自己的提示、工具包装器和协调例程，表明这种抽象足够通用，可以跨角色使用，而非局限于单一智能体类型。更广泛的自我改进浪潮的一部分：该论文与Meta-Harness和Darwin Gödel Machine并列，作为实现自我修改的具体框架。它们共同标志着从"使用工具的智能体"向"编辑自身工具的智能体"的转变。论文 | 推文

3. Attention to Mamba 苹果公司提出了一种两阶段方案，用于从Transformer向Mamba进行跨架构蒸馏。朴素蒸馏会导致教师模型性能崩溃，因为Mamba学生模型无法直接模仿softmax注意力。解决方案是首先通过核适配将Transformer蒸馏成一个线性化注意力的学生模型，然后将该学生模型转移到一个没有注意力模块的纯Mamba模型中。在一个使用10B token训练的1B模型上，Mamba学生模型达到了14.11的困惑度，而Pythia-1B教师模型为13.86，在实现线性时间推理成本的同时，质量几乎相当。阶段一，从softmax到线性注意力：第一阶段用Hedgehog风格的线性化注意力学生模型取代softmax注意力，使用一个可学习的核特征映射，在去除softmax非线性的同时保留原始注意力分数。这产生了一个严格线性复杂度的中间模型，且与教师模型保持接近。阶段二，从线性注意力到Mamba：第二阶段将线性化学生模型转移到一个HedgeMamba模块中，这是一种混合状态空间模型架构，它重用了已学习的线性注意力参数并添加了状态空间组件。由于两种公式在数学上相关而不仅仅是结构相似，因此这种转换保持了质量。长上下文下的质量：在下游基准测试中，蒸馏后的Mamba达到了教师模型准确率的74.1%，该方案可推广到1B和3B规模。关键的实际优势在于，在序列混合模块上保持Transformer级别的质量，同时推理时转向线性时间。部署状态空间模型的更廉价路径：如果训练好的Transformer可以被可靠地转换为状态空间模型而无需从头重新训练，那么整个开源权重生态系统在长上下文场景下的服务成本将变得更低。这是一种看似不起眼但实际意义重大的基础设施工作。论文 | 推文

4. Skill-RAG 大多数RAG系统对每个查询都进行检索，无论模型是否需要帮助。当模型已经知道答案时，这是浪费；而当模型不知道时，往往又为时已晚。本文介绍了Skill-RAG，一种故障状态感知的检索系统，它使用隐藏状态探测来检测大语言模型何时接近知识故障，然后将查询路由到与知识缺口相匹配的专门检索策略。隐藏状态探测作为检索触发器：Skill-RAG在大语言模型的隐藏表示上训练一个轻量级探测器，用于预测模型是否即将在查询上失败。只有超过探测器故障阈值的查询才会触发检索，这减少了不必要的搜索调用，同时为确实需要帮助的情况保留了答案。技能匹配的检索策略：不同的故障模式（事实回忆、多跳推理、时间知识）被路由到不同的检索"技能"，而非单一的通用检索器。每种技能都被视为智能体可以选择的独立组件，这与将RAG转变为可组合原语集合的更广泛趋势相呼应。跨基准测试的一致提升：在HotpotQA、Natural Questions和TriviaQA上的评估显示，Skill-RAG在效率和准确性上都优于统一的RAG基线。效率故事与准确性同样重要：当系统跳过模型已能回答的问题的检索时，每次查询的检索成本显著下降。 RAG设计方式的转变：这项工作强化了RAG的发展方向：从单一的流水线转变为智能体可选择的检索技能套件。知道何时检索以及运行何种检索正成为核心设计问题。论文 | 推文

5. 自生成世界知识我们距离能够自生成世界知识的智能体还有多远？本文提出了一种基于结果的奖励，用于衡量智能体自生成的世界知识实际提升其任务成功率的程度，然后利用该信号进行训练，并在推理时移除外部指导。结果是一个14B模型在网页导航上超越了Gemini-2.5-Flash，并在WebVoyager和WebWalker基准测试上获得了+20%的提升。基于结果的知识奖励：奖励并非根据人工标注的参考标准来评分知识，而是看生成的知识在智能体使用时是否能可衡量地提升任务成功率。这使得系统无需外部预言机就能学习哪些内部生成的事实值得保留。多阶段训练流程：该方法将基于指令和轨迹数据集的监督微调与强化拒绝采样相结合，其中最佳轨迹（由结果奖励排序）用于更新策略。训练循环在生成、奖励评分和拒绝采样之间迭代，直到模型内化有效的知识使用行为。推理时的知识增强执行：在推理时，外部环境反馈循环被移除。智能体自生成世界知识，利用它进行规划并执行，过程中没有任何人工或奖励信号。这使得该方法不仅可衡量，而且可部署。环境设计取代标注：如果智能体能够通过探索世界而非等待人工标注奖励来可靠地自我改进，那么扩展智能体系统的瓶颈将从数据整理转向环境设计。这与该领域的更广泛方向一致，并为实践者提供了一个具体的可遵循方案。论文 | 推文

6. 自进化逻辑综合像ABC这样的EDA工具几十年来一直由人类手工调优。英伟达公司展示了它们可以自我进化。这项工作介绍了首个自进化逻辑综合框架，一个多智能体大语言模型系统，它自主地优化整个ABC代码库，针对标准基准电路生成并测试候选优化序列，然后将改进合并回基础工具中。无需人类工程师介入。真实EDA工具链的多智能体优化：该框架将专门的智能体分配给探索、综合和自我审查任务。智能体直接读取和修改ABC源代码，提出优化流程，并针对EPFL、IWLS和VTR等基准电路运行这些流程，通过流水线注入三轮人类领域知识。相对于手工调优基线的可测量改进：进化后的ABC变体在基准测试套件上产生了比手工调优参考更好的面积、延迟和开关指标，并且这些改进在敏感性分析下依然保持。这是对半导体行业依赖的工具带来的真实增益。代码库级别的进化，而不仅仅是提示调优：智能体编辑的是ABC代码库本身，而不仅仅是配置层。这是对自我改进智能体线索的有意义扩展：改进的单位是真实的生产代码，而非提示或策略。领域工具的可推广蓝图：如果智能体可以在无需人工工程的情况下进化一个基础半导体工具，那么同样的模式可以推广到任何大型、特定领域的代码库。这是对自我改进智能体线索的具体扩展，应用于芯片生产所依赖的基础设施。论文 | 推文

7. 无状态决策记忆目前大多数有趣的AI智能体论文都关注能力。这篇是关于基础架构的，而且它可能比看起来更重要。有状态智能体无法水平扩展。当你需要数千个并发智能体实例跨容器运行时，持久的每智能体状态就成了瓶颈。本文提出使用来自分布式系统的事件溯源原则，用不可变的决策日志取代活动记忆。决策日志取代实时状态：每个智能体决策、工具调用和观察都被追加到一个不可变的事件日志中。任何实例都可以通过按需重放日志来重建上下文，这将决策逻辑与存储解耦，并允许智能体在任何地方启动而无需预热。设计上的企业级属性：与仅摘要、SAM和向量记忆基线相比，决策过程记忆（DPM）是唯一支持仅追加日志、无状态投影、可审计推理轨迹、仅从日志重放、多租户隔离以及每事件溯源的架构。这些都是在受监管的企业部署中的硬性要求。紧预算下的性能优势：在受限记忆预算下的FRP、RCS和EDA评估中，DPM显著优于仅摘要记忆，并且随着预算收紧，差距进一步扩大。在宽松预算下，各种方法趋于一致，一旦规模不再是约束，这是预期的模式。受监管部署的蓝图：对于在金融、医疗或其他合规要求严格的行业中部署智能体的团队来说，这篇论文读起来像是一份实用规范。它将现有的分布式系统纪律映射到智能体记忆上，而不是发明一个新类别，这就是它很可能经得起时间考验的原因。论文 | 推文

8. 将会有深度学习科学理论一篇立场论文认为，一个真正的深度学习科学理论已经在"学习力学"的框架下初具雏形。作者们指出了五个汇聚的研究方向（可解的理想化模型、易处理的数学极限、简单的宏观定律、超参数理论以及跨系统的普适行为），它们共享一个共同特征：描述训练动态、针对粗粒度聚合统计量，并致力于可证伪的定量预测。该框架反驳了关于深度学习能否拥有基础理论的怀疑论，并将学习力学定位为机制可解释性的补充，而非竞争对手。论文 | 推文

9. MASS-RAG 大多数现实世界中的RAG失败源于检索到技术上相关但上下文无用的文档，然后迫使单个模型去调和它们。MASS-RAG是一个用于检索增强生成的多智能体合成框架，其中专门的智能体处理不同的角色：检索候选文档、评估它们与查询的实际相关性，以及从实际有贡献的证据中合成最终答案。责任不是由一个模型包揽，而是在协调的评估者之间分解，这符合该领域向深度研究智能体发展的方向。论文 | 推文

10. 多智能体大语言模型中的多样性崩溃每个多智能体系统的宣传都假设智能体会探索不同的解决方案，但本文表明，随着时间的推移，它们会收敛到几乎相同的输出，即使使用不同的架构和不同的初始提示。作者称之为多样性崩溃。原因是结构耦合：共享的上下文、共享的任务描述以及相互反馈将每个智能体拉向同一个吸引子。他们使用Vendi分数等指标进行了正式测量，同质化是真实存在的。实际后果是，用于头脑风暴、假设生成和构思的多智能体设置，其价值可能远低于预期。论文 | 推文

📎 阅读原文 · @dair_ai on 𝕏

📬 订阅 AI Pulse