📡 X 信号

谷歌新论文让通用大模型解数学题正确率从10%跳到70%

@rohanpaul_ai 8.6万浏览 · 278 喜欢 · 67 转推 · 204 收藏 RESEARCHAI

又一篇来自 Google 的优秀论文。该研究显示，通用大语言模型（LLM）可通过规划证明并逐条验证步骤来求解形式化数学问题。通用 LLM 在该任务上的整体性能由此从不足 10% 提升至 70%。

当被要求一次性写出完整的形式化证明时，通用 LLM 表现极差；但若先进行规划、将工作拆分为更小的命题、复用已证命题，并从 Lean 的反馈中学习，则其能力显著增强。

论文指出，这一短板并非仅源于模型自身的数学能力不足，更关键的是其使用方式——缺乏与验证器（verifier）的结构化交互。

核心思想在于：模型并不试图一次性写出一个庞大而完美的证明，因为这在长而复杂的问题上通常会失败。相反，LEAP 将证明存储为一个由目标与子目标构成的图结构，从而可复用已有引理，避免每次重复发现。

作者在 Putnam 2025 和一个新建的 Lean 基准测试集（含 60 道 IMO 风格题目）上测试了 LEAP。在该基准上，普通的一次性证明生成方法表现非常糟糕。LEAP 成功解决了全部 12 道 Putnam 2025 题目，并将通用 LLM 在 Lean IMO 基准上的性能从不足 10% 提升至 70%。

---- 链接：arxiv.org/abs/2606.03303
标题：“LEAP：借助智能体框架赋能大语言模型进行形式化数学”

本文由 AI 翻译自英文原帖，技术名词保留英文。

查看 X 原帖

📬 订阅 AI Pulse