AI Pulse
📡 X 信号

谷歌新论文让通用大模型解数学题正确率从10%跳到70%

又一篇来自 Google 的优秀论文。该研究显示,通用大语言模型(LLM)可通过规划证明并逐条验证步骤来求解形式化数学问题。通用 LLM 在该任务上的整体性能由此从不足 10% 提升至 70%。

当被要求一次性写出完整的形式化证明时,通用 LLM 表现极差;但若先进行规划、将工作拆分为更小的命题、复用已证命题,并从 Lean 的反馈中学习,则其能力显著增强。

论文指出,这一短板并非仅源于模型自身的数学能力不足,更关键的是其使用方式——缺乏与验证器(verifier)的结构化交互。

核心思想在于:模型并不试图一次性写出一个庞大而完美的证明,因为这在长而复杂的问题上通常会失败。相反,LEAP 将证明存储为一个由目标与子目标构成的图结构,从而可复用已有引理,避免每次重复发现。

作者在 Putnam 2025 和一个新建的 Lean 基准测试集(含 60 道 IMO 风格题目)上测试了 LEAP。在该基准上,普通的一次性证明生成方法表现非常糟糕。LEAP 成功解决了全部 12 道 Putnam 2025 题目,并将通用 LLM 在 Lean IMO 基准上的性能从不足 10% 提升至 70%。

---- 链接:arxiv.org/abs/2606.03303
标题:“LEAP:借助智能体框架赋能大语言模型进行形式化数学”

本文由 AI 翻译自英文原帖,技术名词保留英文。

查看 X 原帖

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部