AI Pulse

基础大模型连临时想个解法都做不到

一项研究测试了十几款未经额外训练的基础大语言模型在数学问题上的表现。题目不考计算速度,也不考记忆套路,专挑需要临时拆解、重组逻辑关系的题。结果全军覆没。

失败原因不是算得不够快,而是这些模型压根没有构建新推理链的能力。它们无法在未见过的结构中生成有效的中间步骤——这正是早期一批研究者对“推理”的操作性定义。

而在2024年,主流测试用的是微调后模型、带思维链提示、甚至人工筛选过的样本。那种方法被比作“用职业选手的录像判断业余球员的潜力”。

2024年时,公开说“基础大模型没有流体智力”几乎等于学术自杀。这个对“推理”的操作性定义本身,直到2025年才成为数学泛化评测的默认协议。这条路的终点未必是“造出会推理的AI”,而可能是“我们终于承认:推理这件事,原来有不可绕过的门槛”。

📎 阅读原文 · @fchollet on 𝕏