前沿大模型在事实核查上为什么会有分歧

Question

前沿大模型在事实核查上为什么会有分歧

Accepted Answer

前沿大模型在事实核查任务上出现分歧，并非偶然现象，而是反映了当前模型构建逻辑、训练数据、使用方式和评估标准等层面的系统性差异。知识库中的多篇报道从不同角度揭示了这一现象背后的深层原因。

首先，不同模型的训练数据来源和时效性存在根本差异，导致它们对同一事实的掌握程度不一致。例如，DeepSeek V4 Pro虽然参数量高达1.6万亿，但在知识类测试中仍落后顶尖闭源模型3至6个月 [9]，这意味着它可能缺少某些近期发生的事实信息。而像MiniMax M3模型支持100万token的上下文窗口 [10]，能一次性处理更长的文档，但在事实判断上仍可能因训练数据覆盖范围不同而给出不同答案。此外，有报道指出，即便是顶尖大模型也在真实世界事实核查任务中给出不同答案 [1]，这种分歧首先源于它们各自“学到了”不同的世界知识。

其次，大模型的构建并非仅靠算法，而是数据、评估、系统等五个环节的协同结果 [3]。不同开发者在这些环节上的选择各异——有的侧重推理能力，有的侧重知识覆盖，有的则强化工具调用——导致模型在处理同一事实时，其内部权重和逻辑链路截然不同。例如，一个用AMD硬件训练的8B模型在数学任务上表现接近更大模型 [18]，但其知识性事实判断可能不如同等规模经大量文本预训练的模型。这种基础能力的差异直接造成事实核查结果不一。

第三，模型外围的“脚手架”设计，包括提示词结构、记忆和检索机制，也会显著影响事实输出的准确性和一致性。斯坦福大学将Meta-Harness视为可配置工程系统 [7]，说明模型的行为很大程度上依赖于外部调用方式。a16z创始人公开的系统提示词要求模型反复核查事实、分步推理，并明确“不知道就说不知道” [5]，这种指令能减少虚构细节，但并非所有用户或默认设置都采用类似策略。用户也发现，即便使用同一大模型，反复调试提示词才能获得可落地结果 [16]，说明模型本身的能力并不能自动保证事实核查的一致。

第四，模型的使用方式和经济激励也间接影响了事实核查的可靠性。当前许多前沿大模型的API定价远低于真实推理成本，依赖风投补贴 [2]，这使得厂商在推出服务时可能更注重吸引用户而非确保事实准确性。同时，用户可以通过OpenRouter等平台免费调用23个模型 [19]，但不同模型的服务部署、量化版本（如2-bit量化 [4]）或本地推理引擎各异，这些工程因素会导致同一模型在不同运行环境下对事实的响应差异。例如，在128GB内存的MacBook上本地跑284B参数模型，生成速度约26.68 token/秒 [4]，但本地模型与云端模型的事实判断可能因量化精度而不同。

最后，前沿模型本身存在一种“能力强不等于好用”的悖论 [16]，即模型在通用任务上表现优异，但面对具体事实时仍需反复验证。更有趣的是，一个7B小模型通过强化学习可分配子任务给GPT-5等大模型，并在多个硬核基准上超过单个前沿模型 [8]，这表明即使多个大模型各自判断不一致，通过组合调度仍能提升整体事实查核效果。这从侧面说明，分歧本身是当前大模型生态的常态，而如何有效利用这些分歧是实际应用中的关键课题。

📬 订阅 AI Pulse