前沿大模型在事实核查任务上出现分歧,并非偶然现象,而是反映了当前模型构建逻辑、训练数据、使用方式和评估标准等层面的系统性差异。知识库中的多篇报道从不同角度揭示了这一现象背后的深层原因。

首先,不同模型的训练数据来源和时效性存在根本差异,导致它们对同一事实的掌握程度不一致。例如,DeepSeek V4 Pro虽然参数量高达1.6万亿,但在知识类测试中仍落后顶尖闭源模型3至6个月 [9],这意味着它可能缺少某些近期发生的事实信息。而像MiniMax M3模型支持100万token的上下文窗口 [10],能一次性处理更长的文档,但在事实判断上仍可能因训练数据覆盖范围不同而给出不同答案。此外,有报道指出,即便是顶尖大模型也在真实世界事实核查任务中给出不同答案 [1],这种分歧首先源于它们各自“学到了”不同的世界知识。

其次,大模型的构建并非仅靠算法,而是数据、评估、系统等五个环节的协同结果 [3]。不同开发者在这些环节上的选择各异——有的侧重推理能力,有的侧重知识覆盖,有的则强化工具调用——导致模型在处理同一事实时,其内部权重和逻辑链路截然不同。例如,一个用AMD硬件训练的8B模型在数学任务上表现接近更大模型 [18],但其知识性事实判断可能不如同等规模经大量文本预训练的模型。这种基础能力的差异直接造成事实核查结果不一。

第三,模型外围的“脚手架”设计,包括提示词结构、记忆和检索机制,也会显著影响事实输出的准确性和一致性。斯坦福大学将Meta-Harness视为可配置工程系统 [7],说明模型的行为很大程度上依赖于外部调用方式。a16z创始人公开的系统提示词要求模型反复核查事实、分步推理,并明确“不知道就说不知道” [5],这种指令能减少虚构细节,但并非所有用户或默认设置都采用类似策略。用户也发现,即便使用同一大模型,反复调试提示词才能获得可落地结果 [16],说明模型本身的能力并不能自动保证事实核查的一致。

第四,模型的使用方式和经济激励也间接影响了事实核查的可靠性。当前许多前沿大模型的API定价远低于真实推理成本,依赖风投补贴 [2],这使得厂商在推出服务时可能更注重吸引用户而非确保事实准确性。同时,用户可以通过OpenRouter等平台免费调用23个模型 [19],但不同模型的服务部署、量化版本(如2-bit量化 [4])或本地推理引擎各异,这些工程因素会导致同一模型在不同运行环境下对事实的响应差异。例如,在128GB内存的MacBook上本地跑284B参数模型,生成速度约26.68 token/秒 [4],但本地模型与云端模型的事实判断可能因量化精度而不同。

最后,前沿模型本身存在一种“能力强不等于好用”的悖论 [16],即模型在通用任务上表现优异,但面对具体事实时仍需反复验证。更有趣的是,一个7B小模型通过强化学习可分配子任务给GPT-5等大模型,并在多个硬核基准上超过单个前沿模型 [8],这表明即使多个大模型各自判断不一致,通过组合调度仍能提升整体事实查核效果。这从侧面说明,分歧本身是当前大模型生态的常态,而如何有效利用这些分歧是实际应用中的关键课题。