查文档和代码,一个不知名AI工具竟击败了主流产品
如果你想用AI工具查公司文档或代码库,哪家最靠谱?一次200个真实问题的测试给出了答案:Falconer击败了Notion、Atlassian Rovo、Claude Code和Codex。
测试用了两个公开数据集。文档部分来自WixQA的6,221篇帮助中心文章和100个客服问题;代码部分来自apache/spark开源项目的代码库和100个技术问题。所有工具都断了网,只能靠内部检索——模拟的是企业内网场景。
## 核心结果:Falconer胜率领先 在文档测试中,Falconer对Notion的胜率是70.5%,对Rovo是88.4%,对Claude Code是52.6%,对Codex是62.8%。在代码测试中,对Notion是57.7%,对Rovo是97.1%,对Claude Code是56.1%,对Codex是74.2%。
Rovo在代码测试中被Falconer击败97.1%,但并不反映真实水平。因为apache/spark代码库托管在Bitbucket上,Rovo几乎读不到代码,它只回答了98个问题,答案中位长度只有228个字符——远低于其他工具。Rovo在这个测试里更像一个结构基线,不是旗鼓相当的对手。
## 测试方法:三个AI评委交叉验证 评分用了四个指标:忠实度(35%,答案是否正确)、有用性(35%,是否具备可操作性)、完整性(20%,信息召回比例)、相关性(10%,是否直奔主题)。每个对决由Claude Opus 4.8、GPT-5.5和Gemini 3.1 Pro三个前沿模型评判,A/B和B/A两种顺序各一次,每个问题得到6个判决以消除位置偏见。
努力水平方面:Falconer、Claude Code和Codex在文档测试中用中等思考,代码测试用高思考。Notion和Rovo未完全披露努力水平或模型版本,因此对比并非绝对等量。
## 速度对比:文档查询更快 文档测试中,Falconer生成完整答案的中位时间是18.5秒,是所有工具里最快的。代码测试中,除了Codex(72秒),其他工具都在39到45秒之间,Falconer是45秒,基本持平。查文档时Falconer的等待时间明显更短,直接提升使用效率。
## 对手的短板:Notion留白,Rovo失效 Notion在文档测试里回答了100个问题中的94个,其余6个返回了交互式澄清表单,没有直接答案。Falconer覆盖了全部100个问题。Rovo在代码测试中受限于Bitbucket的读取能力,短答案不是质量低,是拿不到源码。对使用Bitbucket托管代码的团队影响很大;Falconer则不受此限制。
## 结果来自2026年6月的快照 所有数据是一次点对点快照,工具版本和模型能力都会随时间变化。Falconer的成本、定价、是否支持私有数据集成或中文文档等问题,测试没有披露。选择时还得结合实际场景和预算。