查文档和代码，一个不知名AI工具竟击败了主流产品

📅 2026 年 6 月 20 日 📖 约 8 分钟 Hugging Face AI企业服务基准测试

如果你想用AI工具查公司文档或代码库，哪家最靠谱？一次200个真实问题的测试给出了答案：Falconer击败了Notion、Atlassian Rovo、Claude Code和Codex。

测试用了两个公开数据集。文档部分来自WixQA的6,221篇帮助中心文章和100个客服问题；代码部分来自apache/spark开源项目的代码库和100个技术问题。所有工具都断了网，只能靠内部检索——模拟的是企业内网场景。

## 核心结果：Falconer胜率领先在文档测试中，Falconer对Notion的胜率是70.5%，对Rovo是88.4%，对Claude Code是52.6%，对Codex是62.8%。在代码测试中，对Notion是57.7%，对Rovo是97.1%，对Claude Code是56.1%，对Codex是74.2%。

Rovo在代码测试中被Falconer击败97.1%，但并不反映真实水平。因为apache/spark代码库托管在Bitbucket上，Rovo几乎读不到代码，它只回答了98个问题，答案中位长度只有228个字符——远低于其他工具。Rovo在这个测试里更像一个结构基线，不是旗鼓相当的对手。

## 测试方法：三个AI评委交叉验证评分用了四个指标：忠实度（35%，答案是否正确）、有用性（35%，是否具备可操作性）、完整性（20%，信息召回比例）、相关性（10%，是否直奔主题）。每个对决由Claude Opus 4.8、GPT-5.5和Gemini 3.1 Pro三个前沿模型评判，A/B和B/A两种顺序各一次，每个问题得到6个判决以消除位置偏见。

努力水平方面：Falconer、Claude Code和Codex在文档测试中用中等思考，代码测试用高思考。Notion和Rovo未完全披露努力水平或模型版本，因此对比并非绝对等量。

## 速度对比：文档查询更快文档测试中，Falconer生成完整答案的中位时间是18.5秒，是所有工具里最快的。代码测试中，除了Codex（72秒），其他工具都在39到45秒之间，Falconer是45秒，基本持平。查文档时Falconer的等待时间明显更短，直接提升使用效率。

## 对手的短板：Notion留白，Rovo失效 Notion在文档测试里回答了100个问题中的94个，其余6个返回了交互式澄清表单，没有直接答案。Falconer覆盖了全部100个问题。Rovo在代码测试中受限于Bitbucket的读取能力，短答案不是质量低，是拿不到源码。对使用Bitbucket托管代码的团队影响很大；Falconer则不受此限制。

## 结果来自2026年6月的快照所有数据是一次点对点快照，工具版本和模型能力都会随时间变化。Falconer的成本、定价、是否支持私有数据集成或中文文档等问题，测试没有披露。选择时还得结合实际场景和预算。

阅读原文

📚 相关主题基准测试

📬 订阅 AI Pulse