为生物学智能体铺路:构建确定性数据检索层
Written by Laura Luebbert. Based on research by Ferdous Nasri, Sarah Gurev, Patrick Varilly, Krithik Ramesh, Nuala A. O’Leary, Jonah Cool, Bernhard Y. Renard, Pardis Sabeti, and Laura Luebbert.
在这篇文章中,Laura Luebbert 认为我们需要让生物数据基础设施对智能体更加友好。作为一个案例研究,她和她的团队让科学研究智能体(Claude、Biomni、Edison Analysis、GPT)从 NCBI Virus 中检索序列数据。NCBI Virus 是一个数据库,病毒学家用它来执行监控和诊断检测开发等任务。即使是最强大的模型,也没有始终达到可靠数据集构建所需的准确性。但一旦她和她的团队添加了 gget virus(一个确定性检索层),准确率就提高到了接近 100%。对于科学智能体来说,更广泛的教训是,确定性检索工具(目前)对于使智能体工作流程更可靠至关重要,并且生物数据库需要以智能体作为规模化用户来进行设计。
使用 AI 智能体来导航生物数据基础设施,就像驾驶汽车穿过一个在汽车发明之前设计的古老城市:基础设施可能很美、甚至经过深思熟虑,但到处都是狭窄蜿蜒的街道,现代车辆很难通行(独特的文件格式、分散的数据库、一次性的检索脚本)。你可以用交通标志、停车场和偶尔拓宽的道路来改造城市,但基本布局仍然难以导航,因为它最初是为不同的交通方式设计的。相比之下,软件基础设施基本上是为汽车(智能体)的需求而建的:铺好的道路、清晰的车道、标准化的信号以及为从头到尾快速行驶而设计的系统(版本控制、文档完善的 API、包管理器)。
结果,编码智能体的发展速度远快于生物学智能体。软件通常提供结构化的数字工作流程和可靠的接口,而用于数据检索和验证的计算生物学基础设施往往脆弱、异构且依赖过程。我们用于导航这些设施的工具必然是定制的,并针对特定领域或假设进行了调整。此外,软件提供了可测试的输出,可以快速编译和验证(例如,通过生成一个通过项目测试的补丁来解决 GitHub 问题),而生物学却很少有简单、可验证且有意义的奖励。
因此,生物学智能体的瓶颈不仅在于推理,还在于缺乏针对查询生物数据的广泛使用的确定性执行层。科学家可以表达他们的意图(例如,找到所有具有这个结构域的人类激酶并提取它们的结构),但智能体通常缺乏可靠的方式来访问包含所需信息的数据库。
在生物学和科学工作流程中,即使很小的错误也可能产生严重后果。例如,从错误的基因组构建中检索坐标,可能会使后续的生物学解释失效。无意中混淆 RefSeq 和 GenBank 记录、将部分基因组视为完整基因组、混淆分段病毒的片段名称、或者因元数据字段不一致而遗漏相关记录,都是类似情况。研究的美丽和挑战在于,细节往往至关重要。
就像开车穿过意大利的山城一样,如果街道太窄、转弯太急、路线依赖于本地知识,那么汽车再强大也无济于事。如果我们希望智能体帮助科学发现,从疫情应对到药物设计再到生物建模,我们需要构建它们能够像人类一样可靠导航的生物数据基础设施。
Karpathy 关于 Web 开发的讲座告诉我们关于用 AI 智能体做生物学研究的什么
智能体需求与人类构建工具之间的这种不匹配并非生物学独有。每当智能体被插入到仅为人用而设计的环境中时,这种摩擦就会出现。
几个月前,Andrej Karpathy 做了一场关于 AI 时代软件的演讲,最后抱怨了一件听起来非常熟悉的事情。他通过“氛围编码”做了一个小型 Web 应用,但当他试图将其变成现实(身份验证、支付、部署)时,他在浏览器仪表板中点击了一周。
正如他所总结的:“代码是最容易的部分!大部分工作都是在浏览器里点击东西。”文档总是告诉他“去这个 URL,点击这个下拉菜单”。他的结论是,没有人应该这么做。相反,我们必须为智能体构建。
Karpathy 在软件智能体世界中体验到了一些新的东西,而生物学研究人员长期以来一直在与之斗争:试图让智能系统在充满异构信息、隐式约定和人类点击浏览器的环境中运行的痛苦。
一个案例研究:病毒学中的点击税
早在 AI 智能体出现之前,计算生物学家和遗传学家就已经开始为传统计算生物学制造工具,逐渐攻克这一问题。像 Biopython、BioPerl、BioJulia、Entrez Direct、BioMart、gget 以及许多其他工作流库,都是将生物数据从浏览器界面转移到研究者可以直接计算的地方的努力。
问题在于,生物数据并不存在于一个具有单一接口的数据库中。它是一个混乱的道路网络,每条路都有自己的标识符、约定、格式、过滤逻辑和程序化访问程度。有些数据可以很容易地通过程序化方式访问。其他则不然。
特别是病毒学,是更难的案例之一。从疫苗和诊断检测设计到构建蛋白质模型的训练数据,研究工作流程通常从从 NCBI Virus 检索序列开始。NCBI Virus 是一个来自 GenBank、RefSeq 和国际 INSDC 生态系统(包括 Pathoplexus)的病毒序列记录集合,通过一个可搜索的 Web 界面呈现。作为为病毒暴发监控构建工具的研究人员,我们亲身知道这些检索背后隐藏着多少专家知识。在病毒学实验室中,针对 NCBI Virus 的数据集整理指南通常作为一长串复杂过滤器的列表在研究人员之间流传,用户必须手动在 Web 界面中重现这些过滤器:这正是 Karpathy 抱怨的那种浏览器点击工作流程。
目前由 Bundibugyo 病毒在刚果民主共和国引发的埃博拉疫情暴发,是一个鲜明的例子,说明了简化病毒数据访问可能产生真实世界、生死攸关的后果。2026 年 5 月 14 日,刚果民主共和国金沙萨国家生物医学研究所分析了 13 份血样,并在次日确认其中 8 份为 Bundibugyo 病毒病,随后宣布埃博拉疫情暴发。到 5 月 29 日,WHO 报告刚果民主共和国确认和疑似病例超过 1000 例,包括 200 多人死亡。研究人员还生成了第一批近乎完整的暴发基因组,帮助确认此次疫情是由一次新的溢出事件引起的。这些基因组给公共卫生官员带来了三个紧迫的问题。第一,这种暴发病毒与以前见过的埃博拉病毒有多大不同?第二,现有的诊断检测还能检测到它吗?第三,现有的治疗方法还能保护患者吗?回答这些问题需要将这些新基因组与通过 NCBI Virus 和 Pathoplexus(与 NCBI Virus 同步)获得的埃博拉病毒历史基因组进行比较。但这一过程并不容易自动化,分析的第一步涉及手动点击 Web 界面,手工重现复杂的过滤器,并希望生成的数据集完整且正确。
这个工作流程难以自动化的原因在于,NCBI Virus 的许多过滤逻辑仅存在于这个 Web 界面中。这对人类来说很烦人,对智能体来说则很糟糕。如果一个研究人员想要 2025 年发布的所有包含表面糖蛋白的 SARS-CoV-2 序列,一位经验丰富的病毒学家在浏览器中点击几次可能就能完成。但程序化地做,可能需要一个数百行的脚本,将多个 API(REST、Datasets、E-utilities)粘合在一起,逐页检索结果,协调标识符,并下载数百 GB 的数据,然后在本地过滤后丢弃大部分。
即使一个资源有 API,智能体也可能出于多种原因难以可靠地使用,例如 API 没有暴露与 Web 界面相同的过滤语义、元数据字段文档不完善或标准化不一致、标识符在不同来源之间变化、或者“正确答案”依赖于专家人类知道但机器必须推断的约定。
当智能体硬要尝试时会发生什么
为了更好地理解将智能体与数据库对接的挑战,我们开发了一个测试,评估当前最先进的科学研究智能体(Claude、Biomni、Edison Analysis、GPT)在使用现有基础设施从 NCBI Virus 检索病毒序列时的能力。我们的基准测试 VirBench 包含 120 个真实的病毒序列查询,涉及 40 种病原体,并有人工验证的真实计数。这些查询反映了病毒监控、诊断检测设计和蛋白质模型训练数据构建中出现的任务。例如,一个查询要求智能体“从 NCBI 检索分类编号 3052462(扎伊尔埃博拉病毒)的病毒序列,并满足以下标准:宿主生物:人类,样本采集地理区域:非洲,采集日期在 2014 年 1 月 1 日或之后,2014 年 6 月 20 日或之前,最小序列长度:15200 碱基,最多 1900 个模糊字符(N),排除实验室传代样本。”
当智能体被要求自行解决这些查询时,不同系统的性能差异很大,并且在新一代前沿模型中有了显著提高。然而,即使是最强大的模型,也没有始终达到可靠数据集构建所需的准确性和可重复性。Claude Sonnet 4、Claude Opus 4.7、Biomni、Edison Analysis、GPT-5.2-pro 和 GPT-5.5 的平均准确率从 16.9% 到 91.3% 不等。对于这些数据检索任务,标准实际上是 100%:在某些情况下,缺失或错误的记录可能会决定一个诊断检测是否看起来覆盖了循环中的多样性,或者一次疫情是被推断为提前了几周还是推迟了几周开始。此外,同一模型在三次询问相同问题时,往往产生截然不同的答案,破坏了可靠科学工作流程所需的准确性和可重复性。对于上述埃博拉病毒查询示例,Sonnet 4 在第一次运行中返回了 106 条序列(预期:266 条),第二次运行中返回了 15 条,第三次运行中返回了 5 条,尽管每次收到相同的提示。
这种不一致性对下游分析有影响。我们使用上面显示的查询来检索埃博拉病毒序列,并构建一个系统发育树,这是在暴发期间重建病毒样本之间关系的标准分析。从系统发育树中我们可以得到的一个重要量是到最近共同祖先的估计时间(TMRCA)。这是暴发的推断根日期,它可以改变关于病毒何时何地起源以及病毒传播了多长时间的结论。在这个案例中,从手动整理的 NCBI Virus 序列集构建的树恢复了 2014 年 1 月的 TMRCA,与先前关于 2014 年埃博拉病毒暴发暴发的报告一致(95% 最高后验密度区间为 1 月 27 日至 3 月 14 日)。相比之下,Sonnet 4 检索到的三个序列集中的两个明显不完整,其中一个树将推断的 TMRCA 推后到了 1922 年。剩余的数据集(运行 1)表面上看起来合理,但未能检索到来自几内亚的序列,并将估计的 TMRCA 移到了 2014 年 4 月,改变了推断的暴发时间。
使用 Delphy 推断的 2014 年西非疫情中扎伊尔埃博拉病毒的系统发育树。尖端按采样国家着色;灰色表示缺失或错误检索的国家元数据。红色虚线标记每棵树的估计最近共同祖先时间(TMRCA)。左上角的树是从通过 NCBI Web 界面手动检索的序列构建的,而运行 1-3 是由 Sonnet 4 智能体使用 Web 搜索和代码执行工具组装的序列集生成的。分析和可视化由 Gage Moreno 完成。
NCBI Virus 检索尝试之间的变异性也会影响关于治疗方法的结论。我们检索了埃博拉病毒糖蛋白序列,以检查 maftivimab 和 MBP134 结合的抗原表位,这两种抗体疗法是针对扎伊尔埃博拉病毒开发的,也是当前埃博拉病毒暴发暴发中 WHO 优先治疗候选药物。我们询问了在相关扎伊尔埃博拉病毒序列中,这些抗体的靶向区域是否先前出现过突变。这种分析可以让研究人员了解随着病毒进化,治疗方法是否还能继续保护患者。如果底层序列不完整或检索错误,可能会打乱他们的结论。在我们的例子中,Sonnet 4 检索到的序列在其第一次尝试中接近了通过手动 NCBI 查询获得的结果。在重复运行时,它错过了大多数突变残基。在第三次运行时,它突出了另一组不同的残基,从而对这些靶区域的可变性产生了三种不同的印象。
现有扎伊尔埃博拉病毒在其糖蛋白上的突变以红色显示,较深的阴影表示较高的突变频率。球体表示抗体疗法 maftivimab 和 MBP134 的已知足迹。最左边的可视化是从手动整理的 NCBI 数据集构建的,而运行 1-3 是由 Sonnet 4 智能体使用 Web 搜索和代码执行工具组装的序列集生成的。显示的 PDB 结构是 7TN9。分析和可视化由 Sarah Gurev 完成。
这两个例子都说明了科学中的一个更普遍的模式:看起来像小检索选择的细节可以改变生物学结论。在这个案例中,病毒序列检索中不一致的模型性能以及失败模式的本质凸显了大多数变异可归因于基础设施缺陷。当智能体未能检索到大的结果集时,它们会少计数;当过滤器应用不正确时,它们会多计数。例如,与预期计数最大的偏差出现在可用记录数量大的病毒上,包括甲型流感病毒、HIV-1 和 SARS-CoV-2,在这些病毒中,中途停止检索和不正确的下游过滤会严重扭曲最终数据集。它们还在元数据字段上遇到困难,这些字段的含义依赖于上下文、约定或信息恰好存储的位置。随着查询变得更加复杂,性能下降,尤其是在三个或四个以上的并发过滤器时。
最终,智能体通常理解任务足够好去尝试,但它们缺乏可机器执行的途径来执行、验证和重复任务。结果看起来可能合理,但仍然是错误的,这尤其危险,因为序列检索通常是更长的生物学工作流程的第一步。
病毒数据检索的确定性层
关于 VirBench 和 gget virus 的更详细解释,请阅读预印本。
为了将病毒数据检索转化为智能体和人类可以直接调用的东西,我们与 NCBI 的研究人员合作开发了 gget virus。起初,这似乎只是连接到正确的 API 调用的问题。实际上,要困难得多:NCBI Virus 是一个覆盖多个底层资源的门户,包括在美国、欧洲和日本维护的国际同步序列数据库,因此回答一个看似简单的查询通常需要拼凑来自多个地方的信息。
为了重现 NCBI Virus Web 界面的行为,gget virus 必须协调其底层的不同系统,包括 REST、Datasets 和 E-utilities API。gget virus 决定哪些过滤器可以通过这些现有 API 应用,哪些必须本地检查,因为 Web 界面暴露了从单个程序化端点无法获得的过滤行为。它处理批处理,以便大型结果集(例如 SARS-CoV-2 和甲型流感病毒数据集)被全面检索,而不是任意截断。当过滤依赖于存储在单独数据库中的额外信息(例如指示序列是否包含特定病毒蛋白的 GenBank 记录)时,gget virus 会检索这些记录,使用它们应用过滤器,并在最终输出中保留相关的 GenBank 信息。然后它返回标准化输出,这些输出对人类和机器都可读,并带有详细日志,显示最终结果是如何产生的。
有和没有 gget virus 的情况下 AI 智能体在 VirBench 基准测试上的性能。VirBench 评估智能体正确检索病毒序列数据集的能力。最后的条形显示直接运行 gget virus,无需智能体。图改编自 Nasri 等人,2026 年。
当我们让智能体访问 gget virus 时,所有智能体的准确率都上升到 90% 以上,GPT-5.5 达到了 99.7%。运行之间的变异性基本被消除,模型之间的性能差距大幅缩小。换句话说,添加一个确定性检索层使得模型选择变得不那么重要。考虑到可靠的数据集构建不应依赖于访问最新或最昂贵的模型,或者知道哪个模型对给定数据库效果最好,这一点尤其重要。相反,更便宜的模型与正确的工具配对可以减少变异性并实现更广泛的访问。
gget virus 通过将复杂的、基于浏览器的检索工作流程转化为准确且可重复的界面,使现有智能体在病毒数据检索方面更加可靠。回到我们步行城市的类比,这就像我们在行人基础设施下方添加了一条高速公路隧道,配有进出口匝道、顺畅的立交桥以及连接已知里程碑的出口编号。
正如 Karpathy 所说:“让[基因组数据]对智能体可访问”
我们希望模型在生成假设、设计实验或推理机制时具有创造力。但在这种创造力之下的层次——基因标识符、模式、检索逻辑、坐标系统、元数据约定和数据访问路径——必须无聊地可靠(或者换句话说,确定性)。gget virus 是构建这些上下文引擎的更广泛努力中的一个例子:针对生物数据的可靠、智能体可访问的基础设施。其他努力来自 AI for Science 系统,其中许多依赖于连接智能体到生物数据源的模型框架,包括 ToolUniverse、Edison Scientific 的 Robin、Biomni 以及相关的生物医学智能体。挑战在于弄清楚这种确定性属于哪里以及如何构建它。
当我们考虑模型能力变化的速度时,连接器和框架的工作变得更加棘手。如果我们从上述结果中画出模型曲线向前推,很容易想象一个(非常接近的)未来,像 gget virus 这样的工具的优势趋近于零:智能体变得足够好,可以自己导航混乱的门户、协调标识符、正确分页并从失败中恢复。在那个世界里,可能不需要框架。尽管如此,即使智能体可以做到,也不意味着每次都应该由智能体处理(并重新发明)这个任务。一个能够艰难通过混乱生物信息学工作流程的模型,对于常规科学工作来说可能仍然太昂贵、太慢、太难审计或太难以信任。而且,如果智能体最终让今天的框架过时,对生物数据库的教训仍然成立:我们需要在思考用户时将智能体考虑在内,并且我们需要为规模化构建。
致谢
我们感谢 Xander Balwit、Ethan Dyer、Stuart Ritchie、Rebecca Hiscott、Alyssa Morrow、Keir Bradwell、Eric Kauderer-Abrams、Jonah Cool、Andrej Karpathy、Patrick Varilly、Cesar Arze、Blake Lash、Philine Guckelberger、Nisha Gopal、Elliot Hershberg、Pardis Sabeti 和 Jonathan Feldman 的深思熟虑的反馈、仔细编辑和有益对话,这些改进了这篇文章。
我们特别感谢 Sarah Gurev 和 Gage Moreno 在开发和执行示例病毒学分析中的帮助,以及 Ferdous Nasri 和 Krithik Ramesh,他们对本文的观点、框架和写作做出了重大贡献。
脚注
1. 关于为什么生物学软件常常显得碎片化、维护不足且难以使用的更深入描述,参见 Elliot Hershberg 的文章“How Software in the Life Sciences Actually Works (And Doesn’t Work)”。 2. 我们感谢并承认刚果民主共和国国家生物医学研究所(INRB)和乌干达中央公共卫生实验室(CPHL)的团队,他们在 2026 年 5 月疫情暴发期间快速测序、分析并公开分享了最初的 Bundibugyo 病毒基因组。 3. 在 360 次运行中的一次(查询 32,第三次重复),GPT-5.5 独立识别并使用 gget virus,尽管没有被明确提示这样做。这是该问题唯一产生正确答案的运行。 4. Claude Sonnet 4 代表当前可用于此评估的最新公开 Anthropic 模型,原因在于后续与生物安全相关的访问限制。 5. 这里执行的所有分析仅供说明之用,不打算提供医疗或公共卫生指导;关于埃博拉疾病治疗建议,请参考 WHO 官方指南。 6. 为了呼应 Nils Homer 最近关于 AI 就绪生物信息学工具的观点:“AI 助手需要与你的代码、你的输出和你的分析逻辑一起工作。”这允许智能体不仅检查检索了什么,还检查如何检索的,将看似合理的结果转化为可以检查和重现的东西。
相关内容
社会科学中的编码智能体
关于 1,260 名社会科学家中 AI 和编码智能体使用的调查结果。 阅读更多
Project Glasswing:初步更新
关于我们从 Project Glasswing 中学到的早期更新。 阅读更多