让Claude成为化学家:NMR预测与结构解析新突破
Summary: 我们正在与世界一流的合成、计算和分析化学家合作,让Claude在化学领域表现更出色。在这篇文章中,我们分享这一努力的初步成果——Anthropic化学家David Kamber考察了Claude在化学家最常用的分析输入——NMR谱图上的表现。
在处理分子时,化学家需要在白板上的手绘结构、仪器读数、数据库查询字符串以及专利和出版物的技术符号之间转换。每种表示方式都编码了相同的底层化学信息,但各自需要不同的熟练度。例如,咖啡因的草图能让化学家发现它与腺苷(身体困倦信号)的相似性,并预测它通过阻断受体让我们保持清醒。然而,同一张草图无法帮助化学家将其与其他外观近乎相同的分子区分开来。
理解化学家正在处理的分子至关重要。化学支撑着我们摄入的食物和药物、我们的乳液、油漆和塑料等一切。在同一些原子之间重新排布几个键,葡萄糖就会变成果糖——这两个分子具有相同的分子式,但通过完全不同的代谢途径加工。将一个分子翻转成其镜像,镇静剂就会变成致畸剂,就像沙利度胺灾难中发生的那样¹。化学家的日常工作依赖于在各种适合特定任务的表示法中正确读取这些信号。
在这些表示法之间进行转换(从图中追踪结构、将仪器读数与提出的产物对应、以正确符号查询数据库)非常耗时,且无法大规模持续进行——CAS(最大的化学物质注册库)收录了超过2.9亿种已公开物质,每天新增约15,000种。
AI完全有能力承担这一研究负担,但在化学领域它仍然很大程度上只是愿景。多年来,机器学习工具一直被视为逆合成分析(从目标分子反向推导更简单的前体以规划如何合成它)、反应预测和性质估计的变革性工具,但这些工具所需的数据难以获取——零结果数据稀疏、格式不一致,并且被锁定在订阅期刊(以及非结构化的支撑信息)的付费墙后。逆合成分析就是一个典型例子——功能强大的AI工具已存在多年,但采用率参差不齐,普通学术或小型实验室的化学家仍然不使用它们。
即便如此,AI的进步终于开始触及化学领域。如今的前沿模型是多模态的,并且能够进行显式推理。它们可以直接从期刊图或手绘草图中读取化学结构,而不是依赖预先整理的分子数据库。它们还能以实际发表的形式读取方法部分或支撑信息中的实验细节。它们还可以逐步展示推理过程,这意味着化学家可以审查输出结果。这一切都没有消除该领域多年来一直描述的数据问题,但它改变了哪些问题在这种前提下是可行的。
最终,我们的主张是谦逊的:Claude正开始有意义地协助化学家完成日常的转换、记忆和整合工作,以补充他们的判断,我们计划继续扩展其帮助。今天我们发布这一加速工作的首份白皮书。它处理的是化学家最常见的分析输入:NMR谱图。
Claude vs. ChemDraw:NMR预测与结构解析
完整版本可在此处获取(链接)
几乎每个小分子——药物、农药、染料、香料、聚合物、DNA或蛋白质亚基、功能无机或固态材料——都是因为化学家确定了其结构而存在的。由于这些分子无法用显微镜观察,化学家必须依赖光谱分析,用光、无线电波或磁场探测分子。给定分子吸收、发射或偏转这种能量的方式为化学家提供了一种模式(谱图),他们可以据此阐明其结构。
NMR光谱学——化学家为此依赖的经典技术之一——是合成化学中最耗时的步骤之一;对于每种化合物,化学家必须手动将谱图中的每个峰与提议结构中的原子对应起来。在本白皮书中,我们测试了Claude与目前化学家依赖的专用NMR软件的表现对比。我们测量了三个Claude模型(Opus 4.7、Opus 4.6、Sonnet 4.6)与ChemDraw和MestReNova在20种化合物上的表现,这些化合物选自模型训练截止日期之后发表的合成化学预印本,以避免选择偏差。ChemDraw和MestReNova都进行正向预测,使用绘制好的结构来模拟将产生的NMR谱图。除了正向预测,我们还希望看看Claude能否反向操作——从实验谱图出发,提出背后的结构。这是更困难的任务,也是现有软件留给化学家去完成的部分。
为设置评估,我们从模型训练截止日期后发布的ChemRxiv预印本²中提取了20种化合物,取每篇论文中第一个完全表征的新分子。这20种化合物涵盖四个结构家族,每个家族5种化合物,每个家族的选择是因为它涉及不同类别的NMR挑战。每个工具被给予编码为SMILES字符串(化学家用来向软件输入分子的文本行符号)的结构,并被要求预测每个氢和碳峰在一维NMR谱图(以ppm为单位的化学位移横轴)上的位置。由于NMR样品溶解在液体中,溶剂(氯仿、DMSO等)的选择会略微移动峰位置,每个工具被告知要预测化学家在已发表论文中使用过的溶剂中的谱图。
图1. 正向预测评估涵盖的四种骨架类别。每种探索不同类别的NMR挑战。P1 氯代哒嗪在DMSO-d₆中具有慢交换NH(氨基哒嗪);P2 Boc-N-芳基马来酰亚胺和N-Boc炔酰胺涉及α-乙烯基-酰亚胺羰基和罕见的炔酰胺α/β-碳对;P3 螺酮是具有苯甲酰甲基或乙酰基侧基和不等价CH₂的螺双环酮;P4 α-硅基甲磺酰胺具有屏蔽的硅-α-碳。每类5种化合物,共n=20。
由于语言模型的输出因运行而异,每个Claude模型每化合物查询三次并取平均;ChemDraw和MestReNova每次都返回相同答案,运行一次。然后我们将每个预测峰与其实验对应峰配对,并测量ppm差异。这些落在化学家认为正确的窗口内——氢±0.20 ppm,碳±1.0 ppm。
图2. 各工具在20种化合物正向预测中的¹H(左)和¹³C(右)位移误差的MAE(深色阴影)和RMSE(浅色阴影),工具下方显示覆盖率。Claude柱状图:三次重复的平均值,附最小值-最大值范围和叠加的重复点。经典工具:单点预测(无范围)。
在氢方面,Opus 4.7最准确,平均误差为±0.079 ppm——远低于容差窗口的一半——并且落在窗口内的峰比例最高。在碳方面,Opus 4.7和MestReNova实际上持平,分别为±1.37和±1.48 ppm;其余工具在两种元素上保持相同排序。Opus 4.6如预期处于中间,Sonnet 4.6最弱。它们之间的差距在单个 notoriously difficult 的氢——氯代哒嗪家族中的一个NH质子——上最为明显,其真实位置落在6.8到7.9 ppm的狭窄带内。Opus 4.7将其放置得略低但一致;Opus 4.6的猜测分散在数ppm范围内;Sonnet 4.6将其放在10–13范围内,远超出实际出现的位置。
图3. 顶部:实验原子落在±0.20 ppm(¹H,左)和±1.0 ppm(¹³C,右)内的百分比。底部:每化合物胜率(20种化合物中该工具具有最低每化合物MAE的化合物数量)。Claude柱状图:三次重复的平均值,附最小-最大值范围;经典工具:单点预测。
虽然Opus 4.7的表现与ChemDraw和MestReNova相当,但在预测氢的NMR峰形状以及峰间距方面差距更大,这些特征也包含化学家与位置一起读取的结构信息。Opus 4.7匹配实验报告的分裂模式的频率高于任何其他工具,而且所有三个Claude模型预测子峰间距在0.5赫兹以内的概率约为80%——而ChemDraw和MestReNova为26%到35%。Opus 4.7在其三次重复运行中也最为一致:其平均误差的不同运行间变异小于其与次优工具之间的差距。
由此,我们评估了反向预测(结构解析):能否从谱图确定分子结构?我们给Opus 4.7 15个解析问题,要求它每次提出最多三个排名的候选结构,每问题三次。每个问题提供了化合物的精确分子式(来自高分辨质谱)及其氢和碳NMR谱图。这15个问题按难度划分。八个较简单的目标——单环或双片段分子——仅凭分子式和谱图提出。七个较密集的目标——稠环、螺环等——附带一个额外提示:反应起始物料的结构。
图4. 15个反向任务问题的结构解析结果。每个面板显示已发表的目标及其在3次尝试中的成功次数。边框颜色表示提示条件:绿色为仅谱图和HRMS,无起始物料背景;蓝色为谱图、HRMS及起始物料SMILES,无其他反应背景。
Opus 4.7仅凭谱图和分子式就恢复了所有八个较简单结构,每次尝试都成功。在七个较难的目标上,在给出起始物料提示的情况下,它在所有三次运行中为其中四个返回了正确的结构,对于其余的目标则在两次运行中成功。
最终,我们发现对于常规数据预测,Opus 4.7——一个没有化学专用微调的通用模型——现在平均而言与ChemDraw和MestReNova一样好甚至更好。此外,Claude还能反向操作,仅凭NMR数据提出结构。专用的结构解析软件已存在数十年,但通常需要二维NMR(双轴谱图,输出为等高线图而非一排峰)、专业培训和许可工具。Claude从化学家会粘贴到聊天中的同一高分辨质谱和一维峰列表入手,无需任何设置。
局限性
这一评估表明,通用模型可以与NMR软件竞争,甚至使一维逆解析变得可行。但存在几个值得注意的局限性。
首先,评估规模较小——正向任务20种化合物(四个骨架),反向任务15种——每个骨架贡献单一类别的失败模式。因此,模型性能应被视为指示性而非精确性。
其次,在最密集的反向目标上,如果没有起始物料作为额外输入,模型可能会在推理中循环而不确定最终结构;这就是为什么七个较难的问题以起始物料结构(而非仅谱图)呈现。
第三,一些化学骨架未被测试。例如,慢交换NH杂芳烃(其N-H与溶剂交换缓慢以至于留下尖锐NMR峰的芳香环)仅通过氯代哒嗪采样,排除了相关体系(羟基吡啶、氨基噻唑和其他DMSO-d₆ NH活性骨架)。
第四,二维实验(COSY、HSQC、HMBC)和立体化学被有意排除在范围之外,因为仅凭一维NMR无法确定构型。因此,未评估复杂的天然产物化合物。
最后,我们的溶剂覆盖仅限于DMSO-d₆、CDCl₃和D₂O,因此甲醇-d₄、苯-d₆和丙酮-d₆未评估。
理想情况下,我们希望看到这些数字在跨越20–30个骨架类别的数百种化合物上如何保持,每类至少15种化合物,以便类内变异与工具间差异分离。我们还应评估氯代哒嗪以外的NH活性杂芳烃,评估未测试的溶剂,并进行基于二维实验的两种任务版本。
展望未来
随着我们继续改进Claude在化学领域的表现,我们特别关注最拖慢化学家速度的几个瓶颈。
- 读取和渲染化学结构——将来自图、专利、幻灯片或草图的结构转换为机器可读形式,并在结构表示与化学文献中使用的系统名称之间转换。 - 反应与合成推理——提出、评估和批评合成路线,预测结果,思考选择性、条件和可能的副产物。 - 机理——以化学家实际使用的语言——电子箭头、中间体和过渡态论证——解释和测试反应机理。 - 化学文献理解——阅读已发表作品中出现的化学内容,其中同一分子可能被绘制、命名、缩写或通过代码引用,并从方法部分、支撑信息和专利中提取重要的化学信息。
这些并不都处于相同的成熟曲线上。光谱分析已经足够成熟可以基准测试,而其他方面如逆合成规划仍在界定中。随着我们对这些瓶颈有更好的理解,我们将分享当前模型擅长的地方以及仍然不足之处。我们的最终目标是确保在职化学家知道Claude在哪些方面可以节省时间,以及哪些方面他们仍需依赖自己的专业知识。
与我们合作
我们正在扩展“AI for Science”项目,以更明确地支持化学研究。如果你是研究人员,正在研究Claude可能有助于解决的问题,特别是涉及我们描述的那种多模态推理的问题,我们期待通过 scienceblog@anthropic.com 或 AI for Science 申请表收到你的来信。
---
¹ 沙利度胺灾难中,一种晨吐药物在全球造成超过10,000名儿童严重出生缺陷。
² 我们提取化合物的四篇预印本: https://chemrxiv.org/doi/full/10.26434/chemrxiv.15002274/v1 https://chemrxiv.org/doi/full/10.26434/chemrxiv-2025-59lfh https://chemrxiv.org/doi/full/10.26434/chemrxiv.15002423/v1 https://chemrxiv.org/doi/full/10.26434/chemrxiv.15002316/v1