AI Pulse

让Claude成为化学家:NMR预测与结构解析评估

让Claude成为化学家:NMR预测与结构解析评估

让Claude成为化学家

我们正与全球顶尖的合成化学家、计算化学家和分析化学家合作,让Claude在化学领域表现更出色。在这篇文章中,我们分享这项工作的首个成果——Anthropic化学家David Kamber检验了Claude在处理化学家最常用的分析输入——NMR谱图——时的表现。

在处理分子时,化学家需要在白板上手绘的结构、仪器读数、数据库查询字符串以及专利和出版物中的技术符号之间切换。每一种表示方式都编码着相同的底层化学信息,但每一种都需要不同的熟练程度。例如,咖啡因的草图能让化学家发现它与腺苷(人体困倦信号)的相似之处,并预测它通过阻断腺苷受体来保持我们清醒。然而,同样的草图却无法帮助化学家将其与其他外观近乎相同的分子区分开来。

理解化学家正在处理的分子是什么至关重要。化学支撑着我们摄入的食物和药物,以及我们的乳液、油漆和塑料。在相同原子之间重新排列若干化学键,葡萄糖就变成了果糖——这两种分子共享同一个化学式,却通过完全不同的代谢途径被处理。将分子翻转成它的镜像,镇静剂就变成了致畸剂,正如沙利度胺灾难中发生的那样¹。化学家的日常工作取决于在不同表示方式中正确读取这些信号,无论哪种表示适合特定任务。

在这些表示之间进行转换(从图中追查结构,将仪器读数与拟议产物比对,以正确符号查询数据库)非常耗时,并且无法大规模跟上——CAS(最大的化学注册数据库)已收录超过2.9亿种已公开的物质,并且每天新增约15,000种。

人工智能非常适合承担这一研究负担,但在化学领域它仍然主要停留在理想层面。多年来,机器学习工具一直被定位为逆合成分析(从目标分子回溯到更简单的前体,以规划如何构建它)、反应预测和性质估算的变革性工具,但这些工具所需的数据很难获得——关于无结果的数据稀疏、格式不一致,并且被锁定在订阅期刊的付费墙后(以及非结构化的支持信息中)。逆合成分析就是一个典型例子——有能力的人工智能工具已经存在多年,但普及程度参差不齐,普通学术或小型实验室的化学家仍然不使用它们。

即便如此,人工智能的进步终于开始触及化学领域。当今的前沿模型是多模态的,并且能够进行显式推理。它们可以直接从期刊图表或手绘草图中读取化学结构,而不是依赖于预整理的分子数据库。它们还可以读取方法章节或支持信息中实际发表形式的实验细节。它们还能逐步展示推理过程,这意味着化学家可以审计输出结果。这些都不能消除该领域多年来一直描述的数据问题,但它改变了哪些问题尽管存在数据问题仍然可解。

最终,我们的主张是适度的:Claude开始有意义地协助化学家进行日常的翻译、回忆和整合工作,这些工作补充了他们的判断,并且我们计划继续扩展它的实用性。今天我们发布了加速这项工作的第一份白皮书。它处理了化学家最常见的分析输入:NMR谱图。

## Claude与ChemDraw在NMR预测和结构解析上的对比 完整版可在此处找到

几乎所有小分子——药物、杀虫剂、染料、香料、聚合物、DNA或蛋白质亚基以及功能性无机或固态材料——之所以存在,是因为化学家确定了它们的结构。由于这些分子无法用显微镜看到,化学家必须依赖光谱分析,用光、无线电波或磁场探测分子。给定分子吸收、发射或偏转这种能量的方式为化学家提供了一种图案或谱图,他们可以借此阐明其结构。

NMR波谱——化学家依赖的经典技术之一——是合成化学中最耗时的步骤之一;对于每种化合物,化学家必须手动将谱图中每个峰与拟议结构中的原子进行匹配。在这份白皮书中,我们测试了Claude与当今化学家依赖的专用NMR软件相比表现如何。我们测量了三个Claude模型(Opus 4.7、Opus 4.6、Sonnet 4.6)与ChemDraw和MestReNova在20种化合物上的表现,这些化合物取自模型训练截止日期之后发表的合成化学预印本,以避免选择偏差。ChemDraw和MestReNova都进行正向预测,使用绘制的结构来模拟将产生的NMR谱图。除了正向预测,我们还希望看看Claude能否反向进行——从实验谱图出发,提出背后的结构。这是更困难的任务,也是现有软件目前留给化学家的工作。

为了设置评估,我们从ChemRxiv预印本²中提取了20种化合物,这些预印本发布于模型训练截止日期之后,我们从每篇论文中选取第一个完全表征的新分子。这20种化合物涵盖四个结构家族,每个家族五种化合物,每个家族因涉及不同类别的NMR挑战而被选中。每种工具都被给予以SMILES字符串(化学家用来将分子输入到软件的文本行符号)编码的结构,并被要求预测每个氢和碳峰在1D NMR谱图(测量化学位移ppm的横轴)上的位置。由于NMR样品溶解在液体中,溶剂(氯仿、DMSO等)的选择会略微移动峰位置,每种工具被告知以化学家在已发表论文中使用的溶剂来预测谱图。

图1. 正向预测评估涵盖的四类骨架。每类探讨不同类别的NMR挑战。P1 氯哒嗪类在DMSO-d₆中具有慢交换NH的氨基哒嗪;P2 Boc-N-芳基马来酰亚胺和N-Boc炔胺涉及α-乙烯基-酰亚胺羰基和罕见的炔胺α/β碳对;P3 螺酮类是具有苯甲酰甲基或乙酰基侧链和非对映体CH₂的螺双环酮类;P4 α-硅基甲磺酰胺具有屏蔽的硅-α碳。每类五种化合物,总n=20。

由于语言模型的输出在不同运行之间会变化,每个Claude模型每种化合物查询三次并取平均值;ChemDraw和MestReNova每次都返回相同答案,运行一次。然后我们将每个预测峰与其实验对应峰配对,测量ppm差距。这些落在化学家认为正确的窗口内——氢为±0.20 ppm,碳为±1.0 ppm。

图2. 每种工具在20种化合物上正向预测的¹H(左)和¹³C(右)位移误差的每工具MAE(较深阴影)和RMSE(较浅阴影),下方显示覆盖度。Claude柱状图:三次重复的平均值,带有最小-最大范围和重叠的重复点。经典工具:单点预测(无范围)。

在氢上,Opus 4.7最准确,平均误差为±0.079 ppm——远低于容忍窗口的一半——并且落在窗口内的峰比例最高。在碳上,Opus 4.7和MestReNova基本持平,分别为±1.37和±1.48 ppm;其余工具在两种元素上保持相同的排序。Opus 4.6不出意料地处于中间,Sonnet 4.6最弱。它们之间的差距在一个众所周知的困难氢——氯哒嗪家族中的NH质子,其真实位置落在6.8到7.9 ppm的狭窄带内——上最为明显。Opus 4.7将其定位得略低但保持一致;Opus 4.6的猜测分散在几个ppm范围内;Sonnet 4.6将其放在10–13范围,远超出实际出现的位置。

图3. 顶部:实验原子落在±0.20 ppm(¹H,左)和±1.0 ppm(¹³C,右)内的百分比。底部:每化合物胜率(工具在20种化合物中具有最低每化合物MAE的化合物数)。Claude柱状图:三次重复的平均值,带有最小-最大范围;经典工具:单点预测。

虽然Opus 4.7的表现与ChemDraw和MestReNova相当,但在预测氢NMR峰的形状以及峰间距方面差距更大,这些特征也包含化学家与位置一起读取的结构信息。Opus 4.7比任何其他工具更频繁地匹配实验报告的分裂模式,并且所有三个Claude模型预测子峰间距在约80%的时间内误差在半赫兹以内——而ChemDraw和MestReNova为26%到35%。Opus 4.7在其三次重复运行中也最一致:其平均误差在不同运行之间的变化小于其与次优工具之间的差距。

随后,我们评估了反向预测(结构解析):能否从谱图确定分子结构?我们给了Opus 4.7 15个解析问题,每个问题问三次,要求其提出最多三个排序的候选结构。每个问题提供了化合物的精确分子式(来自高分辨质谱)以及氢和碳NMR谱图。这15个问题按难度划分。八个较简单的目标——单环或两片段分子——仅用分子式和谱图提出。七个较密集的目标——稠环、螺环等——附有一个额外提示:反应中使用的起始原料结构。

图4. 15个逆任务问题的结构解析结果。每个面板显示已发表的目标及其3次尝试中的成功次数。边框颜色表示提示条件:绿色为仅谱图和HRMS,无起始原料上下文;蓝色为谱图、HRMS和起始原料SMILES,无其他反应上下文。

Opus 4.7在仅凭谱图和分子式的所有尝试中恢复了全部八个较简单的结构。在七个较难的目标上,给定起始原料提示,它在四次目标中的所有三次运行中返回了正确结构,其余目标中两次运行返回正确。

最终,我们发现,对于常规数据预测,Opus 4.7——一个没有经过化学特定微调的通用模型——现在平均而言与ChemDraw和MestReNova一样好甚至更好。此外,Claude还能反向工作,仅从NMR数据提出结构。专用结构解析软件已经存在了几十年,但它通常需要2D NMR(具有两个轴的谱图,输出是等高线图而不是一排峰)、专门培训以及许可工具。Claude从化学家会粘贴到聊天中的相同高分辨质谱和1D峰列表就能做到,无需任何设置。

局限性

这一评估向我们展示了通用模型可以与NMR软件竞争,甚至使1D反向解析变得可行。但存在几个值得注意的局限性。

首先,评估规模较小——正向任务20种化合物四种骨架,逆任务15种——每种骨架贡献单一类别的失败模式。因此模型性能应被视为指示性而非精确性。

其次,在最密集的逆任务目标上,如果没有起始原料作为额外输入,模型可能会在推理中循环而不承诺最终结构;这就是为什么七个较难的问题是用起始原料结构而不是仅谱图提出的。

第三,一些化学骨架未被测试。例如,慢交换NH杂芳烃(其N–H与溶剂交换足够慢从而留下尖锐NMR峰的芳香环)仅通过氯哒嗪类抽样,排除了相关体系(羟基吡啶、氨基噻唑以及其他DMSO-d₆ NH活性骨架)。

第四,2D实验(COSY、HSQC、HMBC)和立体化学因设计而被排除在外,因为仅凭1D NMR无法确定构型。因此,复杂的天然产物化合物未被评估。

最后,我们的溶剂覆盖范围仅限于DMSO-d₆、CDCl₃和D₂O,因此未评估甲醇-d₄、苯-d₆和丙酮-d₆。

理想情况下,我们希望看到这些数字在跨越20–30类骨架的几百种化合物上如何保持,每类至少15种化合物,以便将类内方差与工具间差异分开。我们还将评估除氯哒嗪之外的NH活性杂芳烃,评估未测试的溶剂,并进行利用2D实验的两个任务的版本。

展望未来

随着我们继续提高Claude在化学领域的表现,我们特别关注几个最拖慢化学家速度的瓶颈。

- 读取和渲染化学结构——将来自图形、专利、幻灯片或草图的绘画转换成机器可读的形式,并在结构表示与化学文献中使用的系统名称之间进行转换。 - 反应和合成推理——提出、评估和批评合成路线,预测结果,并思考选择性、条件和可能的副产物。 - 机理——用化学家实际使用的语言解释和测试反应机理,包括电子箭头、中间体和过渡态论证。 - 化学文献理解——阅读出版物中出现的化学内容,其中同一个分子可能被绘制、命名、缩写或用代码引用,并从方法章节、支持信息和专利中提取重要的化学信息。

这些并不都处于相同的成熟曲线上。光谱分析已经足够成熟可以进行基准测试,而其他领域,如逆合成规划,仍在范围界定中。随着我们更好地理解这些瓶颈,我们将分享当前模型在哪些方面表现出色,以及哪些方面仍有不足。我们的最终目标是确保在职化学家知道Claude在哪些方面可以节省时间,以及哪些方面他们仍需依赖自己的专业知识。

与我们合作

我们正在扩展AI for Science计划,以更明确地支持化学研究。如果您是一位研究者,正在研究Claude可能合理提供帮助的问题,尤其是涉及我们描述的那种多模态推理的问题,我们期待您的来信:scienceblog@anthropic.com,或通过AI for Science申请。

---

脚注

¹ 一种用于晨吐的药物与全球超过10,000名儿童的严重出生缺陷相关的悲剧事件。

² 我们从中提取化合物的四篇预印本:https://chemrxiv.org/doi/full/10.26434/chemrxiv.15002274/v1, https://chemrxiv.org/doi/full/10.26434/chemrxiv-2025-59lfh, https://chemrxiv.org/doi/full/10.26434/chemrxiv.15002423/v1, https://chemrxiv.org/doi/full/10.26434/chemrxiv.15002316/v1.

阅读原文
📚 相关主题 化学研究

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部