当前位置：首页 > news >正文

Claude 进军化学领域：NMR 预测和解析表现亮眼，助力化学家提升工作效率

news 2026/6/14 22:26:02

Claude 进军化学领域：NMR 预测和结构解析表现亮眼，助力化学家工作效率提升

2026 年 6 月 5 日，我们正与世界一流的合成、计算和分析化学家合作，致力于提升 Claude 在化学领域的表现。在这篇文章中，我们将分享这项工作的初步成果，Anthropic 的化学家 David Kamber 会分析 Claude 在处理化学家最常见的分析输入——核磁共振（NMR）光谱时的表现。

在研究分子时，化学家需在白板上的手绘结构、仪器读数、数据库查询字符串以及专利和出版物的专业符号之间切换。这些表示方式蕴含相同化学信息，但每种方式都要求不同的专业能力。例如，咖啡因的草图能让化学家发现它与腺苷（人体的嗜睡信号）的相似之处，并预测它通过阻断受体来保持我们的清醒。然而，同样的草图却无法帮助化学家将其与其他外观极为相似的分子区分开来。

了解化学家正在研究的分子至关重要。化学贯穿于我们摄入的食物和药物，以及我们使用的乳液、油漆和塑料等各个方面。改变相同原子间的几个化学键，葡萄糖就会变成果糖，这两种分子具有相同的化学式，但通过完全不同的代谢途径进行处理。将分子翻转成其镜像，镇静剂可能会变成致畸剂，沙利度胺（thalidomide）灾难就是这样的例子。化学家的日常工作依赖于在适合特定任务的各种表示方式中正确解读这些信息。

在这些表示方式之间进行转换（从图中确定结构、将仪器读数与预期产物进行比对、以正确的符号查询数据库）既耗时，又难以大规模处理。最大的化学注册机构 CAS 收录了超过 2.9 亿种已公开的物质，并且每天大约新增 1.5 万种。

人工智能非常适合承担这项研究负担，但在化学领域，它在很大程度上仍停留在设想阶段。多年来，机器学习工具一直被认为将对逆合成（从目标分子逆向推导至更简单的前体以规划合成路线的过程）、反应预测和性质估计产生变革性影响，但这些工具所需的数据却难以获取——缺乏无效结果、格式不一致，并且被锁在订阅期刊的付费墙后面（以及非结构化的补充信息中）。以逆合成为例，尽管多年前就已经有了可用的人工智能工具，但应用并不广泛，普通学术机构或小型实验室的化学家仍然很少使用它们。

即便如此，人工智能的进步终于惠及了化学领域。如今的前沿模型具有多模态能力，能够进行明确的推理。它们可以直接从期刊图片或手绘草图中读取化学结构，而无需依赖预先整理的分子数据库。它们还能以实际发表的形式读取方法部分或补充信息中的实验细节，并且可以逐步展示推理过程，这意味着化学家可以对输出结果进行审核。尽管这并不能解决该领域多年来一直面临的数据问题，但它改变了哪些问题在这种情况下仍然可以解决。

最终，我们的目标很明确：Claude 开始切实协助化学家完成日常的转换、回忆和整合工作，以辅助他们的判断，并且我们计划不断提升它的实用性。今天，我们发布了第一份白皮书，以加速这项工作。该白皮书主要探讨了化学家最常见的分析输入：NMR 光谱。

Claude 与 ChemDraw 在 NMR 预测和结构解析方面的对比

完整版本可点击此处查看。

几乎每一种小分子——药物、农药、染料、香料、聚合物、DNA 或蛋白质亚基，以及功能性无机或固态材料——的结构都是由化学家确定的。由于这些分子无法用显微镜直接观察，化学家必须依靠光谱分析，通过光、无线电波或磁场来探测分子。给定分子吸收、发射或偏转这些能量的方式会为化学家提供一种模式或光谱，从而帮助他们解析其结构。

NMR 光谱学是化学家用于此目的的经典技术之一，也是合成化学中最耗时的步骤之一。对于每一种化合物，化学家都必须手动将光谱中的每个峰与所提议结构中的原子进行匹配。在这份白皮书中，我们测试了 Claude 与当前化学家依赖的专业 NMR 软件相比的表现。我们选取了 20 种化合物，这些化合物来自模型训练截止日期之后发表的合成化学预印本，以避免选择偏差。我们将三种 Claude 模型（Opus 4.7、Opus 4.6、Sonnet 4.6）与 ChemDraw 和 MestReNova 进行了对比。ChemDraw 和 MestReNova 都可以进行正向预测，即使用绘制的结构来模拟会产生的 NMR 光谱。除了正向预测，我们还想看看 Claude 是否能够反向操作——从实验光谱出发，推断出背后的分子结构。这是一项更具挑战性的任务，目前现有的软件通常将其留给化学家自己完成。

为了进行评估，我们从 ChemRxiv 预印本中选取了 20 种化合物，这些化合物是从每篇论文中选取的首个经过充分表征的新型分子。这 20 种化合物涵盖了四个结构家族，每个家族有五种化合物，每个家族都代表了一种不同类型的 NMR 挑战。我们为每个工具提供了以 SMILES 字符串编码的结构（化学家用于向软件输入分子的文本符号），并要求它们预测每个氢和碳峰在一维 NMR 光谱（以 ppm 为单位测量化学位移的水平轴）上的位置。考虑到 NMR 样品是溶解在液体中的，并且溶剂（氯仿、DMSO 等）的选择会使峰的位置略有移动，我们告知每个工具预测化学家在已发表论文中使用的溶剂中的光谱。

图 1. 正向预测评估涵盖的四种支架类别。每种类别都代表了一种不同类型的 NMR 挑战。P1 氯哒嗪在 DMSO - d₆ 中氨基哒嗪上有一个缓慢交换的 NH；P2 Boc - N - 芳基马来酰亚胺和 N - Boc 炔酰胺涉及 α - 乙烯基 - 酰亚胺羰基和罕见的炔酰胺 α/β - 碳对；P3 螺酮是带有苯甲酰基或乙酰基侧链和非对映异位 CH₂ 的螺双环酮；P4 α - 硅基甲磺酰胺具有屏蔽的硅 - α 碳。每个类别有五种化合物，总共 20 种。

由于语言模型的输出在每次运行时可能会有所不同，因此每个 Claude 模型对每种化合物进行了三次查询并取平均值；而 ChemDraw 和 MestReNova 每次返回的结果相同，因此只运行了一次。然后，我们将每个预测峰与其实验对应峰进行配对，并测量 ppm 值的差距。这些差距落在了化学家认为正确的范围内——氢的误差范围为 ±0.20 ppm，碳的误差范围为 ±1.0 ppm。

图 2. 正向预测中 20 种化合物的 ¹H（左）和 ¹³C（右）位移误差的每个工具的平均绝对误差（MAE，较深颜色）和均方根误差（RMSE，较浅颜色），每个工具下方显示了覆盖率。Claude 条形图：三次重复的平均值，带有最小 - 最大范围和叠加的重复点。传统工具：单点预测（无范围）。

在氢的预测方面，Opus 4.7 最为准确，平均误差为 ±0.079 ppm，远低于误差容忍范围的一半，并且落在该范围内的峰的比例最高。在碳的预测方面，Opus 4.7 和 MestReNova 表现相当，误差分别为 ±1.37 ppm 和 ±1.48 ppm；其余工具在两种元素上的排名顺序相同。Opus 4.6 的表现处于中等水平，Sonnet 4.6 则表现最弱。它们之间的差距在一个特别难预测的氢原子上最为明显——氯哒嗪家族中的一个 NH 质子，其真实位置落在 6.8 至 7.9 ppm 的狭窄范围内。Opus 4.7 的预测略低，但较为稳定；Opus 4.6 的预测分散在几个 ppm 范围内；Sonnet 4.6 则将其预测在 10 - 13 ppm 的范围，远远超出了实际出现的位置。

图 3. 顶部：实验原子在 ±0.20 ppm（¹H，左）和 ±1.0 ppm（¹³C，右）误差范围内的百分比。底部：每种化合物的胜率（在 20 种化合物中，工具的每种化合物平均绝对误差最低的情况）。Claude 条形图：三次重复的平均值，带有最小 - 最大范围；传统工具：单点预测。

虽然 Opus 4.7 的表现与 ChemDraw 和 MestReNova 相当，但在预测氢的 NMR 峰的形状以及峰之间的间距方面，差距更为明显，这些特征也包含了化学家在解读位置时会参考的结构信息。Opus 4.7 比其他任何工具都更频繁地匹配到实验报告的分裂模式，并且所有三种 Claude 模型大约 80% 的时间能将子峰间距预测到半赫兹以内，而 ChemDraw 和 MestReNova 的这一比例为 26% 至 35%。Opus 4.7 在三次重复运行中的表现也最为一致：其平均误差在每次运行之间的变化小于它与次优工具之间的差距。

接下来，我们评估了反向预测（结构解析）：能否从光谱确定分子的结构？我们给 Opus 4.7 提出了 15 个解析问题，并要求它每次提出最多三个排名候选结构，每个问题重复三次。每个问题都提供了化合物的精确分子公式（通过高分辨率质谱法获得）以及其氢和碳的 NMR 光谱。这 15 个问题根据难度进行了划分。8 个较简单的目标——单环或双片段分子——仅提供了公式和光谱。7 个较复杂的目标——稠环、螺环等——还提供了一个额外的提示：参与反应的起始材料的结构。

图 4. 15 个反向任务问题的结构解析结果。每个面板显示了已发表的目标结构以及三次尝试中的成功次数。边框颜色表示提示条件：绿色表示仅提供光谱和高分辨率质谱，无起始材料信息；蓝色表示提供光谱、高分辨率质谱和起始材料的 SMILES 字符串，无其他反应信息。

Opus 4.7 在每次尝试中都能仅通过光谱和公式解析出 8 个较简单的结构。对于 7 个较难的目标，在提供起始材料提示的情况下，它在四次尝试中三次都返回了正确的结构，其余情况也有两次返回了正确结构。

最终，我们发现对于常规数据预测，Opus 4.7（一个未经化学特定微调的通用模型）现在平均表现与 ChemDraw 和 MestReNova 相当甚至更好。此外，Claude 还可以反向解决问题，仅根据 NMR 数据提出分子结构。专门的结构解析软件已经存在了几十年，但通常需要二维 NMR（具有两个轴的光谱，输出是等高线图而非一排峰）、专业培训和许可工具。Claude 则可以从化学家粘贴到聊天框中的相同高分辨率质谱和一维峰列表中进行解析，无需任何设置。

局限性

这项评估表明，通用模型可以与 NMR 软件竞争，甚至使一维反向解析变得可行。但仍有一些值得注意的局限性。

首先，评估规模较小——正向任务涉及四个支架类别的 20 种化合物，反向任务涉及 15 种化合物——并且每个支架类别只代表了一种失败模式。因此，模型的性能应被视为指示性的，而非精确的。
其次，对于最复杂的反向目标，如果没有起始材料作为额外输入，模型可能会在推理过程中循环，而无法确定最终结构；这就是为什么 7 个较难的问题提供了起始材料的结构，而不仅仅是光谱。
第三，一些化学支架未经过测试。例如，缓慢交换的 NH 杂芳烃（其 N - H 与溶剂交换足够缓慢，从而在 NMR 谱中留下尖锐峰的芳香环）仅通过氯哒嗪进行了采样，而忽略了相关体系（羟基吡啶、氨基噻唑和其他 DMSO - d₆ 中 NH 活性支架）。
第四，二维实验（COSY、HSQC、HMBC）和立体化学不在本次评估范围内，因为仅一维 NMR 无法确定构型。因此，复杂的天然产物化合物未进行评估。
最后，我们的溶剂覆盖范围仅限于 DMSO - d₆、CDCl₃ 和 D₂O，因此甲醇 - d₄、苯 - d₆ 和丙酮 - d₆ 未进行评估。

理想情况下，我们希望在跨越 20 - 30 个支架类别的数百种化合物上验证这些结果，每个类别至少有 15 种化合物，以便将类内差异与工具间差异区分开来。我们还将评估除氯哒嗪之外的 NH 活性杂芳烃，评估未测试的溶剂，并进行基于二维实验的两种任务。

展望未来

在继续提升 Claude 在化学领域的性能时，我们将重点关注那些最让化学家头疼的瓶颈问题。

读取和呈现化学结构——将图、专利、幻灯片或草图中的绘图转换为机器可读的形式，并在结构表示和化学文献中使用的系统名称之间进行转换。
反应和合成推理——提出、评估和批判合成路线，预测反应结果，并考虑选择性、反应条件和可能的副产物。
反应机理——用化学家实际使用的语言解释和测试反应机理，包括电子箭头、中间体和过渡态论证。
化学文献理解——阅读已发表作品中的化学内容，其中同一分子可能以绘图、命名、缩写或代码的形式出现，并从方法部分、补充信息和专利中提取重要的化学信息。

这些问题的成熟度各不相同。光谱分析已经发展到可以进行基准测试的阶段，而其他问题，如逆合成规划，仍在探索中。随着我们对这些瓶颈问题的理解不断加深，我们将分享当前模型的优势和不足。我们的最终目标是让在职化学家清楚地知道 Claude 可以在哪些方面为他们节省时间，以及在哪些方面仍需依靠自己的专业知识。

与我们合作

我们正在扩大 AI for Science 计划，以更明确地支持化学研究。如果您是一位正在研究某个问题的研究人员，并且认为 Claude 可能会有所帮助，特别是涉及到我们所描述的多模态推理问题，欢迎通过 scienceblog@anthropic.com 与我们联系，或通过 AI for Science 申请渠道与我们沟通。

脚注

这是一起全球范围内超过 10,000 名儿童因服用一种缓解孕吐的药物而出现严重出生缺陷的事件。
我们选取化合物的四篇预印本：https://chemrxiv.org/doi/full/10.26434/chemrxiv.15002274/v1，https://chemrxiv.org/doi/full/10.26434/chemrxiv-2025-59lfh，https://chemrxiv.org/doi/full/10.26434/chemrxiv.15002423/v1，https://chemrxiv.org/doi/full/10.26434/chemrxiv.15002316/v1。