当前位置：首页 > news >正文

机器学习加速分子动力学模拟：物理约束代理模型在纳米颗粒合成中的应用

news 2026/6/1 10:34:12

1. 项目概述：当机器学习“遇见”分子动力学

在材料科学和等离子体物理的前沿，有一个问题长久以来困扰着研究者：我们如何能既精确又高效地模拟纳米颗粒在极端非平衡环境中的“诞生”与“生长”？以硅（Si）纳米颗粒在非热等离子体（Nonthermal Plasma, NTP）中的合成为例，这个过程充满了迷人的复杂性。等离子体内部，高能电子与低温中性粒子、离子共存，形成了一个能量分布极不均匀的“反应炉”。在这里，硅烷（Silane, SiH₄）等前驱体分子被解离、激发，产生的自由基和团簇通过碰撞、粘附、表面反应等步骤，最终“生长”出具有特定尺寸、形貌和性质的纳米颗粒。这种工艺在微电子、能源存储、生物医学等领域潜力巨大，因为我们可以通过精细调控等离子体条件来“定制”纳米颗粒的特性。

然而，精确模拟这一过程是出了名的计算“黑洞”。传统的反应性经典分子动力学（Reactive Classical Molecular Dynamics）模拟是揭示原子尺度反应机理的黄金标准。它能追踪每一个原子的轨迹，计算碰撞能量、角度、键的形成与断裂。但为了获得统计上可靠的参数，比如两个硅烷团簇碰撞后发生化学吸附（即“粘住”）的概率——也就是粘附系数（Sticking Coefficient）——我们需要进行海量的模拟。每个碰撞事件需要考虑不同的初始构型、碰撞参数、平动温度和内部振动能。组合爆炸随之而来：模拟的数量呈指数级增长，而每次模拟本身又因为需要极小的积分步长（飞秒甚至阿秒量级）来捕捉键的快速变化而耗时巨大。这导致全面扫描参数空间在计算上几乎不可行，迫使许多宏观模型只能使用固定的、简化的反应概率，牺牲了预测的精度。

正是在这个背景下，机器学习（Machine Learning）作为一股强大的“加速器”力量介入进来。它的核心思路并非取代物理模拟，而是充当一个高效的“学生”和“预言家”。我们让机器学习模型“学习”大量但有限的分子动力学模拟数据，从中挖掘出系统条件（如团簇大小、氢覆盖率、温度）与最终碰撞结果（粘附概率）之间复杂的、非线性的映射关系。一旦训练完成，这个模型就能在瞬间预测出从未直接模拟过的新条件下的结果，从而将所需的模拟量降低一个甚至多个数量级。这不仅仅是简单的数据拟合，更是在高维参数空间中构建一个理解物理化学过程的代理模型（Surrogate Model）。

本文要深入探讨的，正是这样一个将机器学习与分子动力学深度融合，以加速非热等离子体中硅纳米颗粒生长模拟的前沿工作。我们将拆解其核心思路：如何为这个特定的物理问题选择和设计机器学习模型？为什么置换不变性（Permutation Invariance）和损失函数（Loss Function）的选择如此关键？最终，这种结合如何实现在仅需15-25%传统采样数据的情况下，依然保持高预测精度，为计算材料学和等离子体物理研究开辟一条高效的新路径。

2. 核心思路与方案设计：为物理问题定制机器学习

将机器学习应用于科学计算，绝非简单调用一个现成的Scikit-learn模型就能成功。它要求研究者深入理解物理问题的本质，并将这种理解“编码”到机器学习流程的每一个环节。这个项目成功的关键，在于其高度问题导向的方案设计。

2.1 物理问题的数学抽象：从原子碰撞到特征向量

首先，我们需要将复杂的原子碰撞过程，转化为机器学习模型能够“消化”的数字特征。项目团队抓住了影响硅烷团簇粘附概率的几个核心物理化学因素：

团簇尺寸与组成：硅原子的数量直接关系到团簇的质量和惯性，氢原子的数量（即氢覆盖率）则决定了表面的反应活性位点数量。不饱和键（悬空键）越多，反应性通常越强。
结构异构：对于像Si₂H₄这样的分子，氢原子在两个硅原子上的分布方式（平衡 vs. 非平衡）会影响其电子结构和反应性。例如，H₂Si-SiH₂和HSi-SiH₃就是两种不同的异构体。
平动温度：这直接关联到碰撞粒子的相对动能，是克服反应能垒、决定碰撞结果的关键能量来源。

基于此，他们为每个碰撞粒子（无论是作为“靶”的团簇还是作为“弹”的撞击体）定义了一个4维特征向量f= [N_Si, N_H, R1, R2]。其中，N_Si和N_H分别是硅和氢的原子数。R1和R2则用于编码每个硅原子上的未配对电子数（粗略代表自由基特性）。对于像Si₂H_x这样的二硅烷，R1和R2分别对应两个硅原子的未配对电子数，从而区分异构体。对于更大的团簇（如Si₂₉H_x），则使用总未配对电子数和0来填充。对于一个碰撞对（粒子a和粒子b）及系统平动温度T，最终输入模型的9维特征向量为：x_{a,b} = [f_a, f_b, T]。

设计心法：特征工程的原则是“简单、可计算、物理意义明确”。这些特征无需进行昂贵的量子化学计算，仅从分子式即可快速获得，确保了整个流程的高效性。同时，它们抓住了影响反应趋势的主要矛盾，为模型提供了有效的学习信号。

2.2 模型架构选型：平衡表达力与物理约束

面对回归预测任务，项目没有押宝于单一模型，而是系统地评估了七种各具特色的算法：

线性模型 & ElasticNet：简单的基线，用于判断问题线性程度。
核岭回归（KRR） & 支持向量回归（SVR）：基于核技巧的非线性模型，擅长捕捉复杂模式。
K近邻（KNN）：惰性学习，预测基于局部相似样本。
深度集合（DeepSets）：一种专门为处理集合数据设计的神经网络架构，天生具备置换不变性。
轻量梯度提升机（LGBM）：基于决策树的高性能梯度提升框架，在表格数据上常表现优异。

这个选型清单体现了严谨的对比思维：从简单到复杂，从通用到专用。但更重要的是，他们并非直接使用这些模型的“开箱即用”版本，而是根据物理原理进行了关键改造。

核心改造一：强制置换不变性物理系统的对称性必须反映在模型中。两个粒子（a和b）碰撞，交换它们的顺序不应改变粘附概率，即 P(a, b) = P(b, a)。然而，大多数标准模型不具备这种置换不变性。如果简单地将(a, b)和(b, a)作为两个不同样本输入，模型可能会学到错误的、依赖于顺序的伪模式，导致泛化能力极差。

项目团队为此设计了三种策略：

特征平均（针对线性模型）：对线性模型，直接将输入特征对称化，使用x̄ = [(f_a + f_b)/2, T]作为输入。这强制模型对两个粒子的相同特征赋予相同权重。
数据增广（针对LGBM等）：将每个碰撞对(a, b)及其置换(b, a)都加入训练集。这鼓励模型学习对称性，但不能严格保证，故称为“伪置换不变”。
定制距离度量/架构（针对KNN/KRR/SVR/DeepSets）：这是最优雅的方法。对于基于距离的模型（KNN, KRR, SVR），他们重新定义了核函数中的距离度量。计算两个碰撞对 (a,b) 和 (c,d) 的距离时，取两种排列方式下的欧氏距离最小值：d = min( ||[f_a - f_c, f_b - f_d, ΔT]||, ||[f_a - f_d, f_b - f_c, ΔT]|| )。这确保了距离度量本身是置换不变的。对于DeepSets，其网络架构g([f_a, f_b, T]) = φ( ρ( ψ(f_a), ψ(f_b) ), T )通过先对每个粒子进行��立编码（ψ函数），然后通过对称函数（ρ，如求和或取最大）聚合，最后再解码（φ函数），从结构上保证了输出与输入顺序无关。

核心改造二：设计物理驱动的损失函数预测目标是一个概率值 p ∈ [0, 1]。最直观的想法是用均方误差（MSE）损失。但这里有一个陷阱：我们的训练数据并非精确的概率值，而是来自分子动力学模拟的二项分布抽样结果。例如，一次模拟可能进行了n=100次碰撞，其中m=30次发生了粘附。我们观测到的是频率 m/n，而其背后的真实概率是p。MSE损失平等地对待所有预测误差，但在这个背景下，从100次试验中估计的概率，其不确定性要远小于从10次试验中估计的。

因此，项目引入了基于二项分布负对数似然（Binomial Negative Log-Likelihood, B-NLL）的损失函数：L = - [m * log(ŷ) + (n-m) * log(1-ŷ)]其中ŷ是模型预测的概率。这个损失函数天然地考虑了试验次数n：n越大，单次预测的权重就越大，这与概率估计的统计置信度是一致的。对于那些不支持B-NLL的模型库，他们采用了加权逻辑损失或在对数几率空间（Logit Space）进行加权MSE回归等变通方法。图1中的对比清晰显示，B-NLL损失对于异常值的惩罚比MSE更温和，从而能产生更稳健的预测。

2.3 验证策略：严苛评估泛化能力

如何知道训练好的模型在面对全新的、未见过的实验条件时依然可靠？项目采用了多层次、严苛的交叉验证策略，远超简单的随机数据拆分：

5折交叉验证：评估模型在已知数据分布内的整体性能。
留一温度出：训练时剔除某一温度（如300K）的所有数据，测试模型在该温度下的预测能力。这考验模型对温度的外推（Extrapolation）能力。
留一团簇出 / 留一撞击体出：训练时剔除某一类团簇（如Si₂H₆）或撞击体（如SiH₃）的所有数据，测试模型对全新化学结构的预测能力。这考验模型对化学空间的泛化能力。

更重要的是，他们使用了嵌套交叉验证来避免过拟合和乐观偏差：外层循环用于评估性能，内层循环用于在训练集上选择最优超参数。这种设计确保了性能评估的公正性。

3. 实操要点与模型实现解析

理解了核心设计思路后，我们深入到实现层面，看看如何具体搭建并训练这样一个为物理定制的机器学习流程。这里会穿插许多从论文和实践中总结出的“避坑指南”。

3.1 数据准备与预处理：分子动力学模拟的“精加工”

机器学习模型的性能上限由数据质量决定。本项目的数据源于大规模的ReaxFF反应力场分子动力学模拟。

模拟细节与数据生成：

体系构建：模拟了硅烷团簇（从Si₂H₆到Si₂₉H_x）与二硅烷撞击体（Si₂H_x, x=1-6）之间的碰撞。
采样策略：对每个碰撞对，在多个温度（300K, 400K, 500K, 600K, 900K）下进行采样。每个温度下，通过独立的NVT模拟平衡碰撞双方的振动和转动模式，然后进行大量（40-100次）零碰撞参数（对心碰撞）的微正则模拟。
结果判定：通过监测团簇间硅原子最小距离的变化，判定每次碰撞结果是发生化学吸附（粘附）、物理吸附还是弹性散射。
概率计算：将同一条件下的大量碰撞结果汇总，用发生粘附的次数除以总碰撞次数，得到该条件下的粘附概率P_st。同时，根据碰撞能量分布，用Maxwell-Boltzmann分布进行加权，最终给每个系统赋予一个“平动温度”标签。

最终，他们构建了一个包含约65万次独立模拟、390个独特碰撞对的数据集。每个数据点的形式是：(特征向量x, 粘附次数m, 总试验次数n)。

预处理关键步骤：

特征缩放：将9维特征向量进行标准化（减去均值，除以标准差），使每个特征处于相近的数值范围，加速模型收敛并提高某些模型（如基于距离的KNN、SVR）的性能。切记：均值和方法必须仅从训练集计算，然后应用到验证集和测试集，避免数据泄露。
概率裁剪：对于使用对数几率空间MSE损失的方法，真实概率p可能出现0或1。由于logit(0) = -∞, logit(1) = +∞，这会导致数值问题。标准的处理方法是进行裁剪，例如将p限制在[ε, 1-ε]范围内，ε是一个很小的数（如1e-15）。
数据增广（针对伪置换不变模型）：对于LGBM这类模型，需要显式地将每个样本(a, b)和其置换(b, a)都加入训练集。

实操心得：分子动力学模拟的初始构象采样至关重要。如果初始构象不能代表真实的玻尔兹曼分布，那么学到的概率关系将是有偏的。此外，碰撞参数（非零撞击参数）在真实物理过程中是随机的，本工作专注于对心碰撞简化了问题，但若要构建更通用的模型，需要考虑撞击参数的分布，这会使特征和问题更加复杂。

3.2 模型训练与超参数调优

有了准备好的数据，就可以开始训练模型了。这里以表现突出的LGBM和DeepSets为例，说明关键点。

LightGBM (LGBM) 实现要点： LGBM是一个高效的梯度提升决策树框架。在本项目中，它被用于直接回归概率值。

目标函数：由于LGBM原生不支持二项NLL，项目采用了加权逻辑损失。具体实现时，可以将一次(m, n)的观测，拆分成m个标签为1的“伪样本”和(n-m)个标签为0的“伪样本”，并为每个样本赋予适当的权重（或直接复制多次），然后使用标准的二分类逻辑损失进行训练。
置换不变性处理：采用“数据增广”法。确保训练数据中同时包含(a,b)和(b,a)的样本。
超参数调优：通过网格搜索在嵌套CV的内循环中进行。关键参数包括：
- num_leaves：控制树模型的复杂度。
- learning_rate：学习率，影响收敛速度和精度。
- max_depth：树的最大深度，防止过拟合。
- min_data_in_leaf：叶子节点最小数据量，正则化参数。
- feature_fraction/bagging_fraction：每次迭代使用的特征/数据比例，用于增加随机性、防止过拟合。

DeepSets 神经网络实现要点： DeepSets是专门为集合数据设计的神经网络，其置换不变性由架构保证。

网络结构：
1. 粒子编码器 ψ：一个全连接神经网络（例如2-3层），独立处理每个粒子的特征向量f，将其映射到一个高维隐空间表示h。
2. 对称聚合函数 ρ：对两个粒子的隐表示进行对称操作，如逐元素求和（sum）或取最大值（max）。求和操作能保留更多信息，是本项目的选择。
3. 全局解码器 φ：另一个全连接神经网络，接收聚合后的向量以及温度T，输出最终的粘附概率。输出层使用Sigmoid激活函数，将值约束在[0,1]。
损失函数：可以直接使用二项NLL作为损失函数，通过自动微分进行优化。
训练技巧：
- 使用Dropout、权重衰减（L2正则化）来防止这个小规模数据集上的过拟合。
- 采用学习率衰减策略。
- 由于数据集相对较小，需要仔细监控验证集损失，并可能使用早停法。

超参数搜索与模型选择：在嵌套交叉验证的内循环中，对每个模型族（如LGBM、DeepSets）进行网格搜索。对于每个超参数组合，在内部训练集上训练，在内部验证集上评估损失（B-NLL或L-MSE）。选择在内部验证集上平均损失最小的超参数组合，然后在外部测试集上评估其性能，这个性能才是对模型泛化能力的无偏估计。

4. 结果深度解读与模型性能对比

经过严谨的训练和验证，我们得到了丰富的性能数据。对这些结果的解读，不仅能告诉我们哪个模型更好，更能揭示物理系统的内在规律和机器学习应用的边界。

4.1 整体性能与数据效率

在5折交叉验证（所有数据混合随机拆分）的设置下，所有机器学习模型都显著优于简单的“朴素预测器”（即始终预测训练集平均概率）。如图4所示，预测值与真实值几乎落在对角线上，说明模型在已知数据分布内拟合得非常好。

最令人振奋的发现是关于数据效率。图4e展示了随着训练数据比例下降，模型性能的变化。结果显示，仅使用15%-25%的模拟数据（即约10万-16万次模拟）进行训练，模型就能达到与使用全部数据训练相近的高精度水平。这是一个巨大的计算节省，意味着未来研究类似体系时，可以优先通过智能采样（如主动学习）获取这部分最具信息量的数据，然后用机器学习模型填补整个参数空间，从而将总体计算成本降低75%-85%。

4.2 外推能力的严峻考验：温度与化学结构

模型的真正价值在于其泛化到未知条件的能力，这通过“留一法”交叉验证来检验。

温度外推（图6）：

插值表现良好：对于训练集中包含的温度范围（如400K-600K）内的新温度，模型预测准确。
低温外推（300K）挑战大：所有模型（除了DeepSets）在预测300K的数据时都表现不佳。这是因为300K低于训练温度范围的下限，属于外推。更重要的是，在300K附近，物理吸附现象更为显著，反应机理可能与中高温区以化学吸附为主导的情况不同，模型难以从更高温度的数据中学习到这种机理转变。
高温外推（900K）的启示：有趣的是，LGBM在900K的外推表现相对较好。论文指出，在700K-900K之间，粘附概率P_st几乎恒定。LGBM作为基于树的模型，善于学习分段常数函数，因此这种“常数外推”恰好符合物理趋势。而其他试图学习平滑变化的模型（如KRR）在这里反而可能表现更差。这提示我们，模型的外推行为与其归纳偏置紧密相关。

化学结构外推（图5，留一团簇出）：这是更具挑战性的测试。当训练集中完全不含某种团簇（如Si₂H₆）时，模型需要预测该团簇与所有撞击体的反应概率。

对Si₂₉H_x族团簇泛化较好：模型在预测未见过的Si₂₉H_x（如Si₂₉H₁₈, Si₂₉H₂₇等）时表现尚可，因为它们与训练集中其他的Si₂₉H_x团簇在尺寸和化学性质上相似。
对小团簇（Si₂H₆, Si₄）泛化差：模型严重高估了Si₂H₆和Si₄的粘附概率。原因在于训练数据中大部分是较大的Si₂₉H_x团簇，模型因此产生了“尺寸偏见”，认为所有团簇都表现出类似大团簇的行为。小团簇由于振动模式少，能量再分配能力不同，其反应动力学确实可能不同。
Si₂₉H₁₈的异常：在Si₂₉H_x系列中，氢覆盖率最低的Si₂₉H₁₈的预测误差也相对突出。这可能是因为极低的氢覆盖率导致了表面结构或反应路径的突变（例如，氢原子重排或异构化），而模型从未在训练中见过如此不饱和的结构。

4.3 置换不变性与损失函数的决定性影响

这两个技术选择对模型性能的影响是颠覆性的。

置换不变性（图5 vs 图7）：比较使用置换不变模型（图5）和置换敏感模型（图7）在“留一团簇出”测试中的表现，差异惊人。置换敏感模型的表现极度不稳定：对于某些被剔除的团簇（如Si₂₉H₂₇），它预测得奇好；对于另一些（如Si₂H₆），则预测得奇差。这是因为置换敏感模型“偷偷”学到了训练数据中粒子顺序的偶然模式（例如，在训练集中，较大的团簇总是被放在特征向量的前四位）。当测试时顺序被打乱或遇到全新大小的团簇时，这种“作弊”学到的模式就失效了，导致灾难性的泛化失败。图8c和8f直观展示了置换敏感LGBM的预测是如何随着输入顺序改变而剧烈波动的，这显然违背了物理事实。这强烈证明，在构建基于物理的机器学习模型时，将已知的对称性硬编码到模型架构或数据表示中，是保证其可靠性的必要条件。

损失函数的选择（图8a,b,d,e）：比较使用二项NLL损失和加权对数几率MSE损失训练的LGBM模型，可以发现：

整体稳健性：使用二项NLL损失的模型预测点更紧密地分布在对角线周围，异常值更少。
对中间概率的预测：对于概率在0.2-0.8之间的“不确定”碰撞，二项NLL损失能产生更准确的预测。
理论依据：如图1所示，二项NLL损失对极端错误预测（如真实概率为0.1却预测为0.9）的惩罚，相对于MSE而言不那么极端。这使得模型在训练时不会过度追逐少数可能带有噪声的异常样本，从而获得更稳健的泛化性能。这类似于稳健统计学中使用Huber损失代替MSE的思想。

5. 经验总结、避坑指南与未来方向

基于这项工作的全面实践，我们可以提炼出一些普适性的经验教训，供任何希望将机器学习应用于计算化学或物理模拟的研究者参考。

5.1 核心经验与最佳实践

物理第一，模型第二：成功的核心在于深刻理解物理问题，并将其转化为对机器学习流程的约束（如置换不变性）和指导（如基于物理的特征设计、符合统计规律的损失函数）。不要试图用一个黑箱模型去暴力拟合数据。
置换不变性是“必选项”而非“可选项”：对于粒子相互作用系统，如果物理过程本身是对称的，那么模型架构或数据处理必须强制保证这种对称性。忽略这一点将导致模型学习到虚假的相关性，泛化能力极差。强烈推荐使用DeepSets这类天生不变的架构，或为核方法定制不变的距离度量。
损失函数需匹配数据生成过程：你的训练数据来自抽样（模拟或实验），损失函数应该反映这种抽样的统计特性。对于从二项分布中抽取的频率数据，二项负对数似然（B-NLL）损失是理论上更优的选择，它能产生更稳健、更校准的预测。
验证策略必须模拟真实应用场景：简单的随机拆分交叉验证会严重高估模型在真实世界（面对全新条件）中的性能。一定要设计面向外推的验证策略，如“留一条件出”（留一温度出、留一成分出），这能真实暴露模型的泛化短板。
数据质量与多样性胜过数据数量：虽然本项目展示了仅用15-25%的数据就能达到良好效果，但这前提是这少量数据必须覆盖系统变化的关键维度。对于粘附系数，这意味着训练集需要包含：
- 宽泛的温度范围，特别是预期应用范围的上下限。
- 多样化的化学结构，覆盖不同尺寸、不同饱和度（氢覆盖率）的团簇。
- 关键的反应机理，如果可能存在物理吸附向化学吸附的转变，数据中最好能有体现。

5.2 常见陷阱与排查思路

问题：模型在训练集上表现完美，但在留一条件测试中崩溃。
排查：首先检查是否保证了置��不变性。然后检查训练数据是否缺乏多样性，导致模型无法学习到普适规律，只能记忆特定样本。最后，审视特征工程是否遗漏了关键物理量。
问题：模型预测的概率总是偏向0.5附近，不敢做出极端预测。
排查：可能是模型复杂度不够或正则化过强。尝试增加模型容量（如更深的网络、更多的树）。也可能是损失函数不合适，MSE损失会倾向于将预测“拉向”均值，尝试换用B-NLL损失。
问题：模型对某个特定条件（如极低温度）的预测完全错误。
排查：这通常是外推失败。检查该条件下的物理机理是否与训练数据主导的机理有本质不同（如物理吸附主导 vs. 化学吸附主导）。解决方案是在训练集中主动加入该边界条件的少量代表性数据，即使模拟成本很高，也能极大改善外推性能。
问题：不同随机种子下模型性能波动很大。
排查：在小数据集上训练复杂模型（如神经网络）时常见。解决方法是使用交叉验证的平均性能作为评估标准，或采用集成学习（如训练多个模型取平均）。同时，确保数据分割是分层抽样，以保持子集间分布一致。

5.3 未来扩展与优化方向

这项工作为机器学习加速分子模拟树立了一个优秀范例，但远非终点。基于此，我们可以展望几个有潜力的扩展方向：

从对心碰撞到全参数空间：当前工作聚焦于零碰撞参数的对心碰撞，这是重要的第一步。下一步是引入碰撞参数（Impact Parameter）和碰撞角度作为输入特征，构建能预测三维碰撞截面的更通用模型。这需要更大量的模拟数据，但也将使模型更接近真实物理场景。
融合主动学习闭环：目前的采样策略是预先设定的。可以引入主动学习：让初步训练的模型识别出预测不确定性最高的区域（参数空间），然后针对性地在这些区域进行新的分子动力学模拟，将新数据加入训练集，重新训练模型。如此迭代，用最少的模拟次数构建最准确的代理模型。
探索更强大的架构：可以尝试图神经网络（Graph Neural Networks, GNNs）。GNNs能直接以原子为节点、化学键为边来表征分子，自动学习拓扑结构和电子特性，可能比手工设计的特征向量更具表达力，尤其对于更复杂的有机分子或合金团簇。
从粘附概率到动态轨迹：更雄心勃勃的目标是，训练模型不仅预测碰撞的最终结果概率，还能预测短时间的动力学轨迹或最终产物的分布。这需要序列模型（如循环神经网络RNN、Transformer）或生成模型（如归一化流、扩散模型）的介入。
跨体系与跨尺度迁移：最终极的愿景是构建一个能够理解“材料语言”的基础模型。通过在大量不同化学体系（不仅仅是硅烷）的分子动力学数据上进行预训练，模型可能学习到化学键形成与断裂的通用规则，从而在面对全新材料体系时，仅需极少的微调数据就能做出准确预测。

这项研究清晰地表明，机器学习不是替代物理模型的“魔法”，而是一个强大的“力量倍增器”。通过精心地将物理洞察注入机器学习流程的每一个环节——从特征工程、模型架构到损失函数和验证策略——我们能够构建出既高效又可靠的代理模型，从而将计算成本高昂的分子模拟从参数空间的“穷举”中解放出来，让研究人员能够更自由地探索更广阔的材料设计与过程优化空间。对于从事计算化学、材料模拟和等离子体工艺的研究者而言，掌握这套“物理信息机器学习”的方法论，正变得越来越重要。

查看全文

http://www.cnnetsun.cn/news/2507996.html