微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

MIT与Mirror Physics联手打造：让AI"看懂"原子世界的新一代神经网络，计算速度提升近6倍

人工智能材料科学新型算法

MIT与Mirror Physics联手打造：让AI"看懂"原子世界的新一代神经网络，计算速度提升近6倍

作者：科技行者

2026-04-21 10:47

分享至：

EquiformerV3是由麻省理工学院与Mirror Physics公司联合开发的第三代SE(3)等变图注意力Transformer，于2026年4月以arXiv:2604.09130发布。该模型通过三项核心改进——软件实现优化（训练速度提升1.75倍）、架构改进（等变合并层归一化、前馈网络扩容、平滑截断注意力），以及全新的SwiGLU-S?激活函数——在效率、表达能力和物理通用性上全面超越前代。在OC20、OMat24和Matbench Discovery三大基准测试中均达到当前最优水平，计算成本大幅低于同类竞争模型。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-21 10:47 • 科技行者

这项由麻省理工学院（MIT）与Mirror Physics公司联合开展的研究，以预印本形式于2026年4月13日发布，论文编号为arXiv:2604.09130。感兴趣的读者可通过该编号在arXiv平台查阅完整论文。

**原子世界里的"地图测绘师"**

每当科学家想要设计一种新材料——比如更耐用的电池、更高效的催化剂，或者某种能吸收空气中二氧化碳的化学物质——他们最想知道的一个基本问题是：这些原子聚在一起之后，能量是多少？原子之间的力又是怎样的？

回答这个问题的传统方法叫做"密度泛函理论计算"（DFT），可以把它理解成一张极其精确的原子世界地图测绘工作。这份地图非常准确，但绘制起来极其耗时——一次完整的计算往往需要花费几小时甚至几天的时间。对于那些需要探索成千上万种原子排列方式的材料研究者来说，这种速度简直是噩梦。

正因如此，近年来研究者们开始训练神经网络来充当"快速地图阅读器"——用机器学习模型来预测那些耗时的量子力学计算结果。麻省理工学院与Mirror Physics团队正是在这条赛道上持续深耕的一支力量。他们的最新成果，叫做EquiformerV3，是同系列模型的第三代产品。

这篇文章要讲的，就是这第三代"地图阅读器"究竟做了哪些升级，为什么这些升级很重要，以及它在真实的科学测试中表现如何。

**一、为什么普通的神经网络不够用**

要理解这项研究的意义，先得明白一个核心挑战：原子世界有其特殊的"游戏规则"。

考虑这样一个场景——你手里捧着一个水分子，由两个氢原子和一个氧原子组成。无论你怎么旋转这个分子，它的化学性质不会改变。把它向左转30度，或者向右转90度，它依然是水，它的能量依然是相同的数值。科学家把这种性质叫做"旋转等变性"（equivariance）——物理规律在旋转变换下保持不变。

普通的神经网络，比如那些用来识别猫咪图片的模型，根本不具备这种特性。给它一张正立的猫的照片和一张倒立的猫的照片，它可能会给出完全不同的判断，除非你专门训练它识别各种角度。对于原子模拟来说，这种"不知道旋转"的问题会导致模型的预测毫无物理意义。

于是，研究者们专门设计了一类叫做"SE(3)等变图神经网络"（SE(3)-equivariant GNN）的模型。这类模型在设计之初就把旋转和平移的对称性"烧录"进了自己的运算结构里，无论原子云从哪个角度被观察，它给出的能量预测都是一致且正确的。

EquiformerV3正是这类模型中的佼佼者。它的前两代产品EquiformerV1和EquiformerV2已经在科学界赢得了相当的声誉。而这一次，第三代在三个维度上同时发力：更快、更强、更通用。

**二、从齿轮到火箭：计算速度的优化**

一台好的跑车，光有强劲的引擎还不够，传动系统也得跟得上。对于神经网络来说，道理是一样的。即使模型架构设计得再精妙，如果底层的软件实现效率低下，大量的计算时间就会白白浪费在无意义的重复操作上。

EquiformerV3的第一项改进，就是专注于清理这些"无意义的重复"。

前一代模型EquiformerV2在做核心计算时，采用了一种叫做"eSCN卷积"的技术。这种技术的工作方式，可以理解为：先把原子特征信息"旋转"到一个特定的坐标系，然后在这个坐标系里做计算，最后再"旋转"回来。在旋转的过程中，原有实现需要额外乘以一个"排列矩阵"来重新整理数据的顺序，而这个操作在每次计算中都要重复执行，浪费了大量资源。

研究团队发现，这个排列步骤完全可以预先合并到旋转矩阵里——换句话说，只需要在程序启动时做一次"预处理"，后续所有计算就再也不需要这个额外步骤了。这就像把每次做饭前都要临时磨刀的过程，改成一开始就备好一把永远锋利的刀，省去了每次重复磨刀的时间。

除了融合冗余操作，团队还修复了若干代码层面的小问题，让程序支持PyTorch的"编译加速"功能（torch.compile()）。这个功能可以让程序在运行前先对计算流程进行整体优化，就像让厨师在开始烹饪前先把所有食材都切好备齐，而不是边做边找食材。

这两项看似"不起眼"的工程优化，加在一起让模型训练速度提升了1.75倍——在同等时间内，能处理的数据量多出了将近一倍，而预测精度完全没有下降。

**三、三把新工具：让模型更聪明、更稳健**

速度提上来之后，研究团队开始着手改进模型的"大脑"本身。他们引入了三项架构层面的改进，每一项都针对前一代模型的一个具体缺陷。

**第一把工具：统一的"标准化尺"**

模型在处理原子特征时，需要对数据进行"标准化"——就像把各种单位的测量数据统一换算成同一套标准，才能进行比较和运算。前代模型采用的方式是给每个"维度"（专业术语叫"度"，即degree L）单独计算一把"尺子"，然后用各自的尺子来标准化各自的数据。这种做法会产生一个问题：所有维度被拉平到同一个尺度之后，原本不同维度之间的相对重要性就消失了——就像把身高180cm的人和身高150cm的人都"标准化"为同一个数值，再也分不清谁高谁矮。

EquiformerV2为了解决这个问题，引入了"分离式层归一化"：对标量特征（L=0）用一把尺子，对其他所有维度（L>0）共用另一把尺子，从而保留了不同维度之间的相对大小关系。

EquiformerV3更进一步，提出了"等变合并层归一化"（equivariant merged layer normalization）：把所有维度的均方根值先各自算出来，然后求一个平均，得到一个统一共享的"合并均方根值"，再用这个共享的值来标准化所有维度。这就相当于给所有维度找了一个共同的"参考基准"，既保留了维度间的相对关系，又让标准化过程更加一致和稳定。实验数据表明，这个改动让能量预测误差和力预测误差都有所下降。

**第二把工具：给"信息处理中枢"扩容**

在等变图神经网络里，计算量最大的环节是处理原子之间的"边"信息——也就是两个原子之间的相互作用。这部分计算代价高昂，因为它涉及复杂的张量积运算。相比之下，处理每个原子自身节点信息的"前馈网络"（feedforward network，FFN）则要轻量得多。

这就像一家工厂里，重型机器（边计算）每小时耗电1000度，而普通流水线（节点计算）每小时只耗电10度。在这种情况下，扩大普通流水线的产能，增加的成本极其有限，但能带来的产出提升却相当可观。

研究团队把前馈网络的隐藏层维度扩大了4倍，模型的参数量只增加了22%，训练时间仅多出了8.6%，但预测精度却得到了明显改善。这是一笔非常划算的"买卖"。

**第三把工具：给"视线"加上平滑的边界**

这项改进涉及一个非常直觉性的问题：当一个原子刚好处于另一个原子的"感知范围"边界时，会发生什么？

模型在计算时，每个原子只考虑一定距离范围内的邻居原子，超出这个范围的原子就被"无视"了。这个范围的边界叫做"截断半径"（cutoff radius）。问题在于，如果边界是硬性的——原子一旦越过这条线就突然从"存在"变为"不存在"——模型预测的势能面（描述原子运动的能量地形图）就会出现"断崖"，在边界处发生不连续的跳变。

对于单纯预测静态结构的能量来说，这个断崖问题影响不大。但当科学家需要用模型来驱动分子动力学模拟——让原子按照计算出的力连续运动——这种不连续性就会导致能量不守恒，模拟结果失真，甚至崩溃。

前代的eSEN模型为了解决这个问题，引入了"包络函数"（envelope function）——一个在边界处平滑衰减到零的函数，让原子对能量的贡献在越过边界时像夕阳西下一样渐渐消失，而不是突然熄灭。EquiformerV3也采用了这个思路，但进一步发现：仅仅对"消息值"（value vector）加上包络函数是不够的，还需要在注意力权重的softmax计算中也引入包络函数。原因是softmax操作本身依赖于所有邻居原子的信息，当某个原子突然进入或离开截断范围时，softmax的分母会发生突变，从而导致注意力权重不连续。将包络函数同时嵌入softmax操作中，才能从根本上保证预测结果的平滑性。

这三把工具组合起来，让EquiformerV3在保持高效的同时，具备了用于真实物理模拟的基础能力。

**四、最核心的创新：SwiGLU-S?激活函数**

前面三项改进都可以看作对已有设计的精细打磨，而第四项改进则带来了一个全新的组件，也是整篇论文最具原创性的贡献：SwiGLU-S?激活函数。

要理解这个激活函数，得先解释两个概念，然后再看它们是如何被巧妙地合并在一起的。

**"球面投影"：把特征铺开在地球仪上**

等变神经网络内部处理的数据，是由一系列"不可约表示"（irreps，简称irreps）组成的特征向量。这些特征可以被理解为：每个原子携带着一套"多维度的天线"，不同维度的天线感知不同的方向信息，L=0的天线感知全方向均匀的信息，L=1的天线感知方向性信息，L=2的天线感知更精细的角度信息，以此类推。

S?激活（Spherical Activation，球面激活）是一种早在2018年就被提出的技术。它的工作原理是：把这些多维度的天线信号，投影到一个虚拟的地球仪表面——也就是单位球面S?上。在这个地球仪的每个采样点（经纬度坐标点）上，你可以把多个天线信号的叠加值读出来，得到一个普通的数字。然后，对这些普通数字做任意你想要的数学变换（比如激活函数），最后再把处理后的信号"收回"到原来的多维天线表示。

这种方式有一个显著优点：在球面上，对普通数字的操作不会破坏整个系统的旋转等变性，因为投影和反投影过程本身保持了对称性。然而，它也有一个隐患：如果在球面上做的操作（比如SiLU激活函数）引入了高频分量，球面上的采样点就需要足够密集，否则会产生"混叠误差"，破坏等变性。EquiformerV2采用的正是这种S?激活，但为了保持等变性，不得不使用相当密集的采样网格。

**张量积：让原子"握手"**

张量积（tensor product）是等变网络里最强大也最昂贵的操作之一。可以把它理解为：让两套天线信号"握手"，从而产生更复杂的组合信号。通过不断握手，网络能够逐渐捕捉到越来越多的"多体相互作用"——不仅仅是两个原子之间的关系，还能感知三个、四个乃至更多原子共同构成的几何构型。

问题是，传统的张量积计算代价极高。好在研究者发现，利用球面投影可以大幅简化张量积：把两套特征都投影到地球仪表面之后，只需要对每个网格点上的两个数值做简单的"点乘"（elementwise multiplication），就等价于做了一次自对称路径的张量积。这把张量积的计算复杂度从O(L?_max)降低到了O(L?_max)。

**SwiGLU-S?：两者合一**

SwiGLU是近年来在大型语言模型（如LLaMA、GPT系列）中广泛使用的一种激活函数，它的核心思想是"门控乘法"：用一路信号来控制另一路信号的"开关"程度。比"直接打开或关闭"更精细，比"单纯线性缩放"更有表达力。

研究团队把SwiGLU的门控思想和S?的球面投影思想融合在一起，设计出了SwiGLU-S?激活函数。具体工作方式是这样的：把特征分成三路——一路标量信号（L=0，也就是全方向均匀的天线），以及两路被投影到地球仪表面的网格信号。标量信号经过Sigmoid函数（一个把任意数值压缩到0到1之间的函数，可以理解为一个"音量旋钮"）处理后，用来门控性地乘以两路网格信号之间的逐点乘积。

这个设计有两个关键妙处。第一，非线性变换（Sigmoid）只施加在标量上，而标量没有方向信息，不存在被高频噪声破坏等变性的风险。球面网格上的操作只有点乘，点乘不会引入高频分量。因此，SwiGLU-S?所需的采样网格点数可以大幅减少——对于L_max=6的情况，注意力模块所需的网格点从324个减少到了160个，采样复杂度降低了50.6%，同时严格保持等变性。第二，两路网格信号的逐点乘积，等价于做了一次自张量积（x?x）。这意味着，每经过一个包含SwiGLU-S?激活的前馈网络，模型就能捕捉到更高阶的多体相互作用。堆叠两个这样的网络，就相当于(x?x)?(x?x)，可以捕捉到5阶相互作用。这种能力，是之前的门控激活和S?激活都不具备的。

研究团队专门复现了一组经典的"几何图分辨实验"来验证这一点。实验中有若干对几何图，它们的两原子间距离完全相同，但三原子间角度不同，或者更高阶的几何关系不同。门控激活和普通S?激活的模型，无论堆叠多少层，都无法区分这些几何图，只能猜测，准确率停在50%。而使用SwiGLU-S?激活的模型，堆叠两个前馈网络就能区分所有测试中的几何图，实现100%准确率。这是理论表达能力上的质的提升。

**五、战场检验：在三大基准测试中的表现**

光有理论突破还不够，最终还要看在真实数据上的表现。研究团队在三个不同规模和类型的数据集上对EquiformerV3进行了全面评估。

**第一战场：OC20——催化剂研究的大考场**

OC20是迄今为止最大的开放催化剂数据集之一，包含超过120万条DFT计算轨迹，覆盖各种吸附分子和催化剂表面的组合。主要任务是给定一个原子结构，预测其能量和每个原子所受的力。

研究团队做了一个系统的消融实验——也就是把每项改进一个一个地"加上去"，观察每一步带来的变化，就像给一道菜依次加入不同的调料，记录每种调料对味道的贡献。

从最基本的EquiformerV2出发，首先把预测目标从"吸附能"改为"总能量"，这一步单独就把能量误差从296 meV降到了242 meV，力误差从21.23降到19.73 meV/A。接着加入软件优化（不改变精度，训练时间从270 GPU小时降到154小时）。加入等变合并层归一化后，误差进一步下降到236 meV和19.28 meV/A。扩大前馈网络隐藏层后，能量误差降到209 meV，力误差降到18.96 meV/A，而训练时间只增加了9小时左右。加入平滑截断注意力后，力误差小幅下降到18.82 meV/A。最后加入SwiGLU-S?激活后，能量误差降至201 meV，力误差降至18.15 meV/A。

与最初的EquiformerV2基线相比，全套改进让能量误差减少了41 meV，力误差减少了1.58 meV/A，同时训练时间节省了将近37%。更值得一提的是：与EquiformerV2使用1.5倍更多Transformer块、训练2.5倍更多轮次的超大版本相比，EquiformerV3可以达到相当的力预测精度，但只需要后者约六分之一的训练时间。

**第二战场：OMat24——材料科学的宝库**

OMat24是由Meta公司发布的开放材料数据集，包含超过1.1亿个非平衡晶体结构，是目前规模最大的无机材料计算数据集之一。这个数据集不仅要预测能量和力，还要预测应力张量（描述材料在受到外力时如何形变的量）。

研究团队训练了L_max=4和L_max=6两个版本的EquiformerV3，并采用了一种两阶段训练策略：先用"直接预测"方式预训练，再用"梯度预测"方式微调。所谓直接预测，就是模型直接输出能量、力和应力的数值；所谓梯度预测，则是让模型只直接预测能量，力和应力通过对能量求导自动得到，这样能保证力和应力在物理上严格自洽。

在L_max=4的梯度微调版本（参数量30M）上，EquiformerV3的力预测误差达到43.5 meV/A，与参数量154M的EquiformerV2-L相当，但模型体积只有后者的五分之一。与参数量700M的UMA-L模型相比，EquiformerV3的L_max=4版本也能达到相近的力预测精度，参数量仅为对方的二十三分之一。升级到L_max=6之后，梯度微调版本的力误差进一步降至41.6 meV/A，超过了所有参与比较的模型。

**第三战场：Matbench Discovery——最贴近真实科学发现的考验**

Matbench Discovery是一个公开的材料科学评测榜单，它考察的不是单纯的预测误差，而是模型在真实材料发现工作流中的实际表现。

评测包含三项核心指标。F1分数衡量的是模型判断一种晶体结构是否热力学稳定的能力（这类似于把一座沙堆塑成某种形状，判断这个形状在重力作用下是否会坍塌还是保持稳固）。RMSD（均方根偏差）衡量的是模型通过能量优化预测出的稳定结构与DFT计算出的真实稳定结构之间的偏差。第三项也是最特殊的一项，叫做κSRME（热导率对称相对平均误差），专门考察模型对热导率的预测精度——这需要对模型预测的势能面求二阶和三阶导数，也就是说，连预测误差本身的"斜率"和"弯曲程度"都要足够精准才行。

前代EquiformerV2在F1分数上表现出色（0.815），但κSRME高达1.676，说明它对热导率的预测极不准确，根本无法用于需要高阶导数的模拟任务。

EquiformerV3在仅使用MPtrj数据集训练的情况下，F1分数提升到0.863，RMSD降至0.070，κSRME大幅下降到0.275，综合性能评分（CPS）达到0.830，超越了所有同等条件下的竞争对手，包括eSEN-30M-MP（CPS=0.797）和SevenNet-l3i5（CPS=0.714）。

当进一步使用OMat24数据集预训练，再在MPtrj和部分Alexandria数据集上微调之后，EquiformerV3的L_max=4版本将CPS推过了0.9的门槛（达到0.902），成为首个突破这一里程碑的模型。与此同时，它的训练时间只需要5700 GPU小时，而竞争对手UMA-M-1.1需要超过12.9万GPU小时，节省了超过22倍的计算资源。

这个结果意味着什么？它说明平滑截断注意力和SwiGLU-S?激活函数一起，让EquiformerV3真正具备了学习"可以求高阶导数"的势能面的能力——这正是做真实物理模拟所必需的基础。

**六、一个有趣的"副产品"：为什么SwiGLU在语言模型里有效？**

研究团队在论文中提出了一个颇具启发性的观点，作为整个工作的"副产品"送给读者。

SwiGLU激活函数在大型语言模型（如GPT、LLaMA等）中被广泛使用，研究者们普遍知道它有效，但具体原因一直不是特别清晰。SwiGLU的原作者Noam Shazeer甚至在论文中以调侃的口吻写道，SwiGLU的成功可以归因于"神圣的眷顾"。

EquiformerV3的研究团队认为，从几何图神经网络中关于"多体相互作用"的理论视角出发，也许可以给SwiGLU在语言模型中的成功提供一个新的解释：SwiGLU的乘法结构，无论是在原子模拟领域还是在自然语言处理领域，都可能是在引入更高阶的特征交互，从而提升模型对复杂模式的捕捉能力。这两个看似毫不相关的领域，在数学结构的深处或许存在着共鸣。

**归根结底，这项研究做了什么、意味着什么**

归根结底，EquiformerV3是一套关于"如何让原子模拟神经网络同时变得更快、更强、更可靠"的完整解决方案。它不是靠单一的"银弹"取胜，而是通过工程优化、架构改进和理论创新的三管齐下，在每个层面都挤出了性能提升。

从实用角度看，这项研究最重要的意义在于：它让原来只能做"静态快照预测"的高精度模型，进化成了可以做"连续动态模拟"的工具。在材料设计和催化剂研究领域，这意味着研究者可以用更小的计算资源、更短的时间，完成更接近真实应用场景的模拟任务。原本需要一个月才能完成的计算，现在或许只需要几天甚至几小时。

当然，研究团队也诚实地指出了当前的局限：在Matbench Discovery上，增大模型规模并未带来进一步的性能提升，说明数据质量和数据策划（例如筛选掉不合理的结构、加入更多专项数据）可能比模型规模更为关键。这也为后续研究指明了方向。

对于关注材料科学、计算化学乃至人工智能基础研究的读者来说，EquiformerV3代表的这条技术路线——将物理对称性严格编码进神经网络架构，同时在效率和表达能力之间寻找平衡——仍然充满探索空间。模型的代码和预训练权重均已开源，有兴趣实际动手的读者可以通过论文编号arXiv:2604.09130找到所有相关资源的链接。

---

Q&A

Q1：EquiformerV3比普通神经网络有什么特别之处？

A：EquiformerV3是专门为模拟原子世界设计的，它把"旋转和平移不改变物理规律"这一性质直接编码进了网络结构。普通神经网络不具备这种特性，用于原子模拟时会给出物理上毫无意义的预测。EquiformerV3则无论从哪个角度观察同一个原子结构，都能给出完全一致且物理上正确的能量和力的预测。

Q2：SwiGLU-S?激活函数为什么能提升预测精度？

A：SwiGLU-S?通过将两套特征在球面上做逐点乘积，等价于执行了一次"自张量积"操作，使模型能够捕捉到三个甚至更多原子共同构成的几何关系（多体相互作用）。普通激活函数做不到这一点。同时，非线性变换只施加在标量信号上，避免了破坏旋转等变性，还能大幅减少采样网格点数，在精度不损失的情况下提升了计算效率。

Q3：EquiformerV3能用于哪些实际科学应用？

A：EquiformerV3的核心能力是快速准确地预测原子结构的能量、力和应力，并且其预测的势能面足够平滑，可以用于分子动力学模拟。实际应用方向包括：筛选新型电池材料和催化剂、预测材料的热导率等物理性质、加速新药物分子的设计，以及替代耗时的量子力学计算（DFT）来驱动大规模材料搜索工作流。

人工智能材料科学新型算法

分享至