
这项由麻省理工学院(MIT)与Mirror Physics公司联合开展的研究,以预印本形式于2026年4月13日发布,论文编号为arXiv:2604.09130。感兴趣的读者可通过该编号在arXiv平台查阅完整论文。
**原子世界里的"地图测绘师"**
每当科学家想要设计一种新材料——比如更耐用的电池、更高效的催化剂,或者某种能吸收空气中二氧化碳的化学物质——他们最想知道的一个基本问题是:这些原子聚在一起之后,能量是多少?原子之间的力又是怎样的?
回答这个问题的传统方法叫做"密度泛函理论计算"(DFT),可以把它理解成一张极其精确的原子世界地图测绘工作。这份地图非常准确,但绘制起来极其耗时——一次完整的计算往往需要花费几小时甚至几天的时间。对于那些需要探索成千上万种原子排列方式的材料研究者来说,这种速度简直是噩梦。
正因如此,近年来研究者们开始训练神经网络来充当"快速地图阅读器"——用机器学习模型来预测那些耗时的量子力学计算结果。麻省理工学院与Mirror Physics团队正是在这条赛道上持续深耕的一支力量。他们的最新成果,叫做EquiformerV3,是同系列模型的第三代产品。
这篇文章要讲的,就是这第三代"地图阅读器"究竟做了哪些升级,为什么这些升级很重要,以及它在真实的科学测试中表现如何。
**一、为什么普通的神经网络不够用**
要理解这项研究的意义,先得明白一个核心挑战:原子世界有其特殊的"游戏规则"。
考虑这样一个场景——你手里捧着一个水分子,由两个氢原子和一个氧原子组成。无论你怎么旋转这个分子,它的化学性质不会改变。把它向左转30度,或者向右转90度,它依然是水,它的能量依然是相同的数值。科学家把这种性质叫做"旋转等变性"(equivariance)——物理规律在旋转变换下保持不变。
普通的神经网络,比如那些用来识别猫咪图片的模型,根本不具备这种特性。给它一张正立的猫的照片和一张倒立的猫的照片,它可能会给出完全不同的判断,除非你专门训练它识别各种角度。对于原子模拟来说,这种"不知道旋转"的问题会导致模型的预测毫无物理意义。
于是,研究者们专门设计了一类叫做"SE(3)等变图神经网络"(SE(3)-equivariant GNN)的模型。这类模型在设计之初就把旋转和平移的对称性"烧录"进了自己的运算结构里,无论原子云从哪个角度被观察,它给出的能量预测都是一致且正确的。
EquiformerV3正是这类模型中的佼佼者。它的前两代产品EquiformerV1和EquiformerV2已经在科学界赢得了相当的声誉。而这一次,第三代在三个维度上同时发力:更快、更强、更通用。
**二、从齿轮到火箭:计算速度的优化**
一台好的跑车,光有强劲的引擎还不够,传动系统也得跟得上。对于神经网络来说,道理是一样的。即使模型架构设计得再精妙,如果底层的软件实现效率低下,大量的计算时间就会白白浪费在无意义的重复操作上。
EquiformerV3的第一项改进,就是专注于清理这些"无意义的重复"。
前一代模型EquiformerV2在做核心计算时,采用了一种叫做"eSCN卷积"的技术。这种技术的工作方式,可以理解为:先把原子特征信息"旋转"到一个特定的坐标系,然后在这个坐标系里做计算,最后再"旋转"回来。在旋转的过程中,原有实现需要额外乘以一个"排列矩阵"来重新整理数据的顺序,而这个操作在每次计算中都要重复执行,浪费了大量资源。
研究团队发现,这个排列步骤完全可以预先合并到旋转矩阵里——换句话说,只需要在程序启动时做一次"预处理",后续所有计算就再也不需要这个额外步骤了。这就像把每次做饭前都要临时磨刀的过程,改成一开始就备好一把永远锋利的刀,省去了每次重复磨刀的时间。
除了融合冗余操作,团队还修复了若干代码层面的小问题,让程序支持PyTorch的"编译加速"功能(torch.compile())。这个功能可以让程序在运行前先对计算流程进行整体优化,就像让厨师在开始烹饪前先把所有食材都切好备齐,而不是边做边找食材。
这两项看似"不起眼"的工程优化,加在一起让模型训练速度提升了1.75倍——在同等时间内,能处理的数据量多出了将近一倍,而预测精度完全没有下降。
**三、三把新工具:让模型更聪明、更稳健**
速度提上来之后,研究团队开始着手改进模型的"大脑"本身。他们引入了三项架构层面的改进,每一项都针对前一代模型的一个具体缺陷。
**第一把工具:统一的"标准化尺"**
模型在处理原子特征时,需要对数据进行"标准化"——就像把各种单位的测量数据统一换算成同一套标准,才能进行比较和运算。前代模型采用的方式是给每个"维度"(专业术语叫"度",即degree L)单独计算一把"尺子",然后用各自的尺子来标准化各自的数据。这种做法会产生一个问题:所有维度被拉平到同一个尺度之后,原本不同维度之间的相对重要性就消失了——就像把身高180cm的人和身高150cm的人都"标准化"为同一个数值,再也分不清谁高谁矮。
EquiformerV2为了解决这个问题,引入了"分离式层归一化":对标量特征(L=0)用一把尺子,对其他所有维度(L>0)共用另一把尺子,从而保留了不同维度之间的相对大小关系。
EquiformerV3更进一步,提出了"等变合并层归一化"(equivariant merged layer normalization):把所有维度的均方根值先各自算出来,然后求一个平均,得到一个统一共享的"合并均方根值",再用这个共享的值来标准化所有维度。这就相当于给所有维度找了一个共同的"参考基准",既保留了维度间的相对关系,又让标准化过程更加一致和稳定。实验数据表明,这个改动让能量预测误差和力预测误差都有所下降。
**第二把工具:给"信息处理中枢"扩容**
在等变图神经网络里,计算量最大的环节是处理原子之间的"边"信息——也就是两个原子之间的相互作用。这部分计算代价高昂,因为它涉及复杂的张量积运算。相比之下,处理每个原子自身节点信息的"前馈网络"(feedforward network,FFN)则要轻量得多。
这就像一家工厂里,重型机器(边计算)每小时耗电1000度,而普通流水线(节点计算)每小时只耗电10度。在这种情况下,扩大普通流水线的产能,增加的成本极其有限,但能带来的产出提升却相当可观。
研究团队把前馈网络的隐藏层维度扩大了4倍,模型的参数量只增加了22%,训练时间仅多出了8.6%,但预测精度却得到了明显改善。这是一笔非常划算的"买卖"。
**第三把工具:给"视线"加上平滑的边界**
这项改进涉及一个非常直觉性的问题:当一个原子刚好处于另一个原子的"感知范围"边界时,会发生什么?
模型在计算时,每个原子只考虑一定距离范围内的邻居原子,超出这个范围的原子就被"无视"了。这个范围的边界叫做"截断半径"(cutoff radius)。问题在于,如果边界是硬性的——原子一旦越过这条线就突然从"存在"变为"不存在"——模型预测的势能面(描述原子运动的能量地形图)就会出现"断崖",在边界处发生不连续的跳变。
对于单纯预测静态结构的能量来说,这个断崖问题影响不大。但当科学家需要用模型来驱动分子动力学模拟——让原子按照计算出的力连续运动——这种不连续性就会导致能量不守恒,模拟结果失真,甚至崩溃。
前代的eSEN模型为了解决这个问题,引入了"包络函数"(envelope function)——一个在边界处平滑衰减到零的函数,让原子对能量的贡献在越过边界时像夕阳西下一样渐渐消失,而不是突然熄灭。EquiformerV3也采用了这个思路,但进一步发现:仅仅对"消息值"(value vector)加上包络函数是不够的,还需要在注意力权重的softmax计算中也引入包络函数。原因是softmax操作本身依赖于所有邻居原子的信息,当某个原子突然进入或离开截断范围时,softmax的分母会发生突变,从而导致注意力权重不连续。将包络函数同时嵌入softmax操作中,才能从根本上保证预测结果的平滑性。
这三把工具组合起来,让EquiformerV3在保持高效的同时,具备了用于真实物理模拟的基础能力。
**四、最核心的创新:SwiGLU-S?激活函数**
前面三项改进都可以看作对已有设计的精细打磨,而第四项改进则带来了一个全新的组件,也是整篇论文最具原创性的贡献:SwiGLU-S?激活函数。
要理解这个激活函数,得先解释两个概念,然后再看它们是如何被巧妙地合并在一起的。
**"球面投影":把特征铺开在地球仪上**
等变神经网络内部处理的数据,是由一系列"不可约表示"(irreps,简称irreps)组成的特征向量。这些特征可以被理解为:每个原子携带着一套"多维度的天线",不同维度的天线感知不同的方向信息,L=0的天线感知全方向均匀的信息,L=1的天线感知方向性信息,L=2的天线感知更精细的角度信息,以此类推。
S?激活(Spherical Activation,球面激活)是一种早在2018年就被提出的技术。它的工作原理是:把这些多维度的天线信号,投影到一个虚拟的地球仪表面——也就是单位球面S?上。在这个地球仪的每个采样点(经纬度坐标点)上,你可以把多个天线信号的叠加值读出来,得到一个普通的数字。然后,对这些普通数字做任意你想要的数学变换(比如激活函数),最后再把处理后的信号"收回"到原来的多维天线表示。
这种方式有一个显著优点:在球面上,对普通数字的操作不会破坏整个系统的旋转等变性,因为投影和反投影过程本身保持了对称性。然而,它也有一个隐患:如果在球面上做的操作(比如SiLU激活函数)引入了高频分量,球面上的采样点就需要足够密集,否则会产生"混叠误差",破坏等变性。EquiformerV2采用的正是这种S?激活,但为了保持等变性,不得不使用相当密集的采样网格。
**张量积:让原子"握手"**
张量积(tensor product)是等变网络里最强大也最昂贵的操作之一。可以把它理解为:让两套天线信号"握手",从而产生更复杂的组合信号。通过不断握手,网络能够逐渐捕捉到越来越多的"多体相互作用"——不仅仅是两个原子之间的关系,还能感知三个、四个乃至更多原子共同构成的几何构型。
问题是,传统的张量积计算代价极高。好在研究者发现,利用球面投影可以大幅简化张量积:把两套特征都投影到地球仪表面之后,只需要对每个网格点上的两个数值做简单的"点乘"(elementwise multiplication),就等价于做了一次自对称路径的张量积。这把张量积的计算复杂度从O(L?_max)降低到了O(L?_max)。
**SwiGLU-S?:两者合一**
SwiGLU是近年来在大型语言模型(如LLaMA、GPT系列)中广泛使用的一种激活函数,它的核心思想是"门控乘法":用一路信号来控制另一路信号的"开关"程度。比"直接打开或关闭"更精细,比"单纯线性缩放"更有表达力。
研究团队把SwiGLU的门控思想和S?的球面投影思想融合在一起,设计出了SwiGLU-S?激活函数。具体工作方式是这样的:把特征分成三路——一路标量信号(L=0,也就是全方向均匀的天线),以及两路被投影到地球仪表面的网格信号。标量信号经过Sigmoid函数(一个把任意数值压缩到0到1之间的函数,可以理解为一个"音量旋钮")处理后,用来门控性地乘以两路网格信号之间的逐点乘积。
这个设计有两个关键妙处。第一,非线性变换(Sigmoid)只施加在标量上,而标量没有方向信息,不存在被高频噪声破坏等变性的风险。球面网格上的操作只有点乘,点乘不会引入高频分量。因此,SwiGLU-S?所需的采样网格点数可以大幅减少——对于L_max=6的情况,注意力模块所需的网格点从324个减少到了160个,采样复杂度降低了50.6%,同时严格保持等变性。第二,两路网格信号的逐点乘积,等价于做了一次自张量积(x?x)。这意味着,每经过一个包含SwiGLU-S?激活的前馈网络,模型就能捕捉到更高阶的多体相互作用。堆叠两个这样的网络,就相当于(x?x)?(x?x),可以捕捉到5阶相互作用。这种能力,是之前的门控激活和S?激活都不具备的。
研究团队专门复现了一组经典的"几何图分辨实验"来验证这一点。实验中有若干对几何图,它们的两原子间距离完全相同,但三原子间角度不同,或者更高阶的几何关系不同。门控激活和普通S?激活的模型,无论堆叠多少层,都无法区分这些几何图,只能猜测,准确率停在50%。而使用SwiGLU-S?激活的模型,堆叠两个前馈网络就能区分所有测试中的几何图,实现100%准确率。这是理论表达能力上的质的提升。
**五、战场检验:在三大基准测试中的表现**
光有理论突破还不够,最终还要看在真实数据上的表现。研究团队在三个不同规模和类型的数据集上对EquiformerV3进行了全面评估。
**第一战场:OC20——催化剂研究的大考场**
OC20是迄今为止最大的开放催化剂数据集之一,包含超过120万条DFT计算轨迹,覆盖各种吸附分子和催化剂表面的组合。主要任务是给定一个原子结构,预测其能量和每个原子所受的力。
研究团队做了一个系统的消融实验——也就是把每项改进一个一个地"加上去",观察每一步带来的变化,就像给一道菜依次加入不同的调料,记录每种调料对味道的贡献。
从最基本的EquiformerV2出发,首先把预测目标从"吸附能"改为"总能量",这一步单独就把能量误差从296 meV降到了242 meV,力误差从21.23降到19.73 meV/A。接着加入软件优化(不改变精度,训练时间从270 GPU小时降到154小时)。加入等变合并层归一化后,误差进一步下降到236 meV和19.28 meV/A。扩大前馈网络隐藏层后,能量误差降到209 meV,力误差降到18.96 meV/A,而训练时间只增加了9小时左右。加入平滑截断注意力后,力误差小幅下降到18.82 meV/A。最后加入SwiGLU-S?激活后,能量误差降至201 meV,力误差降至18.15 meV/A。
与最初的EquiformerV2基线相比,全套改进让能量误差减少了41 meV,力误差减少了1.58 meV/A,同时训练时间节省了将近37%。更值得一提的是:与EquiformerV2使用1.5倍更多Transformer块、训练2.5倍更多轮次的超大版本相比,EquiformerV3可以达到相当的力预测精度,但只需要后者约六分之一的训练时间。
**第二战场:OMat24——材料科学的宝库**
OMat24是由Meta公司发布的开放材料数据集,包含超过1.1亿个非平衡晶体结构,是目前规模最大的无机材料计算数据集之一。这个数据集不仅要预测能量和力,还要预测应力张量(描述材料在受到外力时如何形变的量)。
研究团队训练了L_max=4和L_max=6两个版本的EquiformerV3,并采用了一种两阶段训练策略:先用"直接预测"方式预训练,再用"梯度预测"方式微调。所谓直接预测,就是模型直接输出能量、力和应力的数值;所谓梯度预测,则是让模型只直接预测能量,力和应力通过对能量求导自动得到,这样能保证力和应力在物理上严格自洽。
在L_max=4的梯度微调版本(参数量30M)上,EquiformerV3的力预测误差达到43.5 meV/A,与参数量154M的EquiformerV2-L相当,但模型体积只有后者的五分之一。与参数量700M的UMA-L模型相比,EquiformerV3的L_max=4版本也能达到相近的力预测精度,参数量仅为对方的二十三分之一。升级到L_max=6之后,梯度微调版本的力误差进一步降至41.6 meV/A,超过了所有参与比较的模型。
**第三战场:Matbench Discovery——最贴近真实科学发现的考验**
Matbench Discovery是一个公开的材料科学评测榜单,它考察的不是单纯的预测误差,而是模型在真实材料发现工作流中的实际表现。
评测包含三项核心指标。F1分数衡量的是模型判断一种晶体结构是否热力学稳定的能力(这类似于把一座沙堆塑成某种形状,判断这个形状在重力作用下是否会坍塌还是保持稳固)。RMSD(均方根偏差)衡量的是模型通过能量优化预测出的稳定结构与DFT计算出的真实稳定结构之间的偏差。第三项也是最特殊的一项,叫做κSRME(热导率对称相对平均误差),专门考察模型对热导率的预测精度——这需要对模型预测的势能面求二阶和三阶导数,也就是说,连预测误差本身的"斜率"和"弯曲程度"都要足够精准才行。
前代EquiformerV2在F1分数上表现出色(0.815),但κSRME高达1.676,说明它对热导率的预测极不准确,根本无法用于需要高阶导数的模拟任务。
EquiformerV3在仅使用MPtrj数据集训练的情况下,F1分数提升到0.863,RMSD降至0.070,κSRME大幅下降到0.275,综合性能评分(CPS)达到0.830,超越了所有同等条件下的竞争对手,包括eSEN-30M-MP(CPS=0.797)和SevenNet-l3i5(CPS=0.714)。
当进一步使用OMat24数据集预训练,再在MPtrj和部分Alexandria数据集上微调之后,EquiformerV3的L_max=4版本将CPS推过了0.9的门槛(达到0.902),成为首个突破这一里程碑的模型。与此同时,它的训练时间只需要5700 GPU小时,而竞争对手UMA-M-1.1需要超过12.9万GPU小时,节省了超过22倍的计算资源。
这个结果意味着什么?它说明平滑截断注意力和SwiGLU-S?激活函数一起,让EquiformerV3真正具备了学习"可以求高阶导数"的势能面的能力——这正是做真实物理模拟所必需的基础。
**六、一个有趣的"副产品":为什么SwiGLU在语言模型里有效?**
研究团队在论文中提出了一个颇具启发性的观点,作为整个工作的"副产品"送给读者。
SwiGLU激活函数在大型语言模型(如GPT、LLaMA等)中被广泛使用,研究者们普遍知道它有效,但具体原因一直不是特别清晰。SwiGLU的原作者Noam Shazeer甚至在论文中以调侃的口吻写道,SwiGLU的成功可以归因于"神圣的眷顾"。
EquiformerV3的研究团队认为,从几何图神经网络中关于"多体相互作用"的理论视角出发,也许可以给SwiGLU在语言模型中的成功提供一个新的解释:SwiGLU的乘法结构,无论是在原子模拟领域还是在自然语言处理领域,都可能是在引入更高阶的特征交互,从而提升模型对复杂模式的捕捉能力。这两个看似毫不相关的领域,在数学结构的深处或许存在着共鸣。
**归根结底,这项研究做了什么、意味着什么**
归根结底,EquiformerV3是一套关于"如何让原子模拟神经网络同时变得更快、更强、更可靠"的完整解决方案。它不是靠单一的"银弹"取胜,而是通过工程优化、架构改进和理论创新的三管齐下,在每个层面都挤出了性能提升。
从实用角度看,这项研究最重要的意义在于:它让原来只能做"静态快照预测"的高精度模型,进化成了可以做"连续动态模拟"的工具。在材料设计和催化剂研究领域,这意味着研究者可以用更小的计算资源、更短的时间,完成更接近真实应用场景的模拟任务。原本需要一个月才能完成的计算,现在或许只需要几天甚至几小时。
当然,研究团队也诚实地指出了当前的局限:在Matbench Discovery上,增大模型规模并未带来进一步的性能提升,说明数据质量和数据策划(例如筛选掉不合理的结构、加入更多专项数据)可能比模型规模更为关键。这也为后续研究指明了方向。
对于关注材料科学、计算化学乃至人工智能基础研究的读者来说,EquiformerV3代表的这条技术路线——将物理对称性严格编码进神经网络架构,同时在效率和表达能力之间寻找平衡——仍然充满探索空间。模型的代码和预训练权重均已开源,有兴趣实际动手的读者可以通过论文编号arXiv:2604.09130找到所有相关资源的链接。
---
Q&A
Q1:EquiformerV3比普通神经网络有什么特别之处?
A:EquiformerV3是专门为模拟原子世界设计的,它把"旋转和平移不改变物理规律"这一性质直接编码进了网络结构。普通神经网络不具备这种特性,用于原子模拟时会给出物理上毫无意义的预测。EquiformerV3则无论从哪个角度观察同一个原子结构,都能给出完全一致且物理上正确的能量和力的预测。
Q2:SwiGLU-S?激活函数为什么能提升预测精度?
A:SwiGLU-S?通过将两套特征在球面上做逐点乘积,等价于执行了一次"自张量积"操作,使模型能够捕捉到三个甚至更多原子共同构成的几何关系(多体相互作用)。普通激活函数做不到这一点。同时,非线性变换只施加在标量信号上,避免了破坏旋转等变性,还能大幅减少采样网格点数,在精度不损失的情况下提升了计算效率。
Q3:EquiformerV3能用于哪些实际科学应用?
A:EquiformerV3的核心能力是快速准确地预测原子结构的能量、力和应力,并且其预测的势能面足够平滑,可以用于分子动力学模拟。实际应用方向包括:筛选新型电池材料和催化剂、预测材料的热导率等物理性质、加速新药物分子的设计,以及替代耗时的量子力学计算(DFT)来驱动大规模材料搜索工作流。
好文章,需要你的鼓励
本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。
这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。
中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。
这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。