
这项由香港科技大学(广州)可持续能源与环境学域、数据科学与分析学域、上海大学材料基因组研究院以及中南大学计算机科学与工程学院联合完成的研究,于2026年8月发表在第32届ACM SIGKDD知识发现与数据挖掘国际会议论文集第二卷(KDD '26)上,会议地点为韩国济州岛,DOI编号为10.1145/3770855.3818948,感兴趣的读者可通过该编号检索完整论文。
一、从电池"年龄预测"说起:这件事为何和所有人都有关
每一块电池都有它自己的"一生"。手机电池用久了越来越不耐用,电动汽车跑着跑着续航就缩水了,储能电站里的电池组也会随着时间一点一点地"老去"。这种现象叫做"电池退化",而衡量电池状态的指标,研究者们称之为"健康状态",英文缩写SOH(State of Health)。可以把SOH理解成电池的"体力值"——新电池是满格100%,随着一次次充放电,这个体力值会逐渐下降,直到某一天跌破某个门槛(比如80%),我们就说这块电池"寿命到头了"。
预测电池从出生到报废这整条"体力曲线",就是所谓的电池退化轨迹预测(BDTF,Battery Degradation Trajectory Forecasting)。更进一步,这项研究专注于"早期预测"——仅凭电池最初100次充放电的数据,就把它未来几百甚至几千次循环的完整退化曲线猜出来。这就好比一位经验丰富的医生,只需要看你20岁时的一次体检报告,就能描绘出你未来几十年的大致健康走势。
为什么这件事重要?2024年全球电池出货量已超过1545吉瓦时,预计2030年将突破4700吉瓦时。电池厂商需要在电池生产出来的早期就判断其品质,以便快速筛选和优化;电动汽车制造商需要知道电池的寿命,以合理定价和制定保修策略;储能电站的运营者需要预判退役时间,合理安排维护。归根结底,准确的早期退化预测能帮助整个行业节省巨大的时间和金钱成本。
这支研究团队在这个方向上提出了一个叫做BatteryMFormer(电池多层次Transformer)的全新模型,试图从多个层次同时理解电池退化这件事,就像同时从宏观地图、街区地图和门牌号三个精度层级来导航,而不是只盯着一张模糊的大地图。
二、现有方法卡在哪儿:两块硬骨头啃不动
在这项研究之前,科学家们已经为电池退化预测想了不少办法,大体上分成两类。一类是"手工提取特征"的路子——专家们根据领域知识,从电压和电流数据里人工挑出一些有代表性的数字,比如某段电压区间内的容量变化,然后用机器学习模型来预测。这种方法在特定场景下表现不错,但有个致命弱点:这些人工设计的特征往往和具体的充电协议绑死了,换一种充电方式就可能完全失效,移植性极差。
另一类方法走的是"让模型自己学"的路子——把原始的电压电流数据或者历史SOH曲线直接喂给神经网络,让它自己发现规律。这类方法里有一种最直觉的做法:把早期几十次循环的SOH数值当成时间序列,直接用通用时间序列预测模型往后推。然而,这里有个棘手的问题:在最初几十次循环里,那些未来退化快的电池和退化慢的电池,SOH看起来几乎一模一样。仅凭这段几乎无法区分的早期数据就要预测后续截然不同的走势,就像试图仅凭一个人20岁时的身高来预测他50岁时的体重,信息量明显不够。
正因如此,越来越多的研究者开始把精细的电压-电流时序数据纳入模型输入,因为这些数据里藏着SOH看不出来的差异信息。但即便如此,现有模型依然面临两块硬骨头。
第一块硬骨头:没有人在"批量层面"认真思考退化规律。现实中,电池的退化行为存在明显的分层结构。在同样的"老化条件"下(比如相同的正负极材料、相同的充放电协议、相同的工作温度),不同电池的退化轨迹会呈现出高度相似的规律性。而从更大的角度看,虽然不同电池的退化曲线看上去千变万化,但电化学领域的专家知道,这些曲线的整体形状其实只有几种基本类型:有的是前期快后期慢的"次线性",有的是匀速下降的"线性",有的是前期慢后期突然加速的"超线性",还有一些电池会出现"容量再生"(短暂回升)或"初始容量上升"等特殊现象。换句话说,退化轨迹的空间虽然复杂,但并不是毫无约束的随机森林,而是有其内在的"骨架"。然而现有模型都在单块电池的层面单打独斗,完全没有把这种多层次的结构利用起来。
第二块硬骨头:退化信号在"荷电状态"维度上是局部化的。荷电状态(SOC,State of Charge)可以理解成电池当前的"剩余电量比例",从0%(完全放电)到100%(完全充满)。研究者们发现,电池退化引起的电压和电流变化,往往不是均匀分布在整个充放电过程中,而是集中在某几个特定的SOC区间里。这背后有深刻的电化学原因——比如某些材料在特定电量区间发生相变,这个相变过程会在电压曲线上留下特征性的"峰",而电池老化后这个峰的位置、宽度和高度都会发生变化。就像一位声纹专家能从一段语音的特定频段识别出说话人的情绪,我们也应该在SOC的特定区间里重点"倾听"退化的信号。但大多数现有模型要么只关注时间维度,要么对SOC区间一视同仁,白白浪费了这些局部化的关键信号。
三、BatteryMFormer的核心思路:三件武器联手破局
面对上述两块硬骨头,研究团队设计了BatteryMFormer,为它配备了三件联动的核心武器。整个模型的逻辑就像一个训练有素的分析师团队:一组人负责从原始数据里提炼信息(双视角编码器),另一组人负责结合这块电池的"出身背景"对信息进行修正(老化条件感知解码器),还有一个"资深顾问"随时从过去的案例库里翻出最相似的退化模式来参考(元退化模式记忆)。
第一件武器是**双视角编码器**,从两个维度同时读取早期数据。
研究团队把每次充放电循环的数据统一重采样到300个数据点,包含电压、电流、容量和SOC四个变量。然后他们让模型同时用两种方式来看这些数据。
"时间视角"的看法是:把每一个充放电循环当成一个独立的"故事片段",提取出这一循环的整体特征表示,然后把前S次循环的特征排成一列,让模型看到"退化的时间流"。此外,模型还会把一些容易计算的循环级指标(比如库仑效率——充入电量和放出电量的比值,以及能量效率)注入进来,丰富每个时间步的信息量。
"SOC视角"的看法则大不相同:它不再按照时间顺序看,而是锁定某一个SOC区间,然后沿着循环次数轴去看这个区间在每一次循环中是如何变化的。具体做法是,用一个一维卷积沿着SOC轴滑动,把数据切分成若干SOC片段(每个片段对应一小段电量区间),然后对每个片段聚合所有早期循环的信息,生成一个"SOC局部退化令牌"。这样一来,如果退化信号集中在某个SOC区间,这个视角就能把它清晰地捕捉下来,而不会被其他区间的噪声稀释。
时间视角给出S个循环级令牌,SOC视角给出M个区间级令牌,两组令牌合在一起,作为后续解码器的输入。
第二件武器是**老化条件感知解码器**,把电池的"身份证"注入预测过程。
每块电池都有它的"出身档案":正极材料是什么(比如磷酸铁锂还是钴酸锂),负极是什么,电解液配方,封装形式(圆柱、方形还是软包),额定容量,生产厂商,化成协议(电池出厂前的初始充放电处理方式),充电协议,放电协议,工作温度……这些因素合在一起,决定了电池的基本退化"性格"。来自同一老化条件的电池,它们的退化曲线往往高度相似。
研究团队的做法很有创意:他们没有用简单的编号来表示这些信息,而是把这些参数拼成一段自然语言文字描述(比如"这是一块方形磷酸铁锂电池,正极材料为…,采用的充电协议为…"),然后用一个叫做Qwen3-Embedding的语言模型把这段文字转化成一个向量,作为"老化条件先验"。
这个先验向量被注入解码器的两个地方。其一,解码器初始的"查询向量"(可以理解为模型的"问题框架")会被这个先验向量修正,使得模型一开始就带着关于这块电池背景的先入之见去读取数据。其二,解码器在每一层进行注意力计算时,都会把这个先验向量叠加到查询端,强制每一次"提问"都带着老化条件的色彩。这种设计让同一老化条件下的电池,在模型内部自然而然地形成相似的表示,避免了模型把两块本质相似的电池当成毫不相干的陌生人来对待。
第三件武器是**元退化模式记忆**,用"案例库"给长期预测提供参照。
这是整个模型中最有趣的部分。研究团队设计了一个可学习的"记忆库",里面存放着若干个"记忆槽",每个槽存储一个向量,代表一种原型退化模式。这些槽的内容不是人工预设的,而是在模型训练过程中自动学习而成,最终每个槽都会"学会"代表一种或几种典型的退化轨迹形态。
当模型处理一块新电池时,它会根据解码器输出的状态,向这个记忆库发起一次"相似度查询"——用余弦相似度衡量当前电池的特征与每个记忆槽的相近程度,然后选出最相似的两个槽,按相似度加权融合,得到一个"检索到的原型退化向量"。
这个原型向量随后通过门控机制与解码器的输出融合。所谓门控,可以理解为一个"可调音量旋钮":模型学会在什么情况下多参考记忆里的原型(旋钮调大),在什么情况下更依赖自己从数据里读到的信息(旋钮调小)。最终,融合后的表示经过一个线性投影层,输出长达5000个时间步的SOH预测序列,覆盖数据库中所有电池的寿命上限。
为了让记忆库真正存储有意义的退化模式,训练时还引入了两个额外的学习目标:一是让检索到的原型向量尽量与真实轨迹的编码向量对齐(相似度最大化);二是确保真实轨迹的编码向量本身包含足够的轨迹信息(通过能重建原始轨迹来验证)。这两个目标加上主预测损失,共同指导整个模型的学习。
四、实验怎么做的:四种不同"脾气"的电池都得接受考验
研究团队在一个叫做BatteryLife的公开数据库上进行了测试,这是目前最大的公开真实电池全寿命数据库。他们选取了其中四个电池域来评估模型。
锂离子电池域包含963块电池,数据汇聚自13个子数据集,涵盖466种不同的老化条件、15种不同的化学体系和8种工作温度,平均寿命863次循环,最长的高达4904次。这是最复杂、最具多样性的域。
CALB域包含27块大型商业锂离子电池,来自生产环境测试,只有4种老化条件,但电池容量更大,平均寿命866次循环。
钠离子电池域包含31块商业钠离子电池,涵盖12种不同充放电协议,平均寿命185次循环,是四个域中寿命最短的。
锌离子电池域包含95块锌离子电池,电解液配方和封装形式各异,工作温度也有差异,平均寿命410次循环,最长达1652次。
评估指标采用平均绝对误差(MAE)和平均绝对百分比误差(MAPE)——前者衡量预测值与真实值之间平均差了多少,后者衡量差了多少个百分点。两者都是数值越小越好。
特别重要的是,所有测试都采用"老化条件独占测试"的设置:测试集里的电池所属的老化条件,在训练和验证阶段完全没有出现过。这就相当于让模型预测一种它从未见过的"电池品种"的退化轨迹,真正检验泛化能力,而不是死记硬背训练数据。
对比基线涵盖了两大类共11个模型。电池专用模型包括IC2ML(利用充电容量增量序列并引入辅助监督)、CPTransformer和CPMLP(均来自BatteryLife基准,专为电池数据设计的Transformer和MLP架构)。通用时间序列预测模型则包括TimeMixer++、TimeBridge、iTransformer、TimesFM、PatchTST(基于Transformer的各种变体)、PatchMLP、DLinear(基于MLP的方法)和ConvTimeNet(基于卷积神经网络的方法)。
为保证公平,所有基线模型都输入相同格式的电压、电流、容量序列数据,只有IC2ML按其原始设计输入容量增量序列,TimesFM按其设计只输入历史SOH序列。每个模型和每个域都至少测试了10种超参数配置,取验证集上表现最好的配置汇报结果。
五、成绩单:BatteryMFormer在四个考场都拿了第一
总体结果非常清晰。在四个域的所有指标上,BatteryMFormer都排在第一位。与各域中表现最好的基线模型相比,它在锂离子域上将MAPE降低了11.07%、MAE降低了10.94%;在CALB域上将MAPE降低了8.49%、MAE降低了10.83%;在钠离子域上将MAPE降低了17.66%、MAE降低了17.65%;在锌离子域上将MAPE降低了8.97%、MAE降低了11.83%。
一个耐人寻味的细节是:各个域里表现最好的基线并不一样。在锂离子、CALB和锌离子域,IC2ML是最强的基线;在钠离子域,TimeBridge是最强的基线。这说明不同电池域里的退化规律各有特点,没有一种通用模型能在所有场景下稳居前列。更麻烦的是,一些基线的表现极不稳定——比如DLinear在钠离子域表现尚可,但在CALB域误差却暴涨到让人无法接受的水平;TimesFM在钠离子域相对稳定,但在锂离子和锌离子域误差极高。相比之下,BatteryMFormer在四个域里都保持了最高的准确率,说明它的多层次学习策略能够适应不同域里截然不同的退化规律。
研究团队还额外测试了一种场景:当可用的早期循环数量从1次增加到100次时,模型表现如何变化。BatteryMFormer在几乎所有的早期循环数量设置下,都持续优于其他对比模型,无论是只有寥寥几次循环还是满100次循环,它都能保持最强的表现。
有一个现象值得一提:在锂离子和钠离子域,当可用早期循环数超过25次时,部分模型(包括BatteryMFormer和一些基线)的预测误差不降反升。这背后有个深层原因:每次循环包含300个数据点,25次循环已经是7500个输入点。相邻循环的数据变化往往极其微小,继续堆砌更多循环只会带来大量冗余信息,反而稀释了真正有价值的退化信号,同时增加了模型优化的难度。类似的现象在其他长序列时间序列预测研究中也有报道。尽管如此,BatteryMFormer整体上依然优于基线,体现了多层次学习策略在处理长序列时的相对优势。
六、拆零件验证:每个部件都是必要的
为了确认每个核心组件是否真的有用,研究团队做了一系列消融实验——也就是把模型的各个部件逐一拆掉,看看性能如何变化,就像一辆车先拆掉发动机、再拆掉方向盘、再拆掉刹车,看看哪个零件最关键。
拆掉SOC视角之后,四个域的错误率都明显上升,锌离子域的MAPE从4.97%跳到6.65%,上升幅度尤为显著。这证明SOC局部化的退化信号确实携带了独特的预测价值,不能被时间视角单独替代。
拆掉元退化模式记忆之后,性能同样在所有域下降,尤其是锌离子域下降幅度最大。这说明对长期退化轨迹原型的显式记忆和检索,对于长视野预测是有实质帮助的。
拆掉老化条件感知解码器(同时移除老化条件告知查询和老化条件感知注意力),性能下降最为明显,在CALB和锌离子域尤其突出。仅拆掉老化条件感知注意力、保留查询初始化,或仅拆掉查询初始化、保留注意力调制,性能也都有不同程度的下降,说明这两种注入老化条件信息的方式是互补的,缺一不可。
研究团队还测试了"用查表方式编码老化条件"的替代方案——把正极材料、负极材料、工作温度等离散参数分别用一个可学习的嵌入向量表示,然后加和投影。这种方案有个硬伤:像"两段式充电协议"这种可变长的文字描述根本没法用固定查表来表示,所以只能用其中几个简单参数。结果显示,这种方案在CALB和锌离子域的误差和波动都明显更大,说明语言模型带来的语义化老化条件表示,确实比简单的查表方式提供了更丰富的信息。
还有一个有趣的对照实验:研究团队给CPTransformer(一个性能不错的基线)喂入和BatteryMFormer完全相同的输入信息,包括电压、电流、容量、SOC、老化条件信息和循环级指标。结果发现,这种增强输入的CPTransformer和原版CPTransformer表现几乎一样差,并没有因为更多信息而提升,仍然远不如BatteryMFormer。这说明BatteryMFormer的优势来自它的多层次学习架构本身,而不仅仅是因为用了更多的输入变量。
七、打开黑盒子:模型究竟在"看"哪里
研究团队做了一些案例分析,试图理解模型内部在干什么。他们选取了三块分别呈现超线性、线性和次线性退化的测试电池,观察模型检索到的记忆原型以及注意力分布。
在记忆检索方面,三块电池各自检索到的前两个记忆槽,其解码出的原型曲线形状都与该电池的真实退化模式高度吻合。超线性退化的电池检索到的两个原型都带有明显的"膝点"(退化突然加速的拐点);线性退化的电池检索到的原型基本是直线下降;次线性退化的电池虽然早期数据看起来退化较快,但检索到的原型显示出后期减速的趋势,帮助模型预判出正确的长期走势。这说明记忆库里的原型确实学到了有意义的退化模式,而不是随机向量。
在注意力分布方面,解码器的跨视角注意力显示:大部分注意力权重落在时间视角的令牌上,但SOC视角的令牌也占据了不可忽视的份额,而且SOC视角的注意力高度集中在少数几个特定的SOC令牌上,其他大部分SOC区间的注意力权重接近于零。这与研究者的预期完全吻合——退化信号是SOC局部化的,模型通过注意力机制自动学会了聚焦最关键的区间,而不是平均分摊注意力。
研究团队还做了一个额外的验证:他们用电化学领域的差分电压分析(DVA)方法对一块测试电池的充放电曲线进行分析,找出在SOC轴上电压变化最剧烈的几个峰值区间(这些区间对应电化学上最敏感的相变过程,被认为是退化信号最集中的地方)。结果发现,BatteryMFormer注意力权重排名前25%的SOC令牌,恰好集中在这几个DVA峰和它们的肩峰附近。换句话说,模型在没有任何电化学知识的监督下,自己学会了去关注那些电化学专家认为最有价值的SOC区间,这个发现令人惊喜。
八、少数据也能打:节省一半训练成本依然领先
电池寿命测试是极其昂贵的工作:一块电池可能要充放电几百上千次,每次都要数小时,完整记录一块电池的全寿命数据可能需要数月甚至数年。因此,在训练数据有限的情况下依然能准确预测,具有重要的现实价值。
研究团队设计了一个"数据高效学习"实验:只保留50%的训练电池,测试集和验证集不变,看各模型在训练数据减半时的表现。BatteryMFormer依然在四个域全面领先。与各域最强基线相比,它在锂离子域上进一步将MAPE降低了12.45%、MAE降低了12.17%;在CALB域上MAPE降低了2.81%、MAE降低了5.22%;在钠离子域上MAPE降低了15.23%、MAE降低了14.98%;在锌离子域上MAPE降低了17.69%、MAE降低了18.04%。
特别值得关注的是钠离子和锌离子域——这两个域本来训练数据就少,老化条件又多样,在减半数据后差距反而拉大了。这说明BatteryMFormer的多层次学习策略特别擅长从有限的数据里挖掘普遍性的退化模式,比单纯依赖数据量的方法更具优势。
九、这项研究的局限和未来方向
研究团队也坦率地指出了当前工作的两个局限性。
首先,当使用较多早期循环(超过25次)时,输入序列会变得很长(超过7500个点),可能导致模型性能反而下降。如何更好地处理长序列输入、去除冗余同时保留关键退化信号,是未来需要改进的方向。
其次,目前的实验都在实验室或标准化生产测试数据上进行,数据比较规整。而在电动汽车实际运营中,充放电行为因人而异,数据记录可能不规整甚至有噪声,把BatteryMFormer直接移植到这类"野外数据"可能需要额外的预处理和模型调整。
此外,这种预测模型在高风险场景下(比如决定是否退役电池、何时进行维护)使用时,预测误差可能带来错误决策,因此在正式部署前必须针对目标使用场景进行充分的验证。
归根结底,BatteryMFormer这项研究的意义在于:它系统性地指出并验证了,电池退化数据天然具有多层次结构,而这种结构是可以被显式建模和利用的。老化条件层面的共同规律、跨电池共享的退化轨迹原型、SOC维度上局部化的退化信号——这三件事放在一起,构成了比任何单一层次更丰富、更有预测力的信息体系。这个思路不仅对电池科学有价值,对于其他存在类似多层次结构的时间序列预测问题,或许也能提供有益的启发。有兴趣深入了解完整技术细节的读者,可以通过DOI编号10.1145/3770855.3818948查阅完整论文。
Q&A
Q1:BatteryMFormer是怎么利用电池"出身背景"来预测退化的?
A:BatteryMFormer会把电池的各种参数(正负极材料、充放电协议、工作温度等)拼成一段自然语言描述,用语言模型转化成一个向量,再把这个向量注入解码器的查询初始化和每一层的注意力计算中。这样,同一老化条件下的电池在模型内部自然形成相似的表示,让模型对"同类电池"的规律学得更准,对新出现的同类电池预测更可靠。
Q2:元退化模式记忆里的"原型轨迹"是人工设定的还是自动学出来的?
A:完全是自动学出来的。记忆库里的槽位初始是随机向量,在训练过程中通过两个额外的学习目标被不断调整:一是让检索到的原型向量尽量贴近真实轨迹的编码,二是确保轨迹编码包含足够信息可以重建原始曲线。经过训练后,每个槽位自然地"聚合"成某一类典型退化形状的代表,无需人工干预。
Q3:BatteryMFormer能预测锂离子电池以外的电池类型吗?
A:可以。研究团队在锂离子电池、商业大容量锂离子电池、钠离子电池和锌离子电池四种类型上都进行了测试,BatteryMFormer在全部四种类型上都取得了最好的成绩。尤其是在钠离子和锌离子这类数据相对稀少的领域,BatteryMFormer的优势更加突出,说明其多层次学习框架具有较好的跨化学体系泛化能力。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。