这项由四川大学、浙江大学和清华大学研究团队共同完成的研究,发表于2025年6月的第42届国际机器学习会议(ICML 2025)。论文由来自四川大学的陆奥军和孙亚男、浙江大学的袁杭杰以及清华大学的冯涛共同撰写,标题为《从架构角度重新思考持续学习中的稳定性-可塑性权衡》(arXiv:2506.03951v1)。有兴趣深入了解的读者可以通过arXiv预印本平台查阅完整论文。
持续学习的平衡难题
想象一下,你在尝试学习各种新技能。一方面,你希望快速掌握新知识;另一方面,你不想忘记已经学会的内容。这正是人工智能研究中"持续学习"(Continual Learning, CL)面临的核心挑战。
神经网络在学习新任务时,往往会出现"灾难性遗忘"(catastrophic forgetting)现象,也就是说,当学习新数据时,网络会迅速忘记之前学过的知识。要解决这个问题,神经网络必须在两个相互冲突的目标之间找到平衡:稳定性(stability)——保持已获取的知识,和可塑性(plasticity)——学习新概念的能力。这种两难局面被称为"稳定性-可塑性困境"。
研究团队指出,现有的大多数持续学习方法都专注于开发新的学习算法来优化参数层面的权衡,却忽视了网络架构本身对稳定性和可塑性的影响。本研究正是针对这一研究空白,探索了架构层面的稳定性-可塑性困境,并提出了一种创新解决方案。
架构层面的稳定性与可塑性
研究团队首先进行了一项实验,比较了原始ResNet-18网络与其更宽但更浅的变体在持续学习中的表现。实验结果非常有趣:ResNet-18在新任务上达到了更高的准确率,表明它具有更好的可塑性;而更宽更浅的变体则展现出更低的平均遗忘,说明它具有更强的稳定性。
这就像两个不同类型的学生:一个学生(深度网络)善于快速学习新知识,但容易忘记旧知识;另一个学生(宽度网络)记忆力很好,能保持已学内容,但学习新事物较慢。研究者由此推断,在架构层面也存在稳定性-可塑性的权衡问题。
想象一下,如果能将这两种学生的优势结合起来会怎样?这正是研究团队提出的创新思路。他们开发了一个名为"双架构"(Dual-Architecture, 简称Dual-Arch)的框架,利用两个独立网络的互补优势:一个专注于可塑性,另一个专注于稳定性。
双架构框架的工作原理
传统的持续学习方法通常使用单一学习器,通过优化损失函数来平衡稳定性和可塑性。相比之下,Dual-Arch框架采用了两个具有不同架构的独立网络:可塑性学习器(Plastic Learner)和稳定性学习器(Stable Learner)。
可以把这个过程想象成两个专家的合作:一个是创新专家,擅长快速掌握新知识;另一个是记忆专家,善于保存和整合知识。当新任务出现时,创新专家(可塑性学习器)首先学习新知识,然后通过"知识蒸馏"(knowledge distillation)技术将这些新知识传授给记忆专家(稳定性学习器)。记忆专家在接收新知识的同时,也保留了之前积累的经验。
具体来说,研究团队为两个学习器设计了专门的轻量级架构。可塑性学习器采用深而窄的架构,类似于ResNet-18但通道数减少;稳定性学习器则采用宽而浅的架构,保持与ResNet-18相同的宽度但减少了残差块的数量,并修改了全局平均池化层以增加分类器的宽度。这样的设计使得两个网络都比原始ResNet-18小得多,但组合起来能发挥更好的性能。
学习算法的工作流程
Dual-Arch的学习过程可以分为两个连续的阶段。当新任务出现时:
首先,可塑性学习器会专注于学习当前任务数据,不考虑保留之前学到的知识。这就像让创新专家自由发挥,专心吸收新知识。
然后,可塑性学习器的参数被冻结,作为"教师模型"保存下来。稳定性学习器(作为"学生模型")通过一个复合损失函数进行训练,这个损失函数包含三部分:一个硬标签损失(交叉熵损失)确保预测与实际标签一致;一个蒸馏损失使稳定性学习器能从可塑性学习器中学习;以及一个由特定持续学习方法定义的损失项,用于保留之前的知识。
通过这种方式,稳定性学习器能够同时保持之前学到的知识,并有效整合新知识。在评估阶段,只使用稳定性学习器进行推理,确保计算效率。
实验验证与结果分析
研究团队在多个数据集上进行了广泛实验,包括CIFAR100和ImageNet100,并与五种最先进的持续学习方法(iCaRL、WA、DER、Foster和MEMO)结合测试。
实验结果令人印象深刻:Dual-Arch框架在各种方法、数据集和增量步骤中始终优于使用单一架构的基线。最大提升达到了10.29%的最终准确率(LA)和7.62%的平均增量准确率(AIA),同时参数数量减少了至少33%。
这就像用更少的资源获得了更好的学习效果。想象一下,如果两个专业人士共同工作,每人专注于自己的专长领域,他们的总体表现通常会优于一个人试图同时处理所有任务。
研究者还进行了消融研究,证明了双网络框架和专门设计的架构的重要性。结果显示,去除可塑性学习器会导致AIA平均下降2.63%,而使用非专门化架构也会降低性能。
在参数效率方面,Dual-Arch表现尤为突出。研究显示,与基线相比,Dual-Arch可以在减少高达87%参数的同时仍然提高性能。这对于内存受限的环境特别有益。
为什么Dual-Arch有效?
为了深入了解Dual-Arch的工作原理,研究者分析了稳定性-可塑性权衡和偏差校正两个方面。
在稳定性-可塑性权衡方面,研究显示Dual-Arch确实结合了两种架构的优势。单独使用可塑性网络会在先前任务上出现严重遗忘,而单独使用稳定性网络则在新任务上表现不佳。Dual-Arch在两个方面都表现出色,实现了架构层面的稳定性-可塑性平衡。
在偏差校正方面,研究者分析了任务混淆矩阵,发现Dual-Arch能够更准确地确定正确的任务ID,减少任务间的分类错误。特别是,它显著减少了将早期任务数据错分为最近学习任务的情况,这被称为"任务新近性偏差"(task-recency bias),是灾难性遗忘的主要原因之一。
研究的意义与启示
这项研究提供了一个全新的视角来思考持续学习中的稳定性-可塑性困境。与传统方法不同,Dual-Arch将这种权衡从参数层面扩展到架构层面,并通过利用两种互补架构的优势来解决这一挑战。
这项工作的核心启示在于,为了实现有效的持续学习,不仅需要优化学习算法,还需要仔细考虑网络架构的设计。通过为不同目标(稳定性和可塑性)定制不同的架构,可以实现更好的整体性能。
对于实际应用,Dual-Arch提供了一种参数高效的解决方案,特别适合资源受限的环境。它可以作为即插即用的组件,轻松与各种现有持续学习方法结合,显著提高它们的性能。
研究团队还验证了该方法在Vision Transformers等其他架构上的有效性,说明这一框架具有广泛的适用性。此外,在具有模糊任务边界的更具挑战性场景中,Dual-Arch也表现出色,进一步证明了其实用价值。
总结与展望
归根结底,这项研究向我们展示了一个简单而强大的见解:在持续学习中,网络架构的设计与学习算法同样重要。通过将稳定性和可塑性分配给两个专门设计的网络,Dual-Arch框架实现了两全其美——更好的性能和更少的参数。
这就像是在学习过程中拥有两位专家教练,一位帮助你快速掌握新知识,另一位帮助你牢固记住已学内容。这种方法不仅在理论上具有吸引力,在实践中也证明了其有效性。
虽然Dual-Arch在训练时间方面有所增加(约1.39倍至1.77倍),但在推理时却实现了更高的计算效率。对于许多实际应用来说,这是一个值得接受的权衡。
这项研究为持续学习领域开辟了新的研究方向,鼓励研究者探索架构设计在解决学习困境中的潜力。未来的工作可能会进一步优化专用架构的设计,或探索更多可能的架构组合,以进一步提高持续学习的性能。
对普通读者来说,这项研究启示我们,在面对需要同时保持旧知识和学习新内容的任务时,可以考虑采用"分工合作"的策略,让不同的系统各司其职,从而达到整体最优的效果。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。