微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

双架构设计：破解持续学习中稳定性与可塑性的两难困境

持续学习神经网络架构知识蒸馏

双架构设计：破解持续学习中稳定性与可塑性的两难困境

作者：科技行者

2025-06-08 16:43

分享至：

这项由四川大学、浙江大学和清华大学合作完成的研究提出了"双架构"框架，创新性地解决了持续学习中的稳定性-可塑性困境。研究发现深度网络具有更好的可塑性，而宽度网络则更具稳定性，据此设计了两个互补网络：一个专注学习新知识，另一个专注保留旧知识。实验表明，该方法在多个数据集上超越现有技术，同时减少高达87%的参数，为资源受限环境提供了高效解决方案。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-08 16:43 • 科技行者

这项由四川大学、浙江大学和清华大学研究团队共同完成的研究，发表于2025年6月的第42届国际机器学习会议(ICML 2025)。论文由来自四川大学的陆奥军和孙亚男、浙江大学的袁杭杰以及清华大学的冯涛共同撰写，标题为《从架构角度重新思考持续学习中的稳定性-可塑性权衡》(arXiv:2506.03951v1)。有兴趣深入了解的读者可以通过arXiv预印本平台查阅完整论文。

持续学习的平衡难题

想象一下，你在尝试学习各种新技能。一方面，你希望快速掌握新知识；另一方面，你不想忘记已经学会的内容。这正是人工智能研究中"持续学习"(Continual Learning, CL)面临的核心挑战。

神经网络在学习新任务时，往往会出现"灾难性遗忘"(catastrophic forgetting)现象，也就是说，当学习新数据时，网络会迅速忘记之前学过的知识。要解决这个问题，神经网络必须在两个相互冲突的目标之间找到平衡：稳定性(stability)——保持已获取的知识，和可塑性(plasticity)——学习新概念的能力。这种两难局面被称为"稳定性-可塑性困境"。

研究团队指出，现有的大多数持续学习方法都专注于开发新的学习算法来优化参数层面的权衡，却忽视了网络架构本身对稳定性和可塑性的影响。本研究正是针对这一研究空白，探索了架构层面的稳定性-可塑性困境，并提出了一种创新解决方案。

架构层面的稳定性与可塑性

研究团队首先进行了一项实验，比较了原始ResNet-18网络与其更宽但更浅的变体在持续学习中的表现。实验结果非常有趣：ResNet-18在新任务上达到了更高的准确率，表明它具有更好的可塑性；而更宽更浅的变体则展现出更低的平均遗忘，说明它具有更强的稳定性。

这就像两个不同类型的学生：一个学生(深度网络)善于快速学习新知识，但容易忘记旧知识；另一个学生(宽度网络)记忆力很好，能保持已学内容，但学习新事物较慢。研究者由此推断，在架构层面也存在稳定性-可塑性的权衡问题。

想象一下，如果能将这两种学生的优势结合起来会怎样？这正是研究团队提出的创新思路。他们开发了一个名为"双架构"(Dual-Architecture, 简称Dual-Arch)的框架，利用两个独立网络的互补优势：一个专注于可塑性，另一个专注于稳定性。

双架构框架的工作原理

传统的持续学习方法通常使用单一学习器，通过优化损失函数来平衡稳定性和可塑性。相比之下，Dual-Arch框架采用了两个具有不同架构的独立网络：可塑性学习器(Plastic Learner)和稳定性学习器(Stable Learner)。

可以把这个过程想象成两个专家的合作：一个是创新专家，擅长快速掌握新知识；另一个是记忆专家，善于保存和整合知识。当新任务出现时，创新专家(可塑性学习器)首先学习新知识，然后通过"知识蒸馏"(knowledge distillation)技术将这些新知识传授给记忆专家(稳定性学习器)。记忆专家在接收新知识的同时，也保留了之前积累的经验。

具体来说，研究团队为两个学习器设计了专门的轻量级架构。可塑性学习器采用深而窄的架构，类似于ResNet-18但通道数减少；稳定性学习器则采用宽而浅的架构，保持与ResNet-18相同的宽度但减少了残差块的数量，并修改了全局平均池化层以增加分类器的宽度。这样的设计使得两个网络都比原始ResNet-18小得多，但组合起来能发挥更好的性能。

学习算法的工作流程

Dual-Arch的学习过程可以分为两个连续的阶段。当新任务出现时：

首先，可塑性学习器会专注于学习当前任务数据，不考虑保留之前学到的知识。这就像让创新专家自由发挥，专心吸收新知识。

然后，可塑性学习器的参数被冻结，作为"教师模型"保存下来。稳定性学习器(作为"学生模型")通过一个复合损失函数进行训练，这个损失函数包含三部分：一个硬标签损失(交叉熵损失)确保预测与实际标签一致；一个蒸馏损失使稳定性学习器能从可塑性学习器中学习；以及一个由特定持续学习方法定义的损失项，用于保留之前的知识。

通过这种方式，稳定性学习器能够同时保持之前学到的知识，并有效整合新知识。在评估阶段，只使用稳定性学习器进行推理，确保计算效率。

实验验证与结果分析

研究团队在多个数据集上进行了广泛实验，包括CIFAR100和ImageNet100，并与五种最先进的持续学习方法(iCaRL、WA、DER、Foster和MEMO)结合测试。

实验结果令人印象深刻：Dual-Arch框架在各种方法、数据集和增量步骤中始终优于使用单一架构的基线。最大提升达到了10.29%的最终准确率(LA)和7.62%的平均增量准确率(AIA)，同时参数数量减少了至少33%。

这就像用更少的资源获得了更好的学习效果。想象一下，如果两个专业人士共同工作，每人专注于自己的专长领域，他们的总体表现通常会优于一个人试图同时处理所有任务。

研究者还进行了消融研究，证明了双网络框架和专门设计的架构的重要性。结果显示，去除可塑性学习器会导致AIA平均下降2.63%，而使用非专门化架构也会降低性能。

在参数效率方面，Dual-Arch表现尤为突出。研究显示，与基线相比，Dual-Arch可以在减少高达87%参数的同时仍然提高性能。这对于内存受限的环境特别有益。

为什么Dual-Arch有效？

为了深入了解Dual-Arch的工作原理，研究者分析了稳定性-可塑性权衡和偏差校正两个方面。

在稳定性-可塑性权衡方面，研究显示Dual-Arch确实结合了两种架构的优势。单独使用可塑性网络会在先前任务上出现严重遗忘，而单独使用稳定性网络则在新任务上表现不佳。Dual-Arch在两个方面都表现出色，实现了架构层面的稳定性-可塑性平衡。

在偏差校正方面，研究者分析了任务混淆矩阵，发现Dual-Arch能够更准确地确定正确的任务ID，减少任务间的分类错误。特别是，它显著减少了将早期任务数据错分为最近学习任务的情况，这被称为"任务新近性偏差"(task-recency bias)，是灾难性遗忘的主要原因之一。

研究的意义与启示