微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

给AI"升级学新技能"时，它到底悄悄忘掉了多少旧能力？——来自香港中文大学、西湖大学与马克斯·普朗克智能系统研究所的实验告诉你答案

参数高效微调正交微调稳定性-可塑性权衡

给AI"升级学新技能"时，它到底悄悄忘掉了多少旧能力？——来自香港中文大学、西湖大学与马克斯·普朗克智能系统研究所的实验告诉你答案

作者：科技行者

2026-06-02 15:48

分享至：

这项研究揭示AI"补习"新技能时遗忘旧能力的规律，构建PEFT-Arena评测框架，发现正交微调在稳定性与可塑性权衡上表现最优。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-02 15:48 • 科技行者

这项研究由香港中文大学、西湖大学以及德国马克斯·普朗克智能系统研究所的研究人员联合完成，以技术报告形式发布于2026年5月27日，编号为arXiv:2605.28819v1，归属cs.LG领域，感兴趣的读者可通过该编号在arXiv平台查阅完整论文。

当我们在使用ChatGPT这类AI助手时，背后其实有一个几乎所有人都忽略的问题：AI"学新东西"的时候，是不是也悄悄"忘了旧东西"？

以一个非常直观的场景来理解这件事。假设你雇了一位全能型家教，这位家教原本数学、语文、历史、英语样样精通。现在你专门让他每天只练数学竞赛题，一个月后他的数学突飞猛进，但你再让他辅导孩子写作文，却发现他的语文水平已经大不如前。这种情况在AI世界里同样普遍存在，而且以往大多数人根本没注意到这个问题。

这项研究的核心思路，正是从这个被忽视的角落切入的。研究团队将AI训练领域中一种叫做"参数高效微调"（Parameter-Efficient Fine-tuning，简称PEFT）的技术放在显微镜下仔细审视，构建了一个名为PEFT-Arena的评测平台，同时测量AI在"学新东西"时的表现，以及它在这个过程中"忘掉旧东西"的程度。

所谓PEFT，简单来说就是给AI做"定向补习"的一套方法。训练一个大型AI模型需要巨额的计算资源，就像盖一栋摩天大楼。如果你只想让这栋楼多一个咖啡厅，没必要把整栋楼推倒重建，只需在某个角落做局部改造就行。PEFT就是这样的"局部改造"技术，只更新模型中一小部分参数，却能让AI学会新的专业技能，例如医学诊断、数学解题或者法律咨询等。

然而，研究团队注意到一个令人担忧的现象：现有的评估方式几乎只看AI在"新专业"里考了多少分，却从来不检查它原本的综合能力还剩多少。这就像一所学校只公布毕业生的专业成绩，却从不提他们在补习专业课期间是否把体育、音乐、社交能力全部丢掉了。这样的评估显然是片面的，甚至可能是误导性的。

于是，研究团队开始追问一个更本质的问题：在同样的"补习成本"下，哪种方法能让AI既学好新技能，又最少地忘掉旧能力？这个问题背后有一个心理学领域早已存在的概念，叫做"稳定性-可塑性困境"，意思是学习新事物（可塑性）和保持已有知识（稳定性）这两件事天然存在张力，两者很难同时做到极致。

带着这个问题，研究团队做了一项庞大而系统的实验，覆盖了目前主流的十余种PEFT方法，在数学推理和医学知识两个专业领域里分别测试，同时用多个通用能力测试集来衡量AI"忘了多少旧东西"。实验用的底座模型是两个规模不同的主流大语言模型，一个叫Qwen2.5-7B，另一个叫Llama3.2-3B-Instruct。

---

一、给AI"补习"的方法五花八门，但效果差异惊人

在正式进入实验结论之前，有必要先了解一下这些"补习方法"到底是什么、有什么区别。这些方法大致可以分成三大类。

第一类是以LoRA为代表的"加法系"。这类方法的思路非常直接：原来的AI模型参数一动不动，在旁边额外加一层薄薄的、参数数量很少的新结构，让这个新结构来承担"学习新技能"的任务。打个比方，就像给一本厚重的教科书贴上一叠便利贴，书本身没变，便利贴上记的是新内容。LoRA家族里还有很多变体，例如AdaLoRA会根据不同部位的重要程度自动分配学习资源，DoRA把更新拆解为"方向"和"大小"两个部分分开处理，PiSSA和MiLoRA则在选择"从哪里开始学"这个问题上做文章——前者从原模型最重要的部分开始，后者从最不重要的部分开始。另外还有VeRA，它用一套共享的随机矩阵结合少量可训练的缩放参数，把需要调整的参数数量压到极致。KeepLoRA则更进一步，它明确要求更新只能发生在原模型"不那么核心"的方向上，试图以此保住原有能力。MiSS则用一种重新设计的单矩阵结构替代LoRA的双矩阵分解。

第二类是以OFT（正交微调）为代表的"乘法系"。这类方法不是在原有模型旁边加东西，而是用一种特殊的旋转变换去改造原有模型的参数。"正交"这个词听起来很学术，但其背后的直觉其实相当优雅：就像旋转一块手表，不管你把表盘转到什么角度，表针之间的相对位置从来不会变。OFT用数学上同样性质的变换来更新模型，理论上可以在改变模型行为的同时，不破坏原始参数之间的相对结构关系。

第三类是以IA?为代表的"激活缩放系"。这类方法更加轻量，它不去修改模型的权重矩阵，而是在模型内部某些关键的信号通道上乘以一个可学习的缩放系数，就像给调音台上的某些推子调一个倍数，整体框架没变，只是局部的音量比例调整了一下。

这些方法里，有的参数只有区区几十万，有的则多达几千万，差异极大。为了公平比较，研究团队特别注意让不同方法的"补习成本"（可训练参数数量）尽量接近，例如在约2000万参数规模的档次里，OFT、LoRA、PiSSA等方法都有各自的代表配置参与比较。

训练所用的数据方面，数学补习用的是从OpenR1-Math-330k数据集里筛选出的5万条样本，医学补习用的是专门整理的2.3万条医学问答样本。训练方式分为两种：一种是直接用答案标注进行监督学习（SFT，类似于"背答案"），另一种是用强化学习让AI自己在尝试中学习（RLVR，类似于"在比赛中成长"）。

测试AI新技能的方面，数学用Math-500、AMC23和AIME24三个竞赛级题库，医学用了包括MedMCQA、MedQA、PubMedQA、MMLU-Pro等在内的十一个专业测试集。测试AI"有没有忘旧东西"的方面，则用了IFEval（测试AI能不能准确执行复杂指令）、NQ（测试常识和知识）和BBH（测试逻辑推理）三个通用能力集，三者的平均分被称为"General分数"。

---

二、数据说话：补习越猛，忘得越多——但有一个方法是例外

实验结果出来之后，研究团队整理出了一张非常密集的对比表，覆盖所有方法在所有测试集上的成绩。把这些数字转换成故事来讲，有几条线索最为突出。

第一条线索是：全面微调（Full FT，也就是把整个模型所有参数都拿来训练的方法）学新技能效果最强，但忘旧东西也最严重。以Qwen2.5-7B在数学方向的测试为例，Full FT让数学成绩从35.30飙升到50.63，涨了15.33分；但与此同时，通用能力从46.97跌到34.22，足足掉了12.74分。在医学方向，通用能力同样从46.97跌到34.41。在另一个模型Llama3.2-3B-Instruct上，医学微调之后通用能力从53.03猛跌到26.03，跌幅高达27分——这相当于原本一个"全科优等生"，变成了一个"专科强手，其他一塌糊涂"。

第二条线索是：LoRA家族的方法普遍处于"学了一些，也忘了一些"的状态。以Qwen数学方向为例，LoRA-r8配置让数学成绩提升了7.17分，但通用能力下降了7.75分，得失几乎相当。随着LoRA规模增大（r16、r32），数学成绩继续提升，但通用能力的下滑也往往更严重。MiSS在更大规模配置（r64）时，数学成绩提升了11.63分，但通用能力下滑了14.20分，代价更大。

第三条线索，也是最值得关注的：PiSSA这个方法出现了灾难性的结果。PiSSA从原模型最重要的奇异值方向开始初始化，出发点是"先学最核心的东西"。但实验结果显示，PiSSA在Qwen数学微调中，通用能力直接从46.97跌到24.78，跌幅高达22.19分——不仅是所有PEFT方法里跌幅最大的，甚至远超Full FT。更严重的是，PiSSA在做数学微调时，医学方向的能力也从46.36跌到了26.16，相当于在没做任何医学训练的情况下把自己的医学能力也一并损毁了。在Llama模型上，PiSSA的数学成绩跌到了0.67，几乎丧失了所有能力，通用能力也跌至9.74。这说明直接动原模型"最核心的骨架"，代价极为惨重。

KeepLoRA试图通过明确约束更新方向来保住旧能力，结果确实在通用能力保留上有所改善，在Qwen数学方向上，通用能力从LoRA-r8的39.22提升到了43.75，医学方向的通用能力甚至达到47.09，几乎没有下降。然而，它的新技能学习效果也大打折扣，数学成绩提升仅5.23分，远弱于同等参数规模的其他方法，而且在Llama模型上的表现并不稳定，说明单纯靠限制更新方向来保旧能力，并不是全面最优的解决思路。

VeRA和IA?这两个极度轻量的方法则走向另一个极端：旧能力保留得相当好，但新技能学习效果非常有限。VeRA在Qwen数学方向通用能力甚至轻微提升了0.38分，但医学方向的专业能力却下滑了17.85分，说明它在某些场景下根本学不会新技能。IA?的情况类似，数学成绩几乎没有提升（-0.17分）。

在这些比较之中，OFT（正交微调）的表现格外抢眼。以Qwen数学方向为例，OFT-b32（约1755万参数）让数学成绩提升了11.63分，而通用能力仅下降了2.60分。这个得失比例在所有方法中是最优的：在同等参数规模下（同样约2000万参数），LoRA-r8的通用能力下降了7.75分，MiLoRA-r8下降了9.35分，而OFT-b32只下降了2.60分。医学方向上，OFT-b32让医学成绩提升了2.27分，通用能力仅下降4.57分，也优于同档次的其他方法。也就是说，OFT在"稳定性-可塑性"这对矛盾之间找到了目前最好的平衡点，它在图上对应的位置最靠近右上角——既学得好，又忘得少。

---

三、强化学习训练与监督学习训练：截然不同的遗忘模式

上面提到的结果都是在监督学习（SFT）模式下训练的。研究团队也用强化学习（RLVR，具体采用GRPO算法）做了对照实验，结果呈现出一个完全不同的面貌。

在RLVR模式下，Full FT、OFT-b32和LoRA-r8在Qwen数学方向分别让数学成绩提升了12.27、12.60和11.63分，而三者的通用能力分别上升了1.71、1.93和1.30分——不是下降，而是上升！这意味着在强化学习框架下，AI在学好新技能的同时，通用能力也得到了小幅提升，两者不再是此消彼长的关系。

这个现象背后的原因被研究团队解释为：强化学习是一种"在自己的答案上学习"的方式，模型不是被动地接受别人给的答案，而是自己尝试、评估对错、调整策略。这种更接近"真正思考"的训练方式产生的更新，更像是在原有能力的基础上叠加，而不是替换。

但是，研究团队进一步发现，RLVR也不是完全没有代价。当强化学习训练的时间拉得更长（从200步延长到500步）之后，用pass@64（让AI对同一道题做64次尝试，只要有一次答对就算通过，这衡量的是AI解题的"潜力上限"）来衡量时，可以发现Full FT和LoRA的pass@64下降了，而OFT的下降幅度更小。这说明长时间的强化学习训练也会出现类似"过度补习"的问题，只是表现形式不同——不是pass@1（单次作答准确率）下降，而是模型在多次尝试时的多样性和探索能力被压缩了。这个现象在SFT阶段的"终点过冲"问题中也有所呼应，后面还会详细讲到。

---

四、拆开模型的"骨架"看：更新的几何形状决定了遗忘多少

知道了哪个方法好，下一个问题自然是：为什么好？研究团队没有停留在表面数字上，而是深入模型内部，从两个角度来理解不同PEFT方法产生的差异。

第一个角度是"权重空间几何"，也就是看各个方法是怎么改变模型参数的数值结构的。这里需要一点背景知识：任何一个矩阵（AI模型的权重本质上都是矩阵），都可以用一种叫"奇异值分解"的数学工具分解成三个部分，可以理解为：方向A、方向B，以及连接这两个方向时各维度的"重要程度"（奇异值越大越重要）。原模型在大量数据上训练出来，那些大奇异值对应的方向，可以理解为模型里最"核心"的能力载体。

研究团队设计了两种衡量指标。第一种叫"保留谱"，测量微调之后的模型，在原来这些"核心方向"上的数值改变了多少，改变越小越接近原来，说明方法越尊重原有骨架。第二种叫"更新能量谱"，测量新增加的更新量，主要集中在原来哪些方向上，是专注于"不重要的方向"还是也大量影响了"重要的方向"。

通过可视化这些谱形，研究团队发现了几个规律。PiSSA的保留谱变化最剧烈，说明它对原模型核心结构的破坏最严重，这与它灾难性的遗忘数字高度吻合。MiSS的保留谱也显示出较大偏差。LoRA的更新能量谱则呈现出"尖峰状"，更新不均匀地集中在某些方向，就像把一碗饭只倒在盘子的某一个角落，而OFT的谱形相对更平滑、更结构化。研究团队进一步用一个叫"波动分数"的数值来量化谱形的不规则程度，发现波动分数越大，通用能力保留越差、遗忘越严重，两者之间存在显著的统计相关性。

研究团队还设计了一个叫"能力条件漂移"（CSD）的指标。这个指标的思路是：知道更新量集中在哪些方向是一回事，但这些方向有没有被通用能力用到是另一回事。CSD把"更新量"和"通用能力数据在这些方向上的激活强度"结合起来，计算的是更新对通用能力的"实际扰动力度"。实验结果显示，通用能力侧的CSD（CSDG）和遗忘程度之间存在正相关——也就是说，更新越多地扰动了通用能力用到的方向，遗忘就越严重。而OFT虽然在绝对移动量上不小（因为旋转本身会移动向量），但它的通用-目标比率接近1，说明它对通用能力和目标任务的扰动是均衡的，没有不成比例地损害通用能力所用的方向。

---

五、不只是参数改变了，"表达形状"也变了

仅仅看权重还不够，因为权重的改变最终要通过AI内部的"表达"（也叫激活值）来影响能力。研究团队从第二个角度切入：直接比较原始模型和微调后模型，在处理同样的输入时，内部的信号结构是否还是一样的。

这里需要引入一个核心概念：等距性。一个变换如果是"等距的"，就意味着它改变了位置但没有改变形状，就像把一块橡皮泥从桌子这头搬到那头，形状没变。如果一个变换是"非等距的"，那就意味着它在搬运的过程中把形状也扭曲了。旋转就是一种典型的等距变换——你把一张桌子转90度，桌子上各个点之间的距离关系完全不变。

研究团队用三种互补的指标来衡量微调后模型的"表达形状"有没有被扭曲。第一种叫Procrustes残差，它先把微调前后的表达矩阵做最优对齐，然后看对齐之后还剩多少差距，残差越大说明扭曲越严重，不是普通的旋转能解释的。第二种是线性CKA，它通过比较表达矩阵的内积结构来衡量两组表达之间的相似度，越高说明结构越接近。第三种叫配对Gram扭曲，它比较每对样本之间的余弦相似度在微调前后是否保持不变，对旋转不敏感，只对拉伸、压缩等真正的形状破坏敏感。

在Qwen2.5-7B和Llama3.2-3B-Instruct的多个模块位置上（包括第9层和第18层的q_proj、k_proj、v_proj和mlp.down_proj），研究团队计算了20个SFT微调检查点的这三种指标，并与遗忘程度进行相关性分析。结果显示，Procrustes残差与遗忘程度的皮尔逊相关系数达到0.711，Gram扭曲的相关系数为0.485，CKA的相关系数为-0.761（负相关，因为CKA越高说明越相似，遗忘越少）。这些数字说明，忘掉旧能力这件事，在模型内部对应的是"通用能力的表达形状被扭曲了"，而非仅仅是"信号发生了移动"。

从这个角度看，OFT的优势得到了进一步解释。研究团队直接对比了不同方法在这三个指标上的数值：OFT的Procrustes残差为0.1279，远低于LoRA的0.1808、Full FT的0.1640和MiLoRA的0.1635；OFT的Gram扭曲为0.1906，而其他方法普遍在0.24到0.25之间；OFT的CKA为0.9340，明显高于其他方法的0.85到0.87。PiSSA依然是最极端的反例，Procrustes残差高达0.4376，Gram扭曲高达0.8655，CKA仅有0.4402，而它对应的遗忘分数也是最高的34.56分。

换句话说，OFT在改变模型行为的同时，更好地保持了原始表达的"相对形状"——不同输入之间的距离关系、角度关系基本没有被破坏，模型还能以原来的眼光看待通用能力所覆盖的世界。这正是它遗忘少的根本原因。

---

六、终点往往走过了头——插值诊断揭示隐藏的甜蜜点

研究团队的最后一个核心发现，是通过一种叫"插值"的技术揭示的。插值的思路很简单：在原始模型和完整微调后的模型之间，画一条路，然后沿着这条路每走一小步都测一次成绩，看看路途中哪个点是"学了足够多但还没忘太多"的最佳平衡点。

用α来表示沿这条路走了多远，α=0是起点（原模型），α=1是终点（完全微调后的模型）。对于加法类方法（如LoRA），这条路就是把更新量ΔW乘以α；对于Full FT，也是类似地缩放更新量。

实验结果发现，对于几乎所有的SFT微调方法，终点α=1往往不是最优的位置。在通往终点的路上，存在一个"甜蜜点"，此时新技能的学习已经达到了相当高的水平，而通用能力的损失却还比较小。继续往终点走，新技能的提升变得边际递减甚至开始下滑，但通用能力却继续劣化。研究团队把这种现象称为"SFT终点过冲"。

这个现象有一个重要的实践含义：在实际使用中，并不需要把模型训练到完全收敛，在路途中的某个早期点使用更新量缩小版的模型，往往能在通用能力和专业能力之间找到更好的平衡。

研究团队还进一步将训练过程中的实际轨迹（每隔若干步保存一次的检查点连成的曲线）与插值轨迹做了对比，发现两者的形状截然不同：实际训练轨迹在"目标能力-通用能力"坐标系里是向内凹陷的曲线，而插值轨迹是向外凸出的曲线。这个差异意味着，简单地在训练途中"早停"，并不能达到插值所能找到的甜蜜点。插值和早停是两条本质不同的路，早停得到的是训练曲线上的某个点，而插值走的是一条完全不同的路径。

---

七、OFT有自己专属的"插值方式"——沿着几何正确的路走

对于OFT，插值需要额外注意一件事。OFT用的是"旋转"来更新模型，旋转是由一个叫Cayley生成元（Q矩阵）的数学对象控制的。如果直接对OFT的权重矩阵做线性插值，就相当于把旋转的"旋转运动"用直线来近似，这条直线会偏离旋转所在的几何曲面，就像把弓形的弓弦直接拉直，结果既不在弓上，也不是原来那个弯。

研究团队提出的正确插值方式，是对生成元Q做缩放，具体来说把Q替换成√α·Q，这样得到的旋转强度是原来的α倍，而且始终保持在旋转所在的几何曲面上。

两种插值方式的差异在实验中非常明显。在Qwen2.5-7B数学SFT的OFT-b32配置下，当α=0.3时，沿√αQ路径插值的模型达到了数学成绩45.77、通用能力48.64；而同样α=0.3的线性权重插值只有数学成绩43.93、通用能力43.91。两者差距不小，证明了"走对路"在OFT上有实质意义。

---

八、层与层之间的更新并不均衡——"按层松紧调整"能进一步改善权衡

在深入分析OFT的更新分布时，研究团队发现了一个有趣的现象：不同层的更新强度差异悬殊。以Qwen2.5-7B的OFT-b32数学SFT为例，后面层（如第20层到第27层）的更新强度是前五层平均强度的约2.7倍。这意味着模型的不同深度部位承受的"旋转力度"非常不均匀。

如果用一个统一的α来缩放所有层，就等于所有层都按同一比例缩小旋转，但本来就旋转多的后层依然比前层旋转得多，层间的不均衡没有得到纠正。研究团队提出了一种"按层重新调整"的方式：对每一层的生成元Q单独选择一个缩放系数，使各层的旋转强度更加均衡。

他们尝试了两种策略：SafeScale用前五层的平均更新强度作为参考，把其他层的更新强度拉向这个参考值；MinScale用更新强度最小的那层作为参考，把所有层都往最低水平收缩。

结果显示，按层调整之后，模型在目标任务和通用能力两方面都有所改善，而且不需要做任何额外的训练。以Qwen数学SFT为例，原始OFT-b32完全微调版本的数学成绩为46.93、通用能力为44.37；SafeScale将数学成绩保持在47.17同时通用能力提升到46.69；MinScale则在数学成绩47.83的同时将通用能力提升到46.86。医学方向上，这种调整的效果同样明显：原始OFT-b32的医学成绩48.63、通用能力42.40，SafeScale将其分别提升至50.01和47.61，MinScale提升至49.76和47.79。

类似的按层调整策略在LoRA和MiSS上也有效。LoRA-r8在MinScale调整后，数学成绩从42.47提升到44.93，通用能力从39.22提升到43.11；MiSS-r8在MinScale调整后，数学成绩从43.17提升到44.83，通用能力从39.12提升到42.85。这说明"按层松紧调整"不是OFT的专利，对加法类方法同样适用。

---

说到底，这项研究揭示的，其实是一个在AI开发界长期被低估的问题：让AI变强的方法，不止要比谁学得好，更要比谁忘得少。

就像一个好学生，不只是考场上的专科高分选手，而是在练好一项技能的同时，还能保住自己原有的综合素养——这才是真正意义上的"提升"。研究团队通过大量细致的实验，清晰地展示了不同方法在这道题上的答卷有多大差距，而OFT这个依靠"旋转而不破坏形状"来更新模型的方法，在综合权衡上交出了目前最好的成绩单。

这对普通用户意味着：未来在选择或评价一个经过"专业训练"的AI时，不妨问一句——它的通用能力还在吗？而对AI开发者来说，这项研究提供了一套完整的诊断工具箱：从谱形分析、表达几何检测，到插值路径诊断和按层调整，每一件工具都指向同一个目标，就是让AI在成长的同时不失去自己。

这项来自香港中文大学、西湖大学与马克斯·普朗克智能系统研究所的工作，论文编号arXiv:2605.28819v1，值得所有关心AI质量而不只是AI成绩的人仔细阅读。

---

Q&A

Q1：PEFT方法在训练AI时为什么会导致通用能力下降？

A：PEFT方法在更新模型参数时，会对原始模型内部的"信号结构"产生扰动。不同方法的更新方式不同，有些会大幅改变模型最核心的参数方向（如PiSSA），有些则会把更新能量不均衡地集中在某些通用能力也依赖的方向上（如LoRA）。这种扰动导致模型在新任务上表现更好的同时，原来用于处理通用任务的内部表达结构被扭曲，能力随之下降。

Q2：正交微调（OFT）为什么遗忘旧能力比LoRA少？

A：OFT用的是数学上的"旋转"来更新模型，旋转是一种等距变换，改变位置但不改变内部的相对形状。这使得模型在处理通用能力相关输入时，内部表达的结构关系（不同样本之间的距离、角度）得到了比较好的保留。相比之下，LoRA是直接在参数上叠加变化量，容易破坏原有的结构，导致更多遗忘。

Q3：SFT终点过冲（overshoot）是什么意思，插值能解决这个问题吗？

A：SFT终点过冲是指，完全训练到收敛的模型并不是目标能力和通用能力权衡最优的那个版本，模型在训练路上的某个中间点（通常在训练结束前）实际上表现更均衡。插值的做法是在原始模型和最终模型之间画一条路，沿路测试每个位置的表现，找到那个"学了足够多但还没忘太多"的甜蜜点。实验证明这个甜蜜点确实存在，而且通过按比例缩小更新量就能到达，无需重新训练。

参数高效微调正交微调稳定性-可塑性权衡

分享至