微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 浙江大学团队揭秘AI训练新发现:为什么主流的LoRA方法竟然不是最佳选择

浙江大学团队揭秘AI训练新发现:为什么主流的LoRA方法竟然不是最佳选择

2026-01-06 09:38
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-01-06 09:38 科技行者

这项由浙江大学殷清宇团队联合香港科技大学、中南大学、中国科学技术大学等多所院校共同完成的研究,发表于2025年12月29日的arXiv预印本平台(论文编号:arXiv:2512.23165v1),首次系统性地评估了12种不同的参数高效微调方法在强化学习场景下的表现。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们谈论人工智能模型训练时,就像在讨论如何培养一个天才学生。传统的训练方式好比让这个学生从头到脚重新学习所有知识,这既费时又费力。因此,研究人员发明了一种叫做"参数高效微调"的巧妙方法,其中最著名的就是LoRA技术。这就像是给学生戴上一副特殊的"学习眼镜",只需要调整眼镜的度数,就能让学生在特定任务上表现更好,而不需要改变学生本身的基础能力。

然而,当涉及到一种特殊的训练方式——强化学习时,情况变得复杂了。强化学习就像教学生通过不断试错来掌握数学解题技巧,学生每做对一道题就得到奖励,做错了就没有奖励。这种学习方式与传统的"老师直接告诉答案"的方法截然不同,它需要学生自己探索和发现正确的解题路径。

研究团队发现了一个令人意外的现象:在这种强化学习的训练环境下,广泛使用的LoRA方法竟然不是最佳选择。他们通过大规模实验,在DeepSeek-R1-Distill模型系列上测试了超过12种不同的参数高效方法,涵盖了从1.5B到7B参数规模的模型,在包括MATH-500、AIME等数学推理基准测试上进行了全面评估。

这项研究的创新之处在于首次将参数高效微调方法的评估扩展到强化学习领域,特别是在数学推理任务上。研究团队不仅发现了现有方法的局限性,更重要的是提出了关于为什么某些方法在强化学习环境下表现更好的深刻见解。他们的发现挑战了当前AI训练领域的默认实践,为未来的模型训练提供了重要的指导方向。

一、结构变体方法展现出色表现,挑战LoRA霸主地位

研究团队的第一个重大发现就像是在烹饪比赛中发现了一个意外的获胜者。长期以来,LoRA就像是大厨们默认使用的经典调料,几乎所有人都认为它是最佳选择。然而,当比赛场地从传统烹饪(监督学习)转换到创意料理挑战(强化学习)时,情况发生了戏剧性的变化。

在这场"AI训练方法大比拼"中,研究团队测试了多种不同的"调料配方"。结果显示,传统的LoRA方法只能达到42.5%的平均准确率,而一些结构变体方法却表现得更加出色。其中最引人注目的是DoRA方法,它达到了46.6%的准确率,甚至超过了完整参数训练的44.9%。这就好比一位使用特殊调料配方的厨师,不仅击败了使用传统调料的对手,甚至比使用所有顶级食材的大厨表现更好。

DoRA方法的秘密在于它采用了一种被称为"方向-幅度分解"的巧妙策略。如果把模型训练比作调整一个复杂机械设备,传统LoRA就像是只能调整设备的力度大小,而DoRA既能调整力度,又能精确控制方向。在数学推理这样需要精密操作的任务中,这种双重控制能力显得尤为重要。

AdaLoRA是另一个表现突出的方法,它达到了44.2%的准确率。这种方法就像一个智能的资源分配系统,能够动态地决定在哪些地方投入更多的"学习资源",在哪些地方节约成本。在强化学习的环境下,这种灵活的资源分配策略证明了它的价值。

MiSS方法也展现出了43.4%的不俗表现。这种方法采用了一种独特的"子网络选择"策略,就像是在一个大型乐团中,不是让所有乐手同时演奏,而是根据乐曲的需要,选择最适合的乐手组合来演奏每一个段落。

这些结果背后的深层原因在于强化学习的特殊性质。强化学习就像是在迷宫中寻找出路,模型需要不断尝试不同的路径,根据是否找到正确答案来调整自己的行为。这个过程中,模型需要的不仅仅是简单的参数调整,更需要能够灵活适应复杂策略变化的结构支持。传统LoRA的固定低秩约束就像给探险者戴上了手铐,限制了他们在复杂环境中的灵活性。

相比之下,这些结构变体方法通过不同的方式突破了这种限制。DoRA通过解耦方向和幅度,给了模型更多的调整自由度;AdaLoRA通过自适应调整,让模型能够根据需要分配注意力;MiSS通过子网络选择,让模型能够更精准地激活相关的能力模块。

在具体的数学基准测试中,这种优势表现得更加明显。在AIME24测试中,DoRA达到了39.0%的准确率,而标准LoRA只有33.2%。在AMC测试中,DoRA的表现达到了28.8%,显著超过了LoRA的22.9%。这些数字背后反映的是在复杂数学推理任务中,结构变体方法能够更好地捕捉和利用推理模式。

二、SVD初始化策略遭遇惨败,揭示深层机制冲突

研究团队的第二个重要发现就像是在一场预期必胜的比赛中见证了令人震惊的失败。PiSSA和MiLoRA这两种基于奇异值分解(SVD)的方法原本被寄予厚望,因为它们在理论上似乎更适合强化学习的特殊需求,然而实际结果却让人大跌眼镜。

PiSSA方法遭遇了彻底的失败,准确率仅有0.2%,几乎等同于随机猜测。这就好比一位原本被认为具备完美导航技能的探险家,在进入新的探险区域后却完全迷失了方向,几乎无法找到任何正确的路径。MiLoRA的表现稍好一些,但也只达到了18.0%的准确率,远低于标准LoRA的42.5%。

这种失败背后的原理需要我们深入理解强化学习的特殊机制。研究团队通过精密的频谱分析发现了问题的根源,就像是用显微镜观察细胞结构一样,他们仔细分析了模型在训练过程中权重更新的模式。

传统的监督学习就像是在一条笔直的高速公路上驾驶,主要的"交通流量"集中在几条主干道上,这些主干道对应着数据中最重要的模式。SVD方法的设计思路正是基于这个认知——它们优先关注这些"主干道",认为抓住了这些关键路径就能获得最好的效果。

然而,强化学习的世界更像是一个复杂的城市交通网络,真正有价值的发现往往隐藏在偏僻的小路和巷弄中。研究团队发现,在强化学习训练过程中,模型的有效更新主要发生在"非主成分"区域,也就是那些看起来不那么重要的维度上。这种现象被形象地称为"偏离主成分"的学习模式。

PiSSA的失败可以用一个生动的比喻来理解:它就像一个固执的司机,坚持只在主干道上行驶,即使目的地在小巷深处也不愿意改变路线。PiSSA通过设计强制模型的更新集中在主要成分上,这与强化学习的内在需求形成了根本性的结构冲突,导致了训练的彻底失败。

MiLoRA的情况更加微妙和有趣。从理论上讲,MiLoRA应该是更聪明的选择,因为它专注于次要成分,这似乎与强化学习偏向"小路探索"的特性相匹配。然而,实际结果却显示它同样失败了,只是没有PiSSA那么惨烈。

通过深入分析,研究团队发现了MiLoRA失败的真正原因。虽然MiLoRA在初始化时确实选择了次要成分,但这些次要成分的数值非常接近零,就像是在地图上标注了一条几乎不存在的小路。当训练开始时,由于初始化的微弱信号,梯度优化过程很快就被主要成分的强信号所主导,模型最终还是回到了"主干道"上行驶。

这个发现揭示了一个重要的训练动力学原理:在强化学习中,初始化的影响力远比预想的要弱,而梯度流动的方向才是决定性因素。无论初始化时如何精心设计,如果梯度的自然流向与设计意图相冲突,优化过程最终会覆盖初始化的影响。

相比之下,LoRA+方法采用了完全不同的策略,它不试图通过聪明的初始化来解决问题,而是通过调整学习率比例来引导训练过程。这就像是给不同道路设置不同的限速标准,让模型能够更灵活地选择最优路径。LoRA+达到了43.9%的准确率,证明了这种"过程引导"策略比"起点设定"策略更有效。

这些发现为整个领域提供了重要的指导原则:在强化学习环境下,与其费心设计复杂的初始化策略,不如专注于优化训练过程本身的动力学特性。

三、极端参数压缩暴露表达能力瓶颈

研究团队的第三个重要发现就像是在测试一辆汽车的极限载重能力时发现的临界点。他们发现了一个令人意外的现象:虽然适度的参数减少是可行的,但当压缩程度超过某个阈值时,模型的推理能力会发生断崖式下跌。

这个发现挑战了近期一些研究的乐观预期。此前有研究声称,强化学习可以在极少的参数下取得良好效果,就像声称一辆汽车只用一个轮子也能正常行驶一样。然而,实际测试结果显示,现实远比理论预测复杂。

VeRA方法就是一个典型的例子。这种方法试图通过冻结大部分参数,只训练极少数的缩放向量来实现高效训练,就像试图通过只调整几个关键螺丝来修理整台机器。理论上这听起来很聪明,实际测试中VeRA只达到了40.7%的准确率,比标准LoRA低了近2个百分点。更重要的是,VeRA使用的训练参数只有总参数的0.0029%,这种极端的压缩比例显然超出了模型的承受能力。

IA3方法的失败更加明显,只达到了22.3%的准确率。这种方法试图通过简单的元素级缩放来调整模型行为,就像试图通过调整收音机的音量来改变电台频道一样不切实际。在复杂的数学推理任务中,这种粗糙的调整方式完全无法捕捉推理过程所需的精细操作。

LayerNorm调优方法的表现稍好一些,达到了41.8%的准确率,但仍然低于标准基线。这种方法只调整归一化层的参数,就像只调整汽车的后视镜而不动其他任何部件,虽然能产生一些效果,但显然不足以应对复杂的驾驶任务。

这些失败案例共同指向一个重要发现:强化学习对模型的表达能力有着严格的下限要求。这个下限不是任意设定的,而是由强化学习任务本身的复杂性决定的。数学推理需要模型能够进行多步骤的逻辑推导,处理复杂的数学概念,并在每一步都做出正确的决策。这种复杂的认知过程需要足够的参数空间来支撑。

有趣的是,研究团队还发现了适度压缩的成功案例。LoRA-FA方法通过冻结一半的参数矩阵,达到了43.0%的准确率,与标准LoRA基本持平。这说明适度的参数减少不仅是可行的,甚至可能有益,因为它引入了某种形式的正则化效果,就像适度的饮食控制有益于健康一样。

这个发现揭示了一个重要的平衡点:在追求训练效率的同时,不能忽视任务本身的复杂性需求。强化学习中的数学推理不是简单的模式匹配,而是需要模型具备灵活的推理能力。当参数空间被压缩到低于某个临界点时,这种推理能力就会受到不可逆的损害。

从实用角度来看,这个发现为实际应用提供了重要指导。在设计参数高效训练方案时,应该优先考虑保持足够的模型表达能力,而不是盲目追求参数数量的最小化。适度的效率提升是有价值的,但过度的压缩可能会得不偿失。

研究团队通过不同训练步骤的动态分析进一步证实了这个观点。他们发现,在训练过程中,极度压缩的方法很快就达到了性能天花板,无论继续训练多长时间都无法获得显著改善。这就像一辆载重超标的卡车,无论司机技术多么娴熟,都无法让它跑得更快。

四、大规模实证验证确保结论可靠性

为了确保他们的发现不是偶然现象,研究团队进行了一系列严格的验证实验,就像科学家在发现新药效果后必须进行多轮临床试验一样。他们从多个维度对结果进行了交叉验证,确保结论的普适性和可靠性。

首先,团队在不同规模的模型上重复了实验。他们将研究扩展到了7B参数的DeepSeek-R1-Distill-Qwen-7B模型,这个规模比原来的1.5B模型大了近五倍。就像在不同型号的汽车上测试同一种燃油添加剂的效果一样,他们需要确认发现的规律在更大规模的模型上依然成立。

令人欣慰的是,在7B模型上的结果与小模型保持了高度一致性。DoRA依然是表现最好的方法之一,达到了55.0%的准确率,与LoRA+并列第一。标准LoRA的表现为54.8%,依然处于落后地位。这种跨规模的一致性强有力地支持了研究团队的核心发现,说明他们发现的规律不是特定模型规模下的巧合,而是具有普遍意义的客观规律。

接下来,团队对各种关键超参数进行了细致的敏感性分析。他们测试了不同的批次大小、学习率、LoRA秩等参数对结果的影响,就像厨师在确定最佳食谱时需要测试不同的调料配比一样。

在批次大小的测试中,他们发现了一个有趣的现象。与传统监督学习不同,在强化学习环境下,较大的批次大小(128)实际上比较小的批次大小(32)表现略好。这挑战了此前"小批次更适合参数高效训练"的常见观念。研究团队解释说,这可能是因为强化学习的稀疏奖励信号需要更多的样本来获得稳定的梯度估计,就像在嘈杂环境中需要听到更多声音才能识别出有用信息一样。

学习率的实验进一步验证了不同方法的鲁棒性。团队测试了1×10^-5、5×10^-6和1×10^-6三种不同的学习率设置。结果显示,结构变体方法在各种学习率下都保持了相对稳定的优势,这说明它们的优越性不依赖于特定的超参数调优,具有良好的通用性。

LoRA秩的消融实验揭示了另一个重要发现。团队测试了从1到32的不同秩设置,发现极低的秩(如rank=1)确实会严重损害性能,支持了他们关于"表达能力瓶颈"的观点。有趣的是,中等规模的秩(如16和32)表现最好,这为实际应用提供了实用的指导原则。

为了进一步验证结论的普适性,研究团队还测试了不同的强化学习算法。他们不仅使用了默认的DAPO算法,还测试了GRPO和Dr. GRPO等变体。结果显示,无论使用哪种具体的强化学习算法,各种参数高效方法的相对排名都保持稳定,这进一步证明了他们发现的规律是强化学习范式本身的内在特性,而非特定算法的偶然产物。

团队还进行了训练动力学分析,跟踪了整个训练过程中各种方法的性能变化。他们发现,优秀的方法从训练早期就表现出明显优势,并且这种优势在训练过程中持续保持。相反,失败的方法(如PiSSA)从一开始就表现不佳,即使延长训练时间也无法改善。这种一致的动力学特征为实际应用中的早期停止策略提供了科学依据。

最重要的是,团队在多个不同的数学推理数据集上重复了实验,包括MATH-500、AIME24/25、AMC、Minerva等。每个数据集都有其独特的特点和挑战,就像在不同地形上测试车辆性能一样。令人满意的是,在所有这些不同的测试环境中,研究团队的核心发现都得到了一致的验证。

这种全方位的验证工作确保了研究结论的可信度和实用价值。它告诉我们,这些发现不是实验室中的偶然现象,而是具有广泛适用性的科学规律,可以指导实际的AI系统开发和部署。

五、深层机制解释与未来展望

研究团队不满足于仅仅发现现象,他们深入探索了这些发现背后的根本机制,就像医生不仅要治疗症状,更要找出病因一样。通过细致的理论分析和实验验证,他们为观察到的现象提供了令人信服的解释。

强化学习与传统监督学习在本质上存在根本差异,这种差异就像两种完全不同的学习方式。监督学习就像是在课堂上跟着老师逐字逐句地学习课文,每个词汇、每个句子都有明确的正确答案。在这种学习模式下,学生主要需要记住和模仿已知的正确模式,因此关注"主要成分"是有效的策略。

相比之下,强化学习更像是让学生独自解决从未见过的问题,只有在完全完成任务后才能得到一个简单的"对"或"错"的反馈。这种学习方式要求学生具备创造性思维和探索能力,需要在不确定的环境中寻找新的解决路径。这解释了为什么传统的基于主成分的方法在强化学习中失效,而那些能够增强模型灵活性的结构变体方法表现更好。

DoRA方法的成功可以从数学角度得到深层解释。传统LoRA只能在固定的低秩子空间中进行参数更新,就像只能在一个平面上画画,无法表现立体的艺术效果。DoRA通过将权重矩阵分解为方向和幅度两个独立组件,给了模型更多的表达自由度,就像从平面绘画升级到了立体雕塑。在需要复杂推理的数学任务中,这种额外的表达能力显得尤为重要。

SVD方法失败的机制分析揭示了一个深刻的数学原理。研究团队通过频谱分析发现,在强化学习过程中,真正有价值的梯度信息主要分布在非主成分区域。这就像在寻找宝藏时发现,最有价值的线索往往隐藏在不起眼的角落,而不是在最显眼的地方。PiSSA强制模型只关注主成分,等于是让寻宝者戴上眼罩,只能看到预设的区域,自然无法找到真正的宝藏。

参数压缩极限的理论解释涉及信息论的基本原理。数学推理任务需要模型处理和存储大量的中间状态信息,就像解决复杂数学题需要在草稿纸上写下许多中间步骤一样。当参数空间被压缩到低于某个临界值时,模型就无法维持这些必要的中间表示,导致推理能力的崩溃。这个临界值不是任意的,而是由任务复杂度和模型架构共同决定的客观存在。

基于这些发现,研究团队为未来的研究和应用提供了具体的指导建议。对于实际应用而言,他们建议优先考虑DoRA、AdaLoRA等结构变体方法,避免使用基于SVD的初始化策略。在参数效率和模型性能之间寻找平衡时,应该优先保证足够的表达能力,而不是盲目追求参数数量的最小化。

从更广阔的视角来看,这项研究揭示了参数高效训练领域的一个重要发展方向:方法设计应该更多地考虑特定任务的内在需求,而不是仅仅关注参数数量的减少。强化学习的特殊性要求我们重新审视现有的训练策略,开发更适合探索性学习的新方法。

研究团队也诚实地指出了当前工作的局限性和未来的改进方向。他们计划将研究扩展到更大规模的模型和更长时间的训练过程,探索在多模态任务和更复杂的强化学习环境中的适用性。同时,他们也希望开发更先进的理论框架,为参数高效强化学习提供更深入的理论指导。

最重要的是,这项研究的影响远远超出了技术细节本身。它提醒整个AI研究社区,在追求训练效率的同时,必须深入理解不同学习范式的本质特征。只有基于这种深入理解,才能开发出真正有效的训练方法,推动人工智能技术的持续进步。

说到底,这项研究就像是为AI训练领域绘制了一幅更准确的地图,标出了哪些路径是可行的,哪些是死胡同,以及为什么会这样。虽然LoRA这位"老将"在传统领域依然有其价值,但在强化学习这个新战场上,我们需要更合适的"武器"。DoRA等结构变体方法就像是专为新环境设计的先进装备,能够更好地适应强化学习的独特挑战。

这个发现对普通人的意义在于,它将帮助开发出更智能、更高效的AI助手。当这些改进的训练方法被广泛应用时,我们将看到AI在数学解题、代码编写、逻辑推理等需要复杂思考的任务上表现得更加出色。虽然这些技术细节对大多数人来说可能显得抽象,但它们的影响将通过更好的AI产品和服务逐渐渗透到我们的日常生活中。

从更宏观的角度来看,这项研究代表了AI发展过程中的一个重要里程碑:我们开始真正理解不同学习方式的深层机制,并能够有针对性地设计更适合的训练方法。这种深度理解将加速AI技术的发展,帮助我们构建更强大、更可靠的智能系统。

Q&A

Q1:DoRA方法比传统LoRA好在哪里?

A:DoRA采用了"方向-幅度分解"的策略,相当于既能调整设备的力度大小,又能精确控制方向。在数学推理这样需要精密操作的强化学习任务中,这种双重控制能力让DoRA达到46.6%的准确率,超过了标准LoRA的42.5%,甚至比完整参数训练的44.9%还要好。

Q2:为什么SVD初始化方法在强化学习中失败了?

A:强化学习需要模型在"非主成分"区域进行探索性学习,就像在偏僻小路中寻找宝藏。但PiSSA强制模型只关注主成分,相当于让寻宝者戴上眼罩,准确率惨跌到0.2%。MiLoRA虽然试图关注次要成分,但初始化信号太弱,最终还是被主成分梯度主导,只达到18.0%的准确率。

Q3:参数压缩有什么限制吗?

A:强化学习对模型表达能力有严格下限要求。适度压缩如LoRA-FA可以达到43.0%的不错表现,但极端压缩如VeRA只有40.7%,IA3更是跌到22.3%。这是因为数学推理需要足够的参数空间来支撑多步骤逻辑推导,过度压缩会造成无法逆转的推理能力损害。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-