微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 强化学习只是微调了大型语言模型中的小型子网络 — 伊利诺伊大学厄巴纳-香槟分校研究发现

强化学习只是微调了大型语言模型中的小型子网络 — 伊利诺伊大学厄巴纳-香槟分校研究发现

2025-05-28 07:39
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-28 07:39 科技行者

这项来自伊利诺伊大学厄巴纳-香槟分校的研究由Sagnik Mukherjee、Lifan Yuan、Dilek Hakkani-Tur和Hao Peng教授共同完成,于2025年5月发表在arXiv预印本平台(arXiv:2505.11711v1)。这篇论文揭示了一个令人惊讶的发现:强化学习(RL)在微调大型语言模型(LLM)时,实际上只更新了模型中一小部分参数,而非整个模型。

**一、研究背景与核心发现**

想象你有一辆复杂的汽车,里面有成千上万个零部件。常识告诉我们,如果要彻底改造这辆车的性能,可能需要更换大部分零部件。但研究者们发现,实际情况却大相径庭——只需调整5%-30%的关键零部件,就能显著改变整辆车的性能,而其余零部件可以完全保持不变。

这正是伊利诺伊大学研究团队在大型语言模型上发现的现象。强化学习(RL)作为一种重要的训练方法,被广泛用于改进大型语言模型(LLM)的下游任务表现,以及使模型更好地与人类价值观保持一致。传统观点认为,要使模型行为发生显著变化,需要对模型的大部分参数进行调整。然而,这项研究却发现,即使是通过完全微调(允许更新所有参数)的RL方法,实际上只有模型中5%-30%的参数被显著更新,而其余参数几乎保持不变。

研究人员将这种现象称为"RL诱导的参数更新稀疏性"。最令人惊讶的是,这种稀疏性并非人为设计的结果,而是自然产生的。研究者们在7种广泛使用的RL算法(包括PPO、GRPO、DPO等)和10种不同系列的大型语言模型中都观察到了这一现象,且无需任何明确的稀疏性促进正则化或架构约束。

**二、子网络的神奇之处**

想象一下,在一个拥有数百万人口的城市中,只有一小部分关键人物的决策实际上影响了整个城市的发展方向。研究团队发现,大型语言模型中也存在这样一种现象——只有一小部分"关键"参数(子网络)在RL训练过程中被实际更新,这些参数构成了模型中的"决策核心"。

更令人惊讶的是,研究者们发现,如果仅仅微调这个被识别出的子网络(同时冻结其他参数),不仅能够恢复完全微调模型的测试准确率,还能产生一个几乎与完全微调模型完全相同的模型。这远远超出了传统的"彩票假设"(Lottery Ticket Hypothesis)的范畴,不仅表明子网络可以匹配完整模型的性能,更证明了它可以收敛到几乎完全相同的模型参数。

这就像发现了城市中真正的决策核心后,只需影响这些关键人物,就能达到影响整个城市决策的效果,而且结果与影响所有人几乎完全相同。

**三、子网络的一致性与分布**

如果这种子网络是随机形成的,那么在不同条件下训练出的子网络应该完全不同。然而,研究发现,即使使用不同的随机种子、训练数据,甚至不同的RL算法,形成的子网络之间仍然存在显著的重叠,远高于随机猜测的基线。

例如,当仅改变随机种子时,两个模型中被更新参数的重叠率达到了约60.5%;当同时改变数据、随机种子和RL算法时,重叠率仍能达到33.2%-59.1%。这表明,子网络并非简单的训练巧合,而是模型中存在某种内在结构,在不同训练条件下都能被一致地识别和利用。

研究者们进一步分析了参数更新在模型不同层和组件中的分布。他们发现,更新并非集中在某些特定层或组件中,而是分布在整个模型中。除了层归一化(Layer Normalization)参数几乎从不被更新外,几乎所有参数矩阵都接收到了类似稀疏的更新。

有趣的是,尽管更新很稀疏,但它们几乎总是满秩的。这意味着,RL更新了一小部分参数,但这些参数几乎跨越了参数矩阵可以表示的全部子空间,而不是仅限于低维子空间。这就像在一个大型交响乐团中,只有少数关键乐手在演奏,但他们的演奏却能覆盖整个音域和乐曲的各个部分。

**四、性能验证:子网络的魔力**

研究团队通过严格的实验验证了他们的猜想。他们分别对两种不同类型的RL算法(DPO和PRIME)进行了测试。在DPO实验中,他们发现仅微调子网络不仅能匹配完全微调模型的性能,在某些任务上甚至表现更佳。例如,在AGIEval LSAT-AR任务上,子网络模型的得分比完全微调模型高出3.5个百分点。

在PRIME实验中,类似的结果也被观察到。特别是在难度较高的数学问题上(MATH500难度5级),子网络模型的准确率达到了45.5%,比完全微调模型的40.3%高出5.2个百分点。

令人惊讶的是,子网络模型和完全微调模型的参数值非常接近,在DPO中有94%的权重相同,在PRIME中有90.5%的权重相同。当使用稍宽松的相等标准时(容差为10^-4而非默认的10^-5),两种模型的参数变得100%相同。这证明了两个模型确实收敛到了几乎相同的参数值。

研究者们还观察到,子网络训练的损失一致低于完全微调的损失,这表明子网络训练实际上可能提供了一种更有效的优化路径。

**五、子网络形成的原因探究**

为什么会出现这种参数更新稀疏性现象呢?研究团队对可能的影响因素进行了系统研究。

首先,他们排除了梯度裁剪和KL散度正则化的影响。这两种常用于保持策略不偏离参考模型的技术被认为可能是导致更新稀疏的原因,但实验结果表明它们的影响有限。例如,使用KL正则化的GRPO变体的稀疏度为69.8%,而没有KL正则化的变体稀疏度为68.8%,差异很小。

其次,研究发现在RL之前进行监督微调(SFT)也不是主要因素。一些模型如DeepSeek-R1-Zero完全跳过了SFT阶段,直接从预训练模型进行RL,但仍然表现出高度的更新稀疏性(86.0%)。

研究者们发现,最主要的因素是训练数据分布与策略分布的接近程度,即是否训练在"分布内"(in-distribution)数据上。当模型在与自身策略分布接近的数据上学习时,需要的参数更新会更少,从而导致更新稀疏。这解释了为什么在线策略RL(如PPO)或在RL之前对相同数据进行SFT(如DPO和KTO常做的)会产生稀疏更新。

为验证这一点,研究者们进行了对照实验:在"分布内"数据上进行SFT(使用拒绝采样)也产生了稀疏更新(约90%稀疏度),而在"分布外"数据上进行DPO则产生了密集更新(仅6.8%稀疏度)。

训练时长也是一个影响因素。随着训练进行,更新稀疏度逐渐下降,但最终趋于稳定在约80%左右。值得注意的是,即使在经过8000步训练(比PRIME多20倍)后,DeepSeek-R1-Zero仍然保持了86%的更新稀疏度,这表明稀疏性是RL训练的一个稳定特性。

**六、研究意义与未来方向**

这项研究的发现对RL微调大型语言模型有着深远的意义。它表明RL将优化完全集中在一个小而一致的活跃子网络上,而其余参数则保持不变。这为更有效的RL训练方法提供了可能,例如,设计明确利用这种更新稀疏性的算法。

这些发现也支持了最近的研究结果,即与SFT相比,RL更好地保留了预训练能力,这可能是因为RL更新了实质性更少的参数。此外,这项研究打开了新的可能性,例如在不同RL运行之间部分重用子网络,这可能在超参数搜索或消融研究中减少冗余计算。

这就像发现了一个更高效的城市治理方式——不需要让每个公民都参与每个决策,只需确保关键决策者在关键时刻做出正确选择,就能让整个城市更有效地运行。

由于RL的计算要求很高,研究团队只能一次改变一个因素进行实验,未来可能需要探索多因素的复杂交互。此外,将这些问题扩展到多模态和扩散模型也是一个有趣的未来方向。后续研究可以探索更早识别稀疏子网络的方法,以及如何利用这种结构进行更高效的学习。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-