这项由INFLY TECH、复旦大学和格里菲斯大学联合完成的突破性研究,发表于2025年9月,揭示了大语言模型强化学习训练中一个令人困惑的现象。有兴趣深入了解的读者可以通过GitHub项目(https://github.com/seamoke/DPH-RL)访问完整代码和论文。
近年来,人工智能在数学解题和代码生成等需要精确答案的任务上表现越来越出色。然而,研究人员发现了一个令人费解的现象:当他们用强化学习方法来训练这些AI模型时,虽然模型在单次回答问题时变得更准确了,但当允许它们多次尝试回答同一问题时,整体成功率竟然下降了。这就像一个学生经过训练后,虽然第一次答题的准确率提高了,但当老师给他多次机会重答时,他反而表现更差了。
这个奇怪的现象背后隐藏着什么秘密?研究团队通过深入分析发现,问题出在训练方法的一个细节上——散度项的选择。散度是衡量两个概率分布差异的数学工具,在AI训练中用来控制新模型不要偏离原始模型太远。就像给一个学习者划定学习边界,既要让他进步,又不能让他完全忘记之前学过的知识。
传统方法使用的是"反向KL散度",这种方法有一个特点:它倾向于让模型专注于少数几个高概率的答案,就像一个学生只专攻几种类型的题目,虽然在这些题目上表现很好,但丧失了解决其他类型问题的能力。这种现象被称为"模式寻求",会导致模型的输出变得单一化,失去了解决问题的多样性。
更糟糕的是,这种训练方式还会引发"灾难性遗忘"现象。研究数据显示,经过传统强化学习训练的模型,对于之前能够正确解决的问题,成功率下降到只有85%左右。这就像一个学生在专攻某些题型后,反而忘记了以前会做的其他题目。
面对这个困扰整个领域的难题,研究团队提出了一个创新的解决方案:多样性保持混合强化学习框架(DPH-RL)。这个方法的核心思想是改变散度项的选择,从"反向KL散度"转向"正向KL散度"和"JS散度"等具有"质量覆盖"特性的散度方法。
正向KL散度的工作原理与反向KL散度完全相反。如果说反向KL散度是让学生专攻少数题型,那么正向KL散度就是鼓励学生保持对各种题型的掌握能力。它会惩罚模型忽视原始策略中任何有意义的解决方案,从而保持解决问题的多样性。从实际操作角度看,正向KL散度相当于创建了一个"复习机制",强制模型持续回顾和巩固原有的知识基础。
为了验证这个理论,研究团队设计了一个巧妙的实验。他们构建了一个能够输出五种不同解题风格的基础模型,然后分别用传统方法和新方法进行训练。结果非常明显:传统方法训练后的模型几乎只会输出一种解题风格,而使用正向KL散度训练的模型在60%的情况下仍能生成三种以上的不同风格解答。
DPH-RL框架的实现分为两个阶段。在预采样阶段,系统会对训练数据进行智能分类。对于基础模型已经能够稳定正确回答的问题,这些被归类为"完美数据集",每个样本会保存一个正确答案及其对应的概率值。对于仍需改进的困难问题,则被归类为"探索数据集",这些问题将成为强化学习的重点训练对象。
在在线训练阶段,系统会同时使用两种不同的训练策略。对于探索数据集中的样本,模型被给予最大的自由度进行探索,不受任何散度约束的限制,这样能够让模型在困难问题上有更大的突破空间。而对于完美数据集中的样本,系统会应用正向KL散度或JS散度约束,确保模型不会遗忘已经掌握的知识。
研究团队通过大规模实验验证了DPH-RL的效果。他们在数学推理和SQL查询生成两个任务上,使用了从7B到32B参数规模的不同模型进行测试。实验结果令人印象深刻:DPH-RL不仅解决了多样性崩塌问题,还在单次准确率和多次尝试成功率两个指标上都实现了提升。
在SQL任务的测试中,以Llama-3.1-8B模型为例,传统GRPO方法的Pass@8得分比基础模型下降了2.6个百分点,而DPH-JS方法则提升了1.7个百分点。更重要的是,当测试跨领域泛化能力时,传统方法的性能急剧下降,而DPH-RL方法能够很好地保持性能稳定性。
数学推理任务的结果同样令人鼓舞。在AIME24数学竞赛题目上,传统GRPO方法的Pass@64得分从基础模型的40.0%下降到33.3%,而DPH-JS方法不仅维持了40.0%的得分,在其他数学数据集上还实现了稳步提升。
研究团队还发现了一个重要现象:不同模型架构对强化学习训练的响应存在显著差异。Llama系列模型在数学推理任务上的强化学习效果相对有限,平均提升只有0.93个百分点,同时Pass@k得分还下降了3.26个百分点。相比之下,Qwen系列模型对强化学习训练的响应要好得多,能够同时在准确率和多样性指标上实现约20%的提升。这个发现为不同模型的训练策略选择提供了重要参考。
为了深入理解DPH-RL的工作机制,研究团队进行了详细的保持率和探索率分析。他们将基础模型的输出分为正确样本和错误样本两类,然后观察强化学习训练后模型对这两类样本的处理能力。结果显示,传统GRPO和DAPO方法在两个数据集上的保持率都有所下降,这解释了为什么会出现灾难性遗忘现象。而使用KL散度约束的方法主要通过提高保持率来维持更高的Pass@k得分。
DPH-RL框架的另一个重要优势是计算效率。传统的散度计算方法需要在训练过程中维持一个在线参考模型,这会显著增加计算开销。而DPH-RL采用生成函数形式计算f-散度,只需要从初始策略进行采样,无需在线参考模型,从而大大提高了训练效率。
研究团队还对不同f-散度的效果进行了系统比较。除了正向KL散度和JS散度外,他们还测试了α-散度族中的不同选择。实验发现,α-散度在正向KL和反向KL之间提供了一个平衡点,随着α值的增加,理论上越接近正向KL的能力,实验中也表现出更高的Pass@k得分。这为研究者提供了更多的方法选择空间。
值得注意的是,DPH-RL的成功不仅在于技术创新,更在于它从根本上改变了对散度项作用的认识。传统观点将散度项仅视为策略约束工具,而DPH-RL将其重新定位为主动的多样性保持机制。这种认识上的转变可能会启发更多相关研究。
研究团队还提供了理论支撑,证明了DPH-RL具有增强的单调改进保证。在满足一定假设条件下,每次策略更新的改进下界比传统TRPO分析中的对应结果更强。这为方法的理论可靠性提供了数学保证。
从实际应用角度看,DPH-RL的意义远不止解决技术问题。它为构建更加通用和多样化的推理模型提供了新路径。在当前大模型应用日益广泛的背景下,保持模型的多样性和泛化能力变得越来越重要。DPH-RL的成功表明,通过精心设计的训练方法,我们可以在提升模型性能的同时避免能力退化。
此外,这项研究也为强化学习在大模型训练中的应用提供了重要启示。它证明了传统强化学习方法在应用于大规模语言模型时需要特殊考虑,单纯移植经典算法可能会带来意想不到的问题。这提醒研究者在设计新的训练方法时,需要充分考虑大模型的特殊性质。
说到底,这项研究揭示了一个重要事实:在AI训练中,有时候细节决定成败。一个看似技术性的选择——使用哪种散度函数——竟然会对模型的整体表现产生如此深远的影响。这不仅解决了困扰研究界的实际问题,也为未来的AI系统设计提供了宝贵经验。对于普通人而言,这意味着未来的AI助手将能更好地保持解决问题的多样性,不会因为在某个领域的专门训练而忘记其他能力。
Q&A
Q1:什么是多样性崩塌现象?为什么会发生?
A:多样性崩塌是指AI模型在强化学习训练后,虽然单次回答准确率提高,但多次尝试的整体成功率反而下降的现象。这是因为传统训练方法使用的反向KL散度具有"模式寻求"特性,让模型过度专注于少数高概率答案,失去了解决问题的多样性,就像学生只专攻几种题型而忘记其他解题方法。
Q2:DPH-RL框架是如何解决多样性崩塌问题的?
A:DPH-RL通过改变散度项的选择来解决问题。它使用具有"质量覆盖"特性的正向KL散度和JS散度,这些方法会惩罚模型忽视原始策略中的任何解决方案,强制保持解决问题的多样性。同时,它创建了一个"复习机制",让模型持续回顾和巩固原有知识,避免灾难性遗忘。
Q3:DPH-RL在实际应用中效果如何?有什么优势?
A:实验结果显示,DPH-RL不仅解决了多样性崩塌问题,还同时提升了单次准确率和多次尝试成功率。在SQL任务中,传统方法的Pass@8得分下降2.6个百分点,而DPH-JS方法提升了1.7个百分点。此外,DPH-RL在跨领域任务上表现更稳定,计算效率也更高,因为无需维持在线参考模型。
好文章,需要你的鼓励
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。
谷歌DeepMind团队开发的GraphCast是一个革命性的AI天气预测模型,能够在不到一分钟内完成10天全球天气预报,准确性超越传统方法90%的指标。该模型采用图神经网络技术,通过学习40年历史数据掌握天气变化规律,在极端天气预测方面表现卓越,能耗仅为传统方法的千分之一,为气象学领域带来了效率和精度的双重突破。