微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 重新思考大型语言模型推理的采样标准:基于能力-难度对齐的视角

重新思考大型语言模型推理的采样标准:基于能力-难度对齐的视角

2025-05-29 14:50
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-29 14:50 科技行者

在人工智能快速发展的今天,大型语言模型(LLMs)在数学等具有挑战性的任务中展现出了令人惊叹的表现。2025年5月,来自美团集团和北京大学国家软件工程研究中心的研究团队联合发表了一篇题为《重新思考大型语言模型推理的采样标准:基于能力-难度对齐的视角》的研究论文(arXiv:2505.17652v1),为增强大型语言模型的推理能力提出了一种全新的方法。这项研究由孔德阳、郭琦、习向宇等人共同完成,探讨了如何通过更有效的采样策略来提高强化学习训练的效率。

想象一下,你正在教一个孩子解决数学问题。如果你只给他出特别简单的题目,他不会有什么进步;如果你只给他出难度远超他能力的题目,他可能会感到挫折并放弃。最理想的教学方式是什么?当然是根据孩子当前的能力水平,选择刚好有一定挑战性但又不会太难的题目。这正是这篇论文所提出的核心理念。

强化学习(Reinforcement Learning,简称RL)已被证明是提升大型语言模型推理能力的有效技术,DeepSeek-R1和OpenAI O1等先进模型的背后都采用了这一技术。然而,RL训练面临一个关键挑战:计算成本高且难以扩展,尤其是在训练过程中采样效率低下的问题尤为突出。研究团队敏锐地观察到,现有的采样策略存在两个主要问题:一是基于单步通过率的问题难度估计不稳定且有偏差;二是未能适当捕捉模型能力与问题难度之间的匹配关系。

针对这些挑战,研究者提出了"能力-难度对齐采样"(Competence-Difficulty Alignment Sampling,简称CDAS)方法。这种方法不再仅仅依赖单一步骤的通过率,而是通过聚合历史表现差异来实现更精确、更稳定的问题难度估计。同时,CDAS能够量化模型的能力水平,并利用一个固定点系统自适应地选择那些难度与当前模型能力相匹配的问题。

接下来,让我们深入了解这项研究的方法、实验结果以及它为大型语言模型训练带来的启示。

一、背景:强化学习与大型语言模型的推理能力

想象你正在学习弹钢琴。起初,你可能会从简单的曲子开始,随着技能提升,你会尝试更复杂的曲目。这个过程中,教师会根据你的进步情况调整教学内容。强化学习训练大型语言模型的过程也十分类似。

强化学习已成为提升大型语言模型推理能力的核心技术,特别是在数学和编程等具有挑战性的任务中。这项技术通过使用验证器作为奖励模型来指导高质量推理链的生成,无需人工标注数据。然而,RL训练存在一个显著的瓶颈:采样效率低下,尤其在"rollout"阶段(模型生成多个答案尝试的阶段)。

研究表明,如果模型尝试解决过于困难的问题,通常会导致没有正确的推理链产生;而如果问题过于简单,则对模型能力的提升贡献有限,导致计算资源的浪费。因此,研究界一直在探索更高效的采样策略,以提高RL训练的效率和稳定性。

现有的采样策略大多借鉴了课程学习(Curriculum Learning)的思想,基于问题难度安排训练数据,以提高训练稳定性和效率。例如,课程采样策略(Curriculum Sampling Strategy)依赖预先定义的难度标签,但这种方法过于离线,忽略了模型的内在能力。动态采样(Dynamic Sampling)通过过采样并过滤掉通过率为1和0的问题,虽然效果不错,但会产生大量的rollout开销,降低训练效率。优先级采样策略(Prioritized Sampling Strategy)则在训练过程中记录每个问题的最新通过率,并自适应地为通过率较低的问题分配更高的采样概率。总的来说,通过率已被广泛采用作为模型问题难度的代理指标。

然而,这些策略往往由于两个主要问题而表现不佳:首先,使用单步通过率进行问题难度估计不稳定且有偏差。研究团队在使用MATH数据集训练Qwen-2.5 7B模型的实验中发现,单个问题的通过率在训练过程中表现出显著的波动,导致问题难度的估计不稳定。其次,这些方法未能适当捕捉模型能力与问题难度之间的匹配关系。通常的策略是为更难的问题(通过率较低的问题)分配更高的采样概率,但这可能导致在训练中选择许多梯度为零的问题(通过率为0的问题),限制了训练效率。

二、能力-难度对齐采样:创新方法的核心理念

想象你是一位游泳教练,你需要根据学员的能力水平选择合适的训练内容。你不会仅仅根据学员今天的表现来判断他的能力,而是会考虑他过去几周的整体表现。同样,CDAS方法不仅关注模型在某一步骤的表现,而是考虑历史表现的整体轨迹。

CDAS的核心直觉有两点:首先,与仅依赖单一步骤的通过率相比,纳入所有历史信息的累积估计往往能提供更稳定的问题难度评估;其次,明确建模模型能力以测量其与问题难度的匹配度,从而实现更有效的采样决策。

具体来说,CDAS将问题难度建模为训练步骤上的性能差异轨迹,其中每一点反映了预期通过率与实际通过率之间的差距。然后,使用这个轨迹的质心提供稳定且准确的问题难度评估。此外,模型能力被定义为所有问题的负期望难度,问题难度与模型能力之间的绝对差被用来量化它们的匹配程度。

考虑到RL训练的动态性,上述能力-难度匹配估计被进一步形式化为一个基于难度的固定点系统,该系统能够迭代收敛,并确保训练的稳定性,且有理论保证。

让我们通过一个具体的例子来理解这一方法。假设我们有一个问题,其通过率随着训练步骤的增加从0增加到1。如果我们仅基于通过率来衡量难度,由于通过率的大幅波动,难度估计将不稳定。然而,通过考虑历史表现,我们可以获得更稳定、更有信息量的估计。研究团队绘制了直到当前步骤的平均历史通过率,结果是一条更平滑的曲线,更好地反映了潜在的历史趋势。

受此启发,CDAS将问题x在第n步训练的模型Mn上的性能差异d定义为:

d_n(x) = P^M_n(y|x) - PM_n(y|x)

其中,PM_n(y|x)表示模型解决问题x的实际概率,通过通过率s(x)估计。P^M_n(y|x)表示模型能够解决x的预期概率。然后,给定现有轨迹{d_1(x), d_2(x), ..., d_n(x)},问题的难度D通过轨迹的质心量化:

D_n(x) = (1/n) Σ_(k=1)^n [P^M_k(y|x) - PM_k(y|x)]

质心考虑了多个训练步骤的累积性能差异,提供了更准确、更稳健的问题难度度量。性能差异的概念可以看作是优先级采样中1-s(x)方法的改进,作为每个单独训练步骤难度的更精细估计。

P^M_n(y|x)的估计应该考虑问题难度和模型能力。研究团队采用了在概率建模中广泛使用的sigmoid函数来描述这种概率:

P^M_n(y|x) = 1 / (1 + e^(-(C_(n-1)-D_(n-1)(x)))) = σ(C_(n-1) - D_(n-1)(x))

其中,C_(n-1)表示前一步的模型能力,量化为所有问题难度的负期望:

C_(n-1) = -E_x[D_(n-1)(x)]

当模型能力超过问题难度时,问题被解决的预期概率更高;反之,当能力低于难度时,预期概率较低。

基于上述定义,研究团队自然引入了单个问题x与模型M_n之间匹配度的定义:

A(x, M_n) = |C_(n-1) - D_(n-1)(x)|

A值越小,问题难度越匹配模型当前能力。在每个训练步骤,采用对称采样方法构建问题集B = B- ∪ B+用于rollout,其中:

B- = argmin_(|B|/2) A(x, M_n), s.t. C_(n-1) - D_(n-1)(x) ≤ 0 B+ = argmin_(|B|/2) A(x, M_n), s.t. C_(n-1) - D_(n-1)(x) > 0

与直接选择A最小的问题相比,这种对称方法在B中维持了难和易问题的平衡比例,促进了训练稳定性。

实际操作中,研究团队首先测量先前难度与模型能力之间的匹配度,然后基于上述对称采样获取用于rollout的问题集。一步之后,模型的能力和问题的难度会被动态更新。整个过程重复,直到训练收敛。

值得注意的是,问题难度的更新可以看作是一个固定点系统,表示为:

D*(x) = σ(C* - D*(x)) - S*(x), x ∈ X C* = -E_x[D*(x)]

由于sigmoid函数是收缩映射,该系统将收敛到唯一解。

由于批大小|B|通常远小于训练集大小,在每一步执行问题难度的完全更新将导致巨大的计算开销。相反,对于问题x_j,研究团队记录其被采样的次数t_j,并仅在采样时更新其难度。具体来说,在第i步,问题难度可以通过以下方式迭代更新:

D_t_j(x_j) = (t_j - 1)/t_j · D_(t_j-1)(x_j) + 1/t_j · (σ(C_(n-1) - D_(t_j-1)(x_j)) - s_n(x_j))

三、实验验证:CDAS的性能与效率优势

让我们来看看CDAS在实际应用中的表现如何。研究团队在Qwen2.5-7B模型上使用一系列采样策略进行了GRPO(Group Relative Policy Optimization)训练,并在7个综合数学推理基准上进行了评估。

首先,了解一下实验设置。研究团队使用MATH数据集进行RL训练,包括7,500个训练样本和4,500个测试样本,并将其MATH500子集作为RL训练的验证集。他们将CDAS与几个强大的基线进行了比较:随机采样(相当于普通的GRPO训练)、课程采样(基于MATH数据集中包含的难度级别标签)、优先级采样(基于1-s跟踪每个问题的通过率并采样问题)和动态采样(过采样并过滤掉通过率等于1或0的问题)。

实验结果令人印象深刻。CDAS在不同的数学基准测试中持续表现优异,在第55步达到了45.28%的最高平均准确率,在第110步达到了46.77%的最高平均准确率。相比之下,课程采样(+0.30%)和优先级采样(+0.58%)相对于随机采样基线的改进有限,这表明仅依赖先验难度标签或单步通过率往往不是最佳选择。

CDAS还展示了相对于动态采样的显著效率优势。虽然动态采样通过过采样和排除通过率为1或0的问题,实现了与CDAS相当的性能(46.65% vs 46.77%),但它带来了更大的计算开销,计算时间是CDAS的2.33倍。这一结果明确突显了CDAS相对于动态采样的效率优势。

值得一提的是,CDAS在更具挑战性的基准测试上持续提升性能。在AIME24/25、Minerva Math和Olympiad Bench等基准上,CDAS表现出显著的改进。例如,CDAS在AIME25上达到了11.77%的准确率,在Olympiad Bench上达到了40.89%,明显高于基线。

从训练曲线中可以观察到一些有趣的现象。CDAS中的奖励曲线最初增长,然后收敛到中间值。大约30步后,奖励的振幅缩小到0.4到0.6的范围内,然后在0.5左右收敛。这表明CDAS有效地选择了难度适合模型的问题。相比之下,由于优先级采样倾向于选择更难的问题,其奖励展示出持续下降的趋势。

此外,虽然在CDAS和课程采样中观察到回应长度增加,但动态采样中的回应长度在大约15步后稳定下来,但基准测试上的平均准确率继续增长。这表明增加回应长度并不是提高性能的必要条件。

研究团队还进行了消融研究,探究了初始值对CDAS收敛的影响。他们发现,当移除预热阶段并从第一步开始采样时,训练曲线在训练早期阶段(前20步)表现出显著波动。具体来说,在前6步中,移除预热阶段导致回应长度明显减少,奖励快速增加,这表明模型过度学习了更简单的样本。然而,随着整个固定点系统的收敛保证,两条训练曲线逐渐重合,进一步证实了框架的稳定性。

研究团队还探究了基于匹配度的对称采样的有效性。相比之下,他们直接选择|B|个A值最小的问题进行rollout阶段。结果显示,移除对称采样后,CDAS仍然持续优于随机采样基线,但在准确率上仍有明显下降,特别是在训练后期(100步后)。研究团队将这一现象归因于由不平衡采样导致的模型能力估计中的累积误差。在训练早期,不平衡采样可能导致模型的能力被高估或低估。随着训练步数的增加,这种与真实能力的偏差累积,阻碍了CDAS的收敛,损害了后期的性能。

四、深入分析:CDAS的特性与优势

为了更全面地理解CDAS,研究团队从多个角度进行了分析和讨论。

首先,从GRPO优化目标的角度来看,动态采样的优异性能可以归因于它过滤掉了不对模型梯度有贡献的样本(即通过率为0或1的样本)。虽然CDAS没有明确限制问题选择中的通过率,但其基于匹配度的对称采样在一定程度上缓解了过采样零梯度问题的问题。如图所示,CDAS采样的批次中零梯度问题的比例始终低于其他基线,证明CDAS能有效提高采样问题的效用。

研究团队还观察到,CDAS中零梯度问题的比例在训练早期阶段快速下降,随后在后期阶段略有增加。初始阶段的急剧下降可归因于问题难度从初始值的快速校正。后期的适度上升主要是由于整个MATH训练集中零梯度问题比例的增加,导致在批次B+中采样更多通过率为0的问题。

由于CDAS中的问题难度源自通过率,研究团队探究了它们之间的关系。如图所示,问题难度和通过率总体上呈负相关,通过率低的问题往往具有更高的难度。有趣的是,即使在通过率相同的问题中,估计的难度也可能存在显著差异。为了进一步研究这一现象,研究团队随机选择了两个在最终采样步骤中通过率均为1的问题。

结果显示,问题A需要25次采样才能达到1的通过率,而问题B在仅6次采样后就达到了1的通过率。尽管在rollout中两者都具有相同的最终通过率,但问题A的难度明显高于问题B,其32次推断的平均准确率为0.6875,远低于问题B(平均32次的准确率为1.0)。这验证了CDAS通过利用历史信息,提供了更准确、更稳健的问题难度度量。

为了进一步探究方法在不同领域的有效性,研究团队将CDAS应用于代码生成任务的GRPO训练。具体来说,他们聚合了来自Apps、Taco和CodeContests的开源数据,并在Qwen2.5-Coder-7B上进行了100步的GRPO训练。在LiveCodeBench v5上的评估结果显示,尽管这对7B大小的模型来说是一个挑战性任务,但CDAS在pass@8和pass@1指标上始终优于普通的GRPO基线,仅在50步之后就显示出显著优势。

此外,除了在Qwen2.5-7B上观察到的强大性能外,研究团队进一步验证了CDAS在更大型LLMs上的有效性。具体来说,他们在Qwen2.5-14B上进行了训练,批大小为256,训练了200步,与主要实验的计算预算相匹配。CDAS相比随机采样基线取得了+1.47%的显著提升,甚至超过了在7B模型上观察到的提升(+1.27%),展示了在更大模型上的有效性。

五、研究的启示与未来方向

这项研究在大型语言模型强化学习训练方面带来了一些重要启示。

首先,稳定的难度估计对有效的采样策略至关重要。与仅依赖单步通过率的现有方法不同,CDAS通过聚合历史表现差异提供了更稳定、更准确的估计。这种方法不仅减轻了通过率波动的影响,还捕捉了问题难度的更深层次特征。

其次,能力-难度匹配是高效训练的关键。CDAS明确建模了模型能力,并动态选择与模型当前能力最匹配的问题。这种方法避免了过度强调困难问题(可能导致零梯度)或简单问题(对能力提升贡献有限)的陷阱,实现了更高效的参数更新。

此外,这项研究强调了理论保证在实际应用中的重要性。CDAS基于一个理论上有保证的固定点系统,确保了训练过程的稳定性和收敛性。这种理论基础不仅使方法更加可靠,还为未来的研究提供了坚实的基础。

在实际应用层面,CDAS在各种数学推理基准测试上展示的卓越性能,特别是在具有挑战性的基准如AIME和Olympiad Bench上的显著改进,表明这种方法在提升LLMs复杂推理能力方面具有巨大潜力。同时,CDAS在代码生成任务上的成功应用表明,这种方法具有跨域的泛化能力,可能适用于更广泛的任务。

尽管取得了显著进展,但研究也存在一定的局限性。例如,当数据集的整体难度极度偏向简单或困难时,不同采样策略之间的差异不明显。这表明采样策略在RL训练中有效的前提之一是数据集的难度分布不要过于偏离模型的能力。

未来的研究方向可能包括:探索更复杂的模型能力表示,考虑多维度的能力而非单一的能力分数;开发更高效的实现,进一步减少计算开销;将CDAS与其他RL算法和训练技术结合,可能产生更强大的训练框架;以及探索在更多任务和领域中应用CDAS的可能性。

总的来说,CDAS通过重新思考大型语言模型推理的采样标准,从能力-难度对齐的视角提供了一种新的范式。它不仅在理论上具有吸引力,在实践中也证明了其有效性和效率。随着大型语言模型继续发展,CDAS这样的方法将在释放它们全部潜力方面发挥关键作用。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-