微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

研究推理的奖励模型：微软提出新方法让AI评判能力更上一层楼

人工智能奖励模型强化学习

研究推理的奖励模型：微软提出新方法让AI评判能力更上一层楼

作者：科技行者

2025-05-26 08:09

分享至：

微软研究院新提出的"奖励推理模型"(RRM)为大型语言模型开创了全新评估方式。传统奖励模型对所有问题使用统一计算资源，而RRM能像人类一样先进行推理思考再做判断，对复杂问题投入更多思考资源。研究团队通过强化学习框架训练模型自主发展推理能力，无需显式示例。实验证明RRM在多个基准测试上表现优异，能自适应扩展计算资源提升判断准确性。该研究为AI评估系统带来范式转变，使人工智能判断更接近人类思考过程。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-26 08:09 • 科技行者

微软研究院今年5月发表了一项突破性研究，为人工智能评估系统带来了新的视角。这项由微软研究院的郭家鑫、迟泽文、董力等研究者共同完成的论文《奖励推理模型》（Reward Reasoning Model）发表于arXiv预印本平台（arXiv:2505.14674v1），为大型语言模型（LLM）的能力评估和提升开辟了新路径。

想象一下，你有一位助手，他总是能给你提供答案，但有时候答案质量参差不齐。你可能会想：如何判断哪个答案更好？这正是人工智能研究者们面临的挑战。目前，研究人员使用"奖励模型"来评估AI生成内容的质量，就像一位品鉴专家为不同答案打分。但传统的奖励模型面临一个困境：它们对所有问题都投入相同的思考资源，无论问题简单还是复杂。

想象一下我们人类的思考方式——面对"1+1=?"这样的简单问题，我们几乎不需要思考就能给出答案；但面对"如何解释量子纠缠"这样的复杂问题，我们需要深入思考、分析各个角度、权衡不同因素才能形成判断。传统的奖励模型不具备这种适应性，它们无法根据问题的复杂度调整思考深度。

微软研究院的研究团队提出了一个全新的框架——奖励推理模型（Reward Reasoning Models，简称RRMs）。这个模型不再像传统奖励模型那样直接给出评分，而是模仿人类的思考过程，先进行深入的推理，然后再做出判断。就像一位认真的评审员，在给出最终评分前，先在纸上写下详细的分析过程。

这项研究的核心创新在于，RRMs能够根据问题的复杂程度，灵活调整分配给思考过程的计算资源。对于简单问题，它可以快速给出评判；而对于复杂问题，它会投入更多的推理步骤，确保评判的准确性。这就像一位灵活的考官，对简单题目快速判分，而对复杂题目则仔细推敲每个环节。

研究团队采用了一种称为"通过强化学习的奖励推理"的训练框架，使模型能够自主发展推理能力，而无需提供显式的推理路径作为训练数据。这就像教孩子学习思考，不是通过背诵思考步骤，而是鼓励他们通过尝试和反馈逐渐形成自己的思考方式。

实验结果显示，RRMs在多个评估基准上取得了优异表现，无论是在推理任务、常识知识，还是安全性评估方面。特别值得一提的是，研究团队还展示了RRMs如何适应性地利用额外的计算资源来进一步提升评判准确性，这在之前的模型中是难以实现的。

接下来，让我们一起深入了解这项研究的细节，看看微软研究院的团队是如何让AI的判断能力更接近人类的思考过程的。

一、研究背景：为什么我们需要更智能的奖励模型？

想象你正在教一个孩子如何判断哪些回答是好的、哪些回答是不够好的。最初，你可能会给他一个简单的评分表，让他按照表格上的标准给答案打分。但随着问题变得越来越复杂，你会发现这种简单的评分方式不再适用——有些问题需要深入思考，需要从多个角度进行分析，甚至需要先解决一些子问题，才能做出准确的判断。

大型语言模型（LLM）的发展正经历类似的转变。最初，研究人员专注于扩大预训练资源，认为模型越大越好。但现在，重点已转向后训练技术，尤其是如何使模型与人类偏好保持一致，以及增强特定能力，比如推理能力。

在这个过程中，强化学习成为了一个基础方法，它可以利用人类反馈（RLHF）或可验证奖励（RLVR）来引导模型学习。虽然RLVR在数学推理等任务上取得了不错的成果，但它受限于只能用于有明确验证答案的训练查询。相比之下，RLHF通常使用奖励模型作为人类偏好的代理，可以应用于更广泛的领域。因此，开发准确且广泛适用的奖励模型对于后训练技术的有效性至关重要。

目前的奖励模型主要分为两类：标量奖励模型和生成式奖励模型。标量奖励模型通常将解码层替换为线性层，以预测单一的标量值。这些模型被训练来最大化偏好回应和被拒绝回应之间的预测分数差异。而生成式奖励模型则是一种新兴的替代方法，它利用LLM的能力产生可解释和忠实的反馈，提供了更大的灵活性，能够遵循自适应评估指令构建合成训练数据，从而通过迭代改进实现自我提升。

尽管现有奖励模型被广泛应用，但如何有效扩展测试时计算用于奖励估计仍然是一个开放性挑战。作为通用评估器，奖励模型应该能够适应从立即明显的问题到需要广泛推理的复杂任务的多样化查询。然而，现有方法几乎对所有输入应用统一的计算资源，缺乏根据查询难度灵活分配计算资源的能力。这种僵化限制了它们在评估需要细微分析或多步推理的回应时的有效性。

二、奖励推理模型：像人类一样思考，再做判断

那么，微软研究院的团队是如何解决这个挑战的呢？他们提出了奖励推理模型（Reward Reasoning Models，简称RRMs）。不同于现有的奖励模型，RRM将奖励建模视为一个推理任务，模型首先产生一个长链式思考推理过程，然后再生成最终的奖励。

想象一下一位细心的评委在评分前会先在笔记本上写下详细的思考过程：分析问题的各个方面，考虑不同的解决策略，评估每种方法的优缺点，然后才做出最终判断。RRM正是模仿这种思考过程。

RRM使用Qwen2模型架构，以Transformer解码器作为主干。奖励建模任务被表述为一个文本完成问题：RRM接收查询和相应的回应作为输入，然后自回归地生成由思考过程和最终判断组成的输出文本。

每个RRM的输入都包含一个查询和两个相应的回应。RRM的目标是确定哪个回应更受偏好，并且不允许平局。研究团队使用了RewardBench存储库中的系统提示，引导模型根据几个评估标准对两个回应进行系统分析，包括指令忠实度、有用性、准确性、无害性和详细程度。模型还被明确指示避免常见偏见（如回应顺序或长度），并必须在做出判断前通过结构化推理证明其判断。

由于RRM的输入限制为恰好两个候选回应，因此保留了输出长度容量用于奖励推理。当面对多个候选回应的场景时，RRM可以使用两种奖励策略：ELO评级系统和淘汰赛。

在ELO评级系统中，每个候选都与所有其他候选进行成对比较，形成一个循环赛的结构。获胜-失败记录被转化为使用ELO评级系统的评分。虽然这个策略需要处理O(n?)对比较结果，但可以通过抽样成对匹配的子集来减少计算成本。

而淘汰赛策略则灵感来自体育比赛结构，将多个候选组织成一个竞赛支架。候选在连续轮次中随机配对，获胜者晋级到后续阶段。在每次成对比较中，RRMs确定一个偏好回应，将在下一轮参与比赛。给定n个候选，这需要n-1次成对比较，复杂度为O(n)。

这两种策略都可以与多数投票相结合，进一步利用测试时计算。通过对每次成对比较多次采样RRMs，然后执行多数投票来获取成对比较结果，实现了多数投票与两种方法的无缝集成。这种组合方法增强了奖励评估的稳健性，同时有效利用了测试时的额外计算资源。

三、如何训练模型学会思考？强化学习的妙用

但这里有一个难题：如何训练模型进行这种深入思考？通常，我们需要大量的示例，展示"好的思考过程是什么样的"。但提供奖励推理轨迹的监督数据并不易获取。

研究团队开发了一个称为"通过强化学习的奖励推理"的训练框架来训练RRMs。不同于依赖现有推理痕迹的常规监督微调方法，这个框架鼓励RRMs在基于规则的奖励环境中自主进化其推理能力。

奖励函数被定义为：如果RRM选择了正确的回应，奖励为+1；否则为-1。注意，这个奖励评估的是RRM是否正确偏好地面真实回应，而不是对其自身输出进行评分。尽管奖励信号很简单，但这种基于规则的奖励可以有效监督策略模型发展出能够导致正确最终判断的推理模式。

研究团队使用DeepSeek-R1蒸馏模型作为基础模型，应用群体相对策略优化（GRPO）进行训练，并使用verl库实现。通过这种方法，模型能够通过试错和反馈，逐渐学习到有效的推理策略，就像人类通过经验积累学习思考一样。

为了训练RRMs，团队需要多样化的成对偏好数据，涵盖各种能力并与人类偏好一致。除了来自Skywork-Reward的偏好对外，他们还从各种数据源合成了偏好对。他们从Tülu 3提示数据集中随机抽样了80K个查询，使用DeepSeek-R1-Distill-Qwen-1.5B为每个查询生成两个回应，并使用GPT-4o注释偏好标签。

此外，他们还使用来自WebInstruct-verified、Skywork-OR1、Big-Math-RL和DAPO-Math的可验证问题-答案对合成偏好对。他们提示DeepSeek-R1蒸馏的1.5B和7B Qwen模型为每个问题生成几个回应，然后应用基于规则的验证器来评估回应。如果至少有一个回应是正确的，而另一个是不正确的，他们就将正确-不正确对添加到训练数据中。最终的训练数据集包含约420K个偏好对。

研究团队训练了RRM-7B和RRM-32B模型，分别使用不同的数据混合比例。这种训练方法使模型能够通过反复试错和反馈，逐步学习如何进行有效的奖励推理，而无需提供显式的推理轨迹作为训练数据。

四、实验结果：更深入的思考带来更好的判断

研究团队设计了一系列实验，评估RRMs在奖励模型基准测试和实际应用中的表现，并分析RRMs如何利用额外的测试时计算来实现更好的性能，以及研究RRM在多个领域展示的推理模式。

在RewardBench和PandaLM测试两个广泛使用的奖励模型基准测试上，RRMs与Skywork-Reward、GPT-4o、Claude 3.5 Sonnet、JudgeLM、DeepSeek-GRM和RM-R1等强基准进行了比较。结果显示，RRMs实现了与强基准相当的奖励模型性能，证明了它们在产生与人类偏好一致的奖励方面的有效性。

值得注意的是，RRM-32B在RewardBench的推理类别中达到了98.6的准确率。将RRMs与DirectJudge模型（使用相同数据训练的模型）进行比较，揭示了在推理方面存在显著的性能差距。这种差异表明RRMs有效利用了测试时计算，从而增强了复杂查询的性能，这些查询受益于深思熟虑的推理过程。

在奖励引导的最佳N推理评估中，研究团队使用淘汰赛奖励策略来识别最佳N个回应。他们的方法与几个强基准比较，包括Skywork-Reward-Gemma-2-27B-v0.2和GPT-4o。结果表明，RRMs超过了所有基准模型，即使没有利用通过多数投票的额外测试时计算。

此外，研究团队还评估了他们的奖励模型，遵循Frick等人提出的二元偏好分类标准协议。RRMs在所有三个基准测试中保持强劲表现，始终优于基准奖励模型和指令调整的LLMs。值得注意的是，RRM-32B在MMLU-Pro、MATH和GPQA上实现了最先进的准确率，即使与显著更大的模型（如J1-Llama-70B）相比也是如此。

研究团队还通过使用强化学习或直接偏好优化对LLMs进行后训练，使用RRM生成的奖励来进一步评估RRMs。这种方法允许下游后训练LLMs的性能反映奖励信号的质量。他们在WebInstruct查询上使用群体相对策略优化（GRPO）训练DeepSeek-R1-Distill-Qwen-7B。不同于为每个样本单独分配奖励，他们将从同一查询生成的回应样本分组，并让它们相互竞争。

结果表明，后训练模型的下游性能在整个训练过程中稳步提高。这些结果证明了RRMs可以有效指导使用强化学习进行后训练，尽管大多数之前的工作完全依赖于标量奖励模型。这凸显了RRMs作为后训练管道中传统标量奖励模型的引人注目的替代方案的实际可行性。

五、深入推理能力：更灵活的测试时计算

在传统的奖励模型中，无论问题简单还是复杂，模型都会投入相同的计算资源。这就像一位老师对每道题目都花相同的时间评分，无论是加减法还是微积分。而RRMs的一个关键优势在于它们能够根据问题的复杂度灵活调整分配给思考过程的计算资源。

研究团队进行了并行测试时计算扩展实验，评估RRMs在增加测试时计算资源下的扩展行为。他们使用Qwen2.5-Math-7B-Instruct为每个MATH问题生成8个候选回应，然后使用RRMs进行奖励引导的最佳N推理。

如图5所示，随着成对比较数量的增加，RRM-7B和RRM-32B在MATH上的最佳N性能都稳步提高。这种一致的趋势表明RRMs可以适应性地利用动态测试时计算预算来改进最终输出。此外，他们还探索了多数投票的效果，多数投票是通过多次采样RRM输出来利用额外的测试时计算。结果表明，多数投票是将增加的测试时计算转化为性能提升的有效方法，进一步证明了他们方法的可扩展性。

研究团队还比较了评分策略，特别是使用RRMs通过淘汰赛或ELO评级系统评估候选者。结果表明，ELO评级在RRM-7B和RRM-32B中始终优于淘汰赛。然而，淘汰赛产生的性能只略低，同时需要更少的计算资源——只需O(n)比较。这种效率-性能权衡突显了他们方法在适应不同计算约束方面的灵活性。

除了并行扩展，研究团队还研究了启用更长的思想链对性能的影响。他们通过设置最大令牌限制来控制思考预算，评估RRMs在RewardBench上的表现。如果在限制之前没有生成过渡信号，则该阶段被截断。他们还设置了一个小的后思考预算，以防止计算黑客攻击，即确保性能改进真正反映了RRMs的推理能力的有效性，而不仅仅是增加输出长度。

在7B、14B和32B RRMs的实验中，更长的思考范围一致地提高了所有模型大小的输出准确率（图6）。这些改进在不同的模型容量中是一致的，证明了RRMs能够有效利用扩展的思考预算来逐步增强奖励准确率。这一发现证实了RRMs的推理能力可以通过额外的顺序计算来扩展，提供了一种提高奖励模型性能的灵活方法，既不需要更大的模型大小，也不需要额外的推理通过。

六、揭秘推理模式：RRMs如何思考？

为了更深入地理解RRMs的工作原理，研究团队分析了RRM-32B的推理模式，通过统计测量模型回应中包含"等待"和"另外"等关键词的比例。他们将推理模式分为四类：转变（切换视角或策略）、反思（自我检查或回顾早期步骤）、比较（评估多个选项）和分解（分解问题）。

如图8所示，与DeepSeek-R1-Distill-Qwen-32B模型相比，RRM-32B在判断两个答案的优劣时展示了更大程度的推理模式总体利用率，特别是在从不同角度分析和进行深入比较方面。相比之下，DeepSeek-R1-Distill-Qwen-32B模型更频繁地使用分解模式，这表明在做出判断时更倾向于直接解决问题，但不太倾向于比较两个答案的优点和进行自我检查。这种推理模式的区别突显了他们的奖励推理通过强化学习框架如何塑造模型对评估任务的方法。

表6展示了DeepSeek-R1-Distill-Qwen-32B和RRM-32B输出的案例研究。在对单个示例的回应中，RRM-32B表现出更强的倾向于迭代应用推理模式，以进行更全面、深入的比较。DeepSeek-R1-Distill-Qwen-32B模型的推理过程往往简单而单一——包括对两个答案的单独分析，然后是总结。相比之下，RRM-32B的思考过程涉及多次迭代的自我反思、比较分析和考虑各种视角，融入了更详细的分析和对指令的解释。因此，RRM-32B表现出增强的能力，可以遵循指令并提供更准确的比较判断。这种迭代推理方法似乎是RRMs在各种评估任务中表现优越的关键因素。

七、研究启示与未来方向

这项研究的主要贡献集中在三个方面：首先，提出了奖励推理模型（RRMs），这些模型在产生最终奖励之前执行显式推理。这种推理阶段使RRMs能够适应性地分配额外的计算资源，评估对复杂任务的回应。RRMs通过有效扩展测试时计算来增强奖励建模，同时保持在各种评估场景中的普遍适用性和有效性。

其次，开发了一个名为"通过强化学习的奖励推理"的框架。这个框架鼓励RRMs自主发展奖励推理能力，无需显式推理轨迹作为训练数据。

最后，通过广泛的实验，团队不仅证明了RRMs在奖励建模中的卓越表现，还证明了它们有前景的测试时扩展特性。

这项研究为未来的奖励模型开发提供了新的视角，表明让模型"像人类一样思考"——即通过显式推理过程来达到判断——可以显著提高评估性能。这种方法不仅提高了准确性，还提供了更大的灵活性，允许模型在需要时分配更多计算资源，而对于简单的判断则快速处理。

研究团队还开源了代码和模型，支持和加速LLM后训练社区内的研究。未来的研究方向可能包括探索更复杂的奖励函数、集成多模态输入的能力，以及进一步优化推理过程的效率。

总的来说，微软研究院的这项研究为开发更智能、更灵活的评估系统铺平了道路，这些系统能够像人类一样，根据问题的复杂性调整思考深度，从而做出更准确的判断。这不仅对人工智能研究有重要意义，也为如何设计更符合人类思考过程的智能系统提供了宝贵启示。

人工智能奖励模型强化学习

分享至