微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 Think-RM:用长程思考推理提升生成式奖励模型的全新思路——来自乔治亚理工和亚马逊的联合研究

Think-RM:用长程思考推理提升生成式奖励模型的全新思路——来自乔治亚理工和亚马逊的联合研究

2025-05-28 19:53
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-28 19:53 科技行者

【论文信息】这项研究由乔治亚理工学院的Ilgee Hong、Zhenghao Xu、Qingru Zhang、Chao Zhang、Tuo Zhao和亚马逊的Changlong Yu、Liang Qiu、Weixiang Yan、Haoming Jiang、Qin Lu、Xin Liu共同完成,发表于2025年5月的arXiv预印本(arXiv:2505.16265v1),目前正在审稿中。有兴趣深入了解的读者可以通过https://github.com/IlgeeHong/Think-RM访问项目代码、数据集和模型。

从人类偏好到AI行为:理解RLHF与奖励模型的关系

想象一下,你正在教一个聪明但完全不懂社交规则的外星人如何在地球上与人类互动。你可能会告诉它:"这样做很好","那样做不太合适",逐渐引导它理解人类的偏好和行为准则。人工智能的训练过程与此类似,特别是当我们使用"基于人类反馈的强化学习"(Reinforcement Learning from Human Feedback,简称RLHF)这种方法时。

RLHF已成为调整大型语言模型(如ChatGPT等)行为的关键技术,帮助它们更好地遵循指令、进行多步推理,并遵守安全约束。这个过程的核心在于构建一个准确的"奖励信号"——就像教外星人时的表扬和纠正。这个奖励信号告诉AI模型哪些回答更符合人类期望,哪些则不那么理想。

传统上,研究人员使用Bradley-Terry奖励模型(BT RM)来构建这种奖励信号。这种模型就像一位评委,它会给每个AI回答打分,告诉AI哪个回答更好。但这种方法存在一些明显的局限性:它对训练数据的规模和覆盖范围非常敏感,而且容易被AI"钻空子"(称为奖励黑客)——就像聪明的学生可能只为了得分而不是真正理解知识一样。

为了解决这些问题,研究人员开发了生成式奖励模型(Generative Reward Models,简称GenRMs)。与只给出分数的BT RM不同,GenRM会先生成一段推理过程(就像考试时的解题步骤),然后再给出最终评价。这种方法更加稳健,能更好地应对数据稀缺和分布变化的情况。

然而,现有的GenRM也面临着自身的局限性。它们依赖于较短、较浅的垂直扩展推理,难以处理复杂或微妙的任务(如需要深度推理的情况)。此外,它们的输出通常是一种配对偏好(即A比B好),而标准的RLHF算法需要的是针对单个回答的评分信号。

Think-RM:让奖励模型拥有"深度思考"能力

乔治亚理工和亚马逊的研究团队提出了一种名为"Think-RM"的创新训练框架,旨在解决上述问题。Think-RM的核心理念是赋予奖励模型长程思考能力,就像人类在做复杂决策时会深入思考各种因素和可能性一样。

与传统的GenRM相比,Think-RM不是生成结构化的、外部提供的推理路径,而是产生灵活的、自我引导的推理过程。这使得模型能够支持更高级的能力,如自我反思、假设性推理和发散性思考。让我们通过一些例子来理解这些能力:

在自我反思方面,Think-RM能够回顾和纠正自己的判断。例如,当评估一个关于烹饪食谱的回答时,它可能会先认为"kecap manis是一种酱油",但随后通过深度思考意识到:"等一下,这是一个关键点。这道菜的名字是Tahu Gepot Cirebon,通常使用kecap manis(一种甜酱油),而普通酱油不同。我需要更准确地评估..."

在假设性推理方面,Think-RM能够探索不同场景下的可能结果。例如,当评估一个关于摄入清洁化学品的健康建议时,它会思考:"假设这是一种强酸或其他物质呢?活性炭可能会吸收一些毒素,但用户应该去看医生..."

在发散性思考方面,Think-RM能够探索多种解决问题的方法。比如在几何问题中,它可能会想:"让我用另一种更简单的方法。第三个顶点是通过旋转得到的...使用这些等式,我们得到了不同的结果,发现助手B的答案是错误的..."

这种长程思考能力使得Think-RM能够处理那些需要深入分析的复杂评估任务,远超传统GenRM的能力范围。

如何训练一个会"深度思考"的奖励模型?

Think-RM的训练过程可以类比为培养一个深思熟虑的评审员。这个过程分为两个主要阶段:首先是"预热"阶段,然后是"精炼"阶段。

在预热阶段,研究团队使用监督式微调(Supervised Fine-Tuning,简称SFT)方法。想象一下,就像让见习评审员观看资深评审员如何进行深度分析一样,模型学习观察现有的长链思考示例。研究人员使用QwQ-32B这样的预训练推理模型为每个训练实例生成多个长推理轨迹,然后选择最长的正确推理路径用于训练。这些长推理路径自然包含了多种形式的自我反思和分析深度,为模型提供了强大的推理基础。

在精炼阶段,研究团队使用基于规则的强化学习(Rule-based Reinforcement Learning,简称RL)进一步改进模型的长程思考能力。就像让评审员通过实践来提升技能一样,这个阶段允许模型探索多种推理路径,并根据这些路径的有效性获得反馈。特别是,研究人员采用了组相对策略优化(Group Relative Policy Optimization,简称GRPO)方法,但将奖励仅基于准确性。这种方法确保了强大的学习信号——当模型做出完全准确的预测时获得满分奖励,当它正确识别偏好方向但未完全匹配强度时获得部分奖励。

此外,研究团队还提出了一种创新的配对式RLHF流程,可以直接使用配对偏好奖励来优化策略,无需转换为点式奖励信号。这就像直接让学生比较两个答案的好坏,而不是给每个答案单独打分,这种方法能更有效地利用Think-RM的输出。

Think-RM的实验验证:思考深度带来质的飞跃

研究团队在多个数据集上评估了Think-RM的性能,包括同分布(ID)和分布外(OOD)任务。为确保公平比较,他们使用相同的基础模型(Llama-3.1-8B-Instruct)和相同数量的数据训练了各种奖励模型。

在HelpSteer2-Preference(同分布)和HelpSteer3-Preference(轻微分布偏移)数据集上,二元Think-RM在两种设置中都优于所有基线,甚至超过了使用人类手写推理的CoT-GenRM。在代码领域这种需要深度推理的任务中,二元Think-RM达到了所有基线中的最高得分,展示了其在复杂任务上的有效性。

在分布外任务上,Think-RM的优势更加明显。在RewardBench和RM-Bench这两个需要广泛推理的基准测试上,Think-RM显著优于所有基线,平均提高幅度高达5%(RewardBench)和8%(RM-Bench)。特别是在RewardBench的"困难对话"和"推理"子类别上,Think-RM分别实现了超过10%和5%的改进,在RM-Bench的"数学"领域甚至达到了12%的提升。

这些结果清楚地表明,通过内部思考过程实现的长程推理远远优于结构化外部推理的垂直推理扩展,尤其是在解决复杂的推理密集型任务时。

当将Think-RM与研究团队提出的配对式RLHF流程结合使用时,最终训练出的策略模型在AlpacaEval2基准测试上显示出优于传统方法的性能。二元Think-RM训练的模型达到了47.20%的总体胜率,远高于使用BT RM的点式RLHF方法(33.14%)。

长程思考与深度分析:奖励模型的新范式

Think-RM代表了奖励模型设计领域的重要突破。通过将关注点从"广度"(多次浅层推理)转向"深度"(单次深入思考),研究团队不仅拓展了生成式奖励模型的设计空间,还为RLHF中基于偏好的策略优化建立了新的范式。

这种方法的核心优势在于它能够模拟人类深度思考的过程。当我们评估复杂问题时,我们通常不会简单地依赖多个表面判断,而是会深入思考、探索各种可能性、提出和测试假设,并在必要时修正自己的想法。Think-RM正是捕捉了这种深度分析过程的本质。

此外,配对式RLHF流程的引入消除了将配对偏好转换为点式奖励的需要,使整个训练过程更加直接和有效。这种方法与Think-RM产生的配对评估自然匹配,进一步增强了整体系统的有效性。

研究团队的工作不仅在理论上具有创新性,而且在实践中也展示了显著的性能提升。在使用仅6K训练数据的情况下,Think-RM在RM-Bench上实现了10B以下公开可用奖励模型中的最先进性能,这一成就突显了该方法在数据效率方面的优势。

总的来说,Think-RM为我们提供了一种新的思路,使AI系统能够进行更深入、更细致的推理,从而更好地理解和满足人类偏好。正如人类通过深度思考能够做出更明智的决策一样,具备长程思考能力的AI也能做出更准确、更有洞察力的评估。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-