近期,NVIDIA的研究团队发布了一个重要的开放数据集——HelpSteer3-Preference,这是一个高质量的人类标注偏好数据集,包含超过4万个样本,涵盖了从STEM(科学、技术、工程和数学)到编程,再到多语言场景等多种大语言模型的实际应用。这项研究由Zhilin Wang、Jiaqi Zeng、Olivier Delalleau等多位研究者共同完成,于2025年5月16日发布在arXiv预印本平台上。这一数据集以CC-BY-4.0许可证开放,感兴趣的读者可通过huggingface.co/datasets/nvidia/HelpSteer3#preference获取完整数据集。
如果把大语言模型的训练比作烹饪一道复杂的菜肴,那么人类反馈强化学习(RLHF)就像是最关键的调味过程。而高质量的偏好数据集则是这个过程中不可或缺的"顶级调料"。随着大语言模型能力的不断提升,这些"调料"的质量和多样性也需要相应提高。HelpSteer3-Preference正是应对这一需求而生的"豪华调料包"。
让我们一起来了解为什么这个数据集如此重要,以及它是如何帮助研究人员训练出更好的大语言模型的。
一、偏好数据集的发展历程:从简单到多样化
想象一下,如果我们要教会一个小孩什么是"好的回答",我们需要给他展示大量的例子,告诉他:"这个回答好,那个回答不好。"大语言模型的训练也是类似的过程。而偏好数据集就是这些"好坏回答"的集合,用来指导模型学习什么样的回答更符合人类期望。
早期的偏好数据集,比如2022年4月的HH-RLHF和2023年4月的Open Assistant,就像是幼儿园级别的教材。它们虽然开创了先河,但存在明显的局限性:质量不高(使用了相对较弱的模型生成回答),多样性有限(使用简单的提示),而且HH-RLHF只包含英语样本。这就像只教孩子用简单的句子回答简单的问题,难以应对复杂的现实场景。
第二代偏好数据集(2023年10月至11月的UltraFeedback、HelpSteer和Nectar)像是小学教材,提高了质量但仍有局限。UltraFeedback和Nectar选择使用GPT-4作为标注者,这虽然比质量较低的人类标注要好,但GPT-4的准确率也只有86.0%,远不如使用高质量人类标注数据训练的顶级奖励模型。此外,GPT-4还存在"自我增强偏见",即它更喜欢自己的回答或类似风格的回答。而HelpSteer则继续使用人类标注者,但增加了更严格的质量控制方法。这三个数据集都通过使用来自多样化来源的提示(如ShareGPT、UltraChat等)来提高多样性,但它们仍然只包含英语样本。
第三代偏好数据集(2024年10月至12月的Skywork-Preference、HelpSteer2-Preference和INF-ORM-Preference)就像是中学教材,进一步提高了质量。Skywork-Preference和INF-ORM-Preference通过结合精选的高质量偏好数据集来提高质量,而HelpSteer2-Preference则通过更严格的数据标注实践(每个样本3-5个独立标注)和数据过滤方法来提高质量。然而,这些数据集仍然只包含英语提示。
二、HelpSteer3-Preference:多样性与质量的飞跃
到了HelpSteer3-Preference,我们终于迎来了"大学级别"的教材。想象一下,如果之前的数据集只教会模型用一种语言回答基础问题,那么HelpSteer3-Preference则教会模型用多种语言回答各种复杂的现实问题。
随着大语言模型能力的不断提升,它们被用于越来越多具有挑战性的任务。为了确保RLHF在这些困难任务上仍然有效,偏好数据集需要包含各种各样的挑战性任务。例如,大语言模型以前可能只被用来生成简短的代码片段,但最近它们被用于需要生成更长回答的复杂编码和调试场景。此外,公开可用的训练后数据集中多样化语言代表性是一个已知的挑战,特别是对于通用领域偏好数据集,其中只有Open Assistant是多语言的。
为了在这些多样化、具有挑战性和多语言的任务上提供有效的反馈,我们需要在各种主题和语言方面具有深厚专业知识的专业标注者。虽然可能可以使用大语言模型来扮演专业标注者的角色,但我们并不清楚它们与人类专业标注者相比在提供偏好反馈方面的表现如何。然而,即使像OpenAI、Anthropic和xAI这样拥有最强大语言模型的顶级专有大语言模型提供商仍在招聘人类专家(直接招聘或通过供应商)进行数据标注,这表明人类专家标注的数据仍然非常有价值。
HelpSteer3-Preference团队通过聘请专业标注者团队对各种任务类别进行高质量标注来收集数据。这些类别包括STEM(科学、技术、工程和数学)、编程和多语言,以及之前在HelpSteer2-Preference中涵盖的通用任务。这些专业标注者团队的准入门槛更高,例如要求相关领域的学位、工作经验和特定语言的熟练程度。
这些标注者对来自WildChat-1M和ShareGPT的多样化真实任务进行偏好标注,这些任务使用17种语言模型生成的回答,最终得到了超过4万个用于偏好建模的样本。
三、数据集构建:精心打造的标注流程
HelpSteer3-Preference的数据集构建过程就像是烹饪一道精致的佳肴,需要精选原料(提示和回答)、精心烹制(标注流程)和严格品控(后处理)。
首先,团队需要收集提示。编程和多语言子集的提示取自ShareGPT数据集(CC0-1.0许可证),这是受HelpSteer2-Preference的启发,后者之前排除了编程和多语言提示。为了避免与HelpSteer2-Preference数据集中的提示重叠,通用和STEM的提示则从WildChat-1M(ODC-BY许可证)中精选。团队对ShareGPT中的编程和多语言提示进行了基于语言的分层抽样,而WildChat中的提示则基于主题和提示复杂性进行了分层抽样选择。
接下来,团队使用17种商业许可的流行模型生成回答。这些模型包括Nemotron 4(340B Instruct)、Gemma(2B)、Gemma 2(2B、9B和27B)、Mistral系列(7B-Instruct-v0.3、Mistral-Nemo 12B、Codestral 22B、Mixtral 8x7B Instruct、Mixtral 8x22B Instruct、Mistral Large 2)、Phi 3系列(Mini、Small和Medium)、IBM Granite(8B和34B)和Snowflake Arctic系列。对同一提示使用两种不同的模型生成回答。可能包含不安全提示/回答(亵渎、有害和非法内容、带有偏见和刻板印象的回答以及个人身份信息)的任务被使用自动和手动方法结合的方式过滤掉。
为了包含超出初始回合的后续助手回合的偏好对,团队包含了多轮对话作为偏好标注的上下文。为了避免使用任何ChatGPT生成的助手回合(即使在上下文中),团队使用上述模型(用于回答生成)生成中间助手回合。上下文限制为最多2000个单词。
在偏好标注方面,每个样本需要3-5个独立的标注者。标注者需要在以下选项中进行选择,并以1-2句话(10-50个英语单词)简要说明他们的选择理由:
-3:回答1比回答2好得多(A >>> B) -2:回答1比回答2好(A >> B) -1:回答1比回答2稍好(A > B) 1:回答2比回答1稍好(A < B) 2:回答2比回答1好(A << B) 3:回答2比回答1好得多(A <<< B) -100:两个回答都无效
通用、STEM和编程子集的标注者由Scale AI提供和管理,而多语言子集的标注者则由Translated提供和管理。通用子集以外的子集对标注者的准入条件更高(即STEM要求相关学科的学位,编程要求软件工程工作经验,多语言要求语言流利)。总共有来自77个国家/地区的6400多名标注者参与。标注指南在通用标注准则基础上针对不同子集进行了特定调整。例如,对于多语言子集,标注者需要对不以预期语言(通常是提示语言,除非另有说明)回答的回答进行惩罚;对于编程子集,则要求标注者评估回答中的代码片段是否包含足够的注释(为了可读性)以及代码是否遵循既定的编码风格。
在偏好后处理方面,团队移除了至少有一个标注为"两个回答都无效"的样本,并过滤掉同一任务中的离群标注,保留相互最一致的三个标注(从偏好强度角度)。在最一致的三个标注中表现出较大分歧(>2)的样本被排除,因为这表明任务可能过于主观或标注者在评估偏好时忽略了重要的考虑因素。总体偏好使用三个最一致的偏好得分的平均值计算,然后四舍五入到最接近的整数。因此,部分样本的总体偏好将为0:A = B(因为一些标注为+1:A < B,而其他为-1:A > B)。团队在数据发布和下面的分析中包含了这些样本,但在奖励模型训练过程中不使用它们。
四、数据集分析:多样性与高质量的证明
HelpSteer3-Preference的数据集分析就像是对精心烹制的佳肴进行品鉴,从不同角度评估其质量和特点。
与HelpSteer2-Preference相比,HelpSteer3-Preference有显著改进。它拥有来自STEM(12.2%)、编程(21.9%)和多语言(19.9%)子集的大量专业标注样本,以及通用子集(46.0%)。总计跨各个子集,HelpSteer3-Preference(40476个样本)的规模是HelpSteer2-Preference(9125个样本)的四倍以上。此外,HelpSteer3-Preference的上下文对话有更多的回合(3.5 vs 2.8)和字符(2638 vs 711)。回答也略长(1695 vs 1483字符)。编程子集的平均长度最长(2101字符),因为回答通常包含代码块和文本解释。多语言子集的回答最短(1157字符),这可以归因于某些语言使用的非拉丁文字,如中文和韩文。
HelpSteer3-Preference的编程和多语言子集分别包含14种编程语言和13种自然语言。这些语言是常用语言,其比例代表了它们在ShareGPT提示数据集中的存在。编程子集主要是Python(38.2%),其次是JS/HTML/CSS(合并,因为它们常常一起出现)和其他流行语言。类似地,多语言子集主要是中文(30.2%),其次是韩语、法语、西班牙语和其他广泛使用的语言。
HelpSteer3-Preference子集也一致显示出高标注者间可靠性,用平方加权Cohen's κ衡量。每个子集的加权Cohen's κ大于0.8,表明强大的标注者间可靠性。这种高可靠性可归因于严格的标注者招募标准(过滤掉不合格的标注者)、质量控制(过滤掉表现不佳的标注者)和后处理(过滤掉离群标注和高分歧样本)。
最后,每个子集内的平均偏好也很低(相对于标准差),表明位置偏差较低。这种轻微的位置偏差可能是由不同位置上模型的不均匀抽样或可能由标注者偏差引起的。然而,这种偏差与HelpSteer2-Preference中的偏差相当,并且与LLM-as-a-judge偏好相比要小得多。
偏好分布图显示,通用、STEM和编程子集呈现类似的双峰分布,在-2:A >> B和+2:A << B附近都有峰值。另一方面,多语言子集与HelpSteer2-Preference共享类似的单峰分布,峰值在0:A = B附近。研究者推测,这可能是因为通用、STEM和编程子集由同一供应商(Scale AI)标注,该供应商可能明确或隐含地训练标注者给出更强的判断(回答1比回答2好/好得多,反之亦然),而多语言子集由另一供应商(Translated)完成,其标注者更频繁地给出对冲判断(回答1比回答2稍好,反之亦然)。这也可能是由于提示难度的差异:多语言提示可能更简单,因为它们来自ShareGPT,类似于HelpSteer2-Preference。具体来说,ShareGPT包含用户自愿提供给ChatGPT的提示,这些提示来自2023年4月之前,当时模型普遍较弱(尤其是在多语言环境中),用户可能通过发送相对简单的多语言提示来管理他们的期望。结果,在这些更简单的提示上,不同模型之间的性能差异可能更小。
五、奖励模型:突破性的性能提升
使用HelpSteer3-Preference数据集,研究团队训练了在RM-Bench(82.4%)和JudgeBench(73.7%)上表现最佳的奖励模型(RM)。这代表了比现有奖励模型最佳报告结果提高了约10%(绝对值)的实质性改进。
首先需要了解的是,尽管RewardBench曾经是评估奖励模型的流行基准,但它不再适合评估最近的顶级奖励模型。一方面,RewardBench包含可能偏向奖励模型评估的多个人为因素。例如,数学提示中选择的回答有\boxed{}中的答案,而被拒绝的回答在# Answer后有答案。另一个例子是使用GPT-4确定某些Chat-Hard提示的地面真相选择/拒绝回答,这使RewardBench偏向于在GPT-4生成的偏好数据上训练的奖励模型。另一方面,RewardBench正变得饱和,顶级模型的准确率超过95%,这意味着最强的奖励模型几乎没有改进空间。
RM-Bench是RewardBench的一个很有前途的替代品,它包含与RewardBench类似的类别(聊天、安全、数学和代码),同时解决了上述问题。具体来说,它在难度上有所提高,这意味着表现最佳的模型只达到70.1%的总体准确率,在Hard子集上只有56.1%的准确率。RM-Bench还设计为避免RewardBench存在的偏见。例如,它不是使用来自不同模型的回答构建聊天子集(这会导致风格偏见),而是仅从单一强大模型(GPT-4o)采样生成选择的回答,然后注入有针对性的错误(差异可能只有一个单词)来创建被拒绝的回答。
JudgeBench是一个流行的基准,用于衡量模型作为判断者区分与通用知识、逻辑推理、数学和编码相关的正确和错误回答的能力。奖励模型是衡量此类能力的重要模型类别,因为与类似大小的大语言模型相比,奖励模型可以节省大量计算(>100倍)。这是因为奖励模型只需要相当于1个生成标记的计算,而大语言模型可能需要生成数百个标记才能做出判断。
基于HelpSteer3-Preference数据集,研究团队训练了两种类型的奖励模型:
1. Bradley-Terry/传统奖励模型:使用Scaled Bradley-Terry Loss训练,此前已被证明比常规Bradley-Terry Loss和带边际项的Bradley-Terry Loss效果更好。具体来说,团队从Llama-3.3-70B-Instruct初始化奖励模型,并添加一个前馈层,将结束响应标记的隐藏表示转换为标量奖励。
2. 生成式奖励模型(GenRMs):这些模型首先生成回答的文本批评,然后基于该批评生成得分。团队采用类似于DeepSeek-GRM的强化学习方法,因为它被证明比其他生成方法效果更好。
在Bradley-Terry模型中,两个模型表现最为突出:
- 仅在多语言子集上训练的模型在RM-Bench上达到最高分(82.4%) - 在通用、STEM和编程子集上训练的英语奖励模型在JudgeBench上达到最高分(73.7%),在RM-Bench上达到第二高分(79.9%)
这两个模型在RM-Bench和JudgeBench上的表现比报告的顶级奖励模型提高了约10%(绝对值)。为了说明这10%的提升有多显著,在RM-Bench上的提升(从70.1%到82.4%)大于报告的前20名奖励模型之间的差距(从62.7%到70.1%),而在JudgeBench上的提升(从64.3%到73.7%)大于报告的表现最佳和最差的奖励模型之间的差距(从59.4%到64.3%)。
英语奖励模型和多语言奖励模型在处理风格因素(如回答长度和markdown格式)方面表现出显著差异。图1显示,英语奖励模型受回答长度的影响远大于多语言奖励模型。对于英语奖励模型,将简洁选择的回答与简洁拒绝的回答进行比较时,胜率为84.6%,但当将同一简洁选择的回答与冗长拒绝的回答进行比较时,胜率大幅下降24.8%至59.8%。对于多语言奖励模型,同样比较的下降幅度要低得多,仅为6.4%(从84.7%到78.3%)。
英语奖励模型也比多语言奖励模型更受Markdown格式的影响。对于英语奖励模型,将冗长选择的回答与冗长拒绝的回答进行比较时,胜率为83.3%,当与包含Markdown格式的冗长拒绝回答进行比较时,下降7.5%至75.8%。多语言奖励模型的相应下降仅为4.0%,从83.8%降至79.8%。
生成式奖励模型表现出与Bradley-Terry奖励模型相似的趋势,即多语言子集在RM-Bench上有较大改进,英语子集在JudgeBench上有较大改进。然而,在所有HelpSteer3-Preference子集上训练时,生成式奖励模型方法表现出了更强的适应不同子集特点的能力,从而提高了总体准确率。具体来说,最佳生成式奖励模型在RM-Bench(从82.4%提高到84.2%)和JudgeBench(从73.7%提高到75.1%)上都优于最佳Bradley-Terry奖励模型。使用Voting@32(生成32个回答并平均其得分)进一步将RM-Bench从84.2%提升到85.5%,JudgeBench从75.1%提升到78.6%。
虽然生成式奖励模型的准确率更高,但它们在训练和推理上也需要更多的计算(例如,单次推理需要的计算量是传统方法的100多倍,在Voting@k设置中还要乘以k倍),这使它们在计算/延迟密集型下游应用(如RLHF)中不那么实用。不过,它们在计算需求较少的小样本评估中可能很有用。
六、对齐模型:实际应用的效果验证
为了进一步了解在HelpSteer3-Preference上训练的奖励模型的实用性,研究团队使用这些奖励模型和HelpSteer3-Preference提示来对齐策略模型。
在评估方面,团队遵循之前对齐策略模型的工作,使用MT Bench(使用GPT-4 Turbo作为评判)和Arena Hard作为评估指标。此外,团队遵循最近的工作,使用WildBench(得分)代替AlpacaEval 2。WildBench包含更具挑战性的提示,反映了真实世界的用例,而AlpacaEval 2中的简单提示(例如"谁是Larry Page?")可以被许多最近的模型很好地回答。MT Bench包含来自8个不同类别的80个样本,每个样本有两个回合;Arena Hard包含500个具有挑战性的真实单回合提示;WildBench包含1024个与创意、规划/推理、数据分析/数学、信息/建议搜索以及编码/调试相关的多样化真实世界可变回合提示。
在训练方面,团队使用REINFORCE Leave One Out(RLOO)算法与训练好的奖励模型和每个奖励模型训练集中的提示对Llama-3.3-70B-Instruct模型进行对齐。团队选择RLOO而非Proximal Policy Optimization(PPO)和Direct Preference Optimization(DPO)等替代方案,因为之前研究表明,使用类似的奖励模型/偏好数据,RLOO的表现明显优于PPO和DPO。
在结果方面,使用每种奖励模型的RLOO都在MT Bench、Arena Hard和WildBench上相对于初始策略模型Llama-3.3-70B-Instruct有所改进。在这些奖励模型中,使用英语奖励模型的RLOO显示出最大的提升,MT Bench从8.29提高到9.24,Arena Hard从62.4提高到87.0,WildBench从52.5提高到60.0(总体)。这个模型在表现上也与知名的外部基准模型(gpt-4o-2024-05-13和Claude-3.5-Sonnet-20240620)相媲美。在WildBench的子类别中,使用英语奖励模型的RLOO在创意、信息搜索和编码任务上表现最佳,在规划任务上表现接近第二,但在数据分析任务上远远落后于gpt-4o-2024-05-13。这一差距可能归因于HelpSteer3-Preference中相关任务的代表性不足。
七、结论:提升大语言模型偏好学习的新标杆
HelpSteer3-Preference代表了偏好数据集的一个重大进步,其带来的好处可以从多个方面看到。这个数据集不仅多样化程度高,涵盖了从科学技术到编程再到多语言场景的各种任务,而且质量也非常高,这得益于严格的标注流程和质量控制。
使用HelpSteer3-Preference训练的奖励模型在RM-Bench和JudgeBench这两个重要基准上取得了突破性进展,相比之前报告的最佳结果提高了约10%的绝对准确率。这相当于在这些基准上"赢得了一个时代",因为提升幅度大于之前许多顶级模型之间的差距。
不仅如此,研究还表明这些奖励模型可以有效用于RLHF过程,显著提高大语言模型的对齐性能。使用英语奖励模型进行的RLOO训练使Llama-3.3-70B-Instruct模型在多个评估基准上的表现大幅提升,甚至能与顶级专有模型如GPT-4o和Claude-3.5-Sonnet相媲美。
最重要的是,HelpSteer3-Preference以CC-BY-4.0许可证开放,这意味着研究人员和开发者可以自由使用这个数据集进行商业和非商业项目,促进了开放科学和协作创新。
对于大语言模型研究来说,这是一个重要的里程碑。随着模型变得越来越强大,它们需要更高质量、更多样化的反馈来帮助它们正确对齐人类意图和偏好。HelpSteer3-Preference提供了这样一个强大的资源,有望推动下一代更好的语言模型的发展。
如果你对这个领域感兴趣,可以通过huggingface.co/datasets/nvidia/HelpSteer3#preference访问完整的HelpSteer3-Preference数据集,并将其应用于你自己的奖励模型训练和RLHF实验中。未来的研究方向可能包括进一步扩展语言覆盖范围,增加更多专业领域的任务,以及探索如何更有效地结合不同类型的偏好数据以训练更加平衡和强大的奖励模型。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。