大语言模型(LLM)的发展日新月异,但要让这些强大的模型真正按照人类意图行事,研究人员需要各种技术手段。在这个领域,最新的研究成果来自马里兰大学帕克分校的Yapei Chang、Yekyung Kim、Michael Krumdick,以及Lambda AI和Kensho的多位研究者共同合作的研究团队。他们在2024年5月发布的论文《BLEUBERI:BLEU是一个令人惊讶的有效指令遵循奖励》中提出了一个令人眼前一亮的发现:被许多研究者长期认为不够优秀的BLEU评分系统,实际上可以成为训练大语言模型的强有力工具。这篇研究论文现已在arXiv上提供,有兴趣的读者可以通过https://github.com/lilakk/BLEUBERI访问相关代码和数据。
让我们先来理解一下背景。如今,大型语言模型的"对齐"(即让模型按照人类意图行事)通常依赖于一种叫做"奖励模型"的东西。这种奖励模型就像是一个评判员,它会给出模型回答的分数,告诉模型"这个回答好"或"这个回答不好"。但有一个问题:训练这种奖励模型代价非常高昂,需要大量的人工标注数据和强大的计算资源。
想象一下,如果你要教一个孩子做蛋糕,你可以两种方式:一种是每次他做出点什么,你就告诉他"这个好"或"这个不好"(类似奖励模型);另一种是给他一个完美蛋糕的样本,让他尽量做得像这个样本(这就是基于参考的方法)。研究团队发现,看似简单的第二种方法,在训练语言模型时可能比我们想象的要有效得多。
在语言处理领域,BLEU(Bilingual Evaluation Understudy)是一个古老的评分系统,最初是为了评价机器翻译的质量而设计的。它的工作原理很简单:比较机器生成的文本与人类写的参考文本有多相似,主要看它们共享了多少相同的单词和短语。长期以来,研究者们认为BLEU太过简单,无法捕捉语言的复杂性,特别是在开放式生成任务中,一个问题可能有很多种不同但都正确的回答方式。
但这个研究团队做了一个大胆的尝试:他们用BLEU来评价大语言模型的回答质量,并把它与专业的奖励模型进行比较。令人惊讶的是,当使用5个高质量的参考答案时,BLEU与人类偏好的一致率达到了74.2%,几乎与一个强大的270亿参数的奖励模型(75.6%)不相上下!
这个发现启发了研究团队创造了BLEUBERI(BLEU-based reward for instruction following)。这是一种方法,它先找出模型难以回答的问题,然后使用一种叫做GRPO(Group Relative Policy Optimization)的技术,直接用BLEU分数作为奖励来改进模型。简单来说,就是让模型尝试不同的回答,然后根据BLEU分数决定哪些回答方式更好。
研究团队在四个具有挑战性的指令遵循基准测试上,使用三种不同的基础模型进行了广泛测试。结果显示,经过BLEUBERI训练的模型在性能上与使用传统奖励模型训练的模型不相上下,有时甚至更好。人类评估者也确认,BLEUBERI训练出的模型输出质量与奖励模型训练出的相当。更令人惊喜的是,BLEUBERI模型生成的内容在事实准确性上往往优于其他方法。
为什么这个发现如此重要?因为它提供了一条更加经济高效的路径来训练大语言模型。与其投入大量资源训练复杂的奖励模型,研究者可以利用现有的高质量指令数据集或通过强大的语言模型生成参考答案,然后用简单的BLEU评分来指导模型学习。
让我们深入了解一下这项研究的具体细节。
一、简单的评分方式也能捕捉人类偏好?
研究团队首先想知道:基于参考的简单字符匹配度量(如BLEU)在多大程度上能反映人类对语言模型回答的偏好?
BLEU评分的计算方式相对简单。它主要看两点:一是计算模型生成文本与参考文本共享的n-gram(连续n个单词的序列)比例,二是应用一个简短惩罚(brevity penalty)来避免模型生成过短的回答。想象你在玩文字拼图游戏,BLEU就是看你拼出的图案与标准图案有多相似,同时确保你不会偷懒只拼一小部分。
研究者从LMSYS的chatbot_arena_conversations数据集中选取了900个样本进行分析。每个样本包含一个指令,两个不同模型的回答(OX和OY),以及人类对哪个回答更好的判断。由于这个数据集不包含标准答案,研究团队使用了多个顶尖语言模型(如Claude-3.7-Sonnet、GPT-4o、Gemini-2.5-Pro等)为每个指令生成参考答案。
结果显示,随着参考答案数量的增加(最多到5个),BLEU与人类判断的一致率显著提高,达到了74.2%。相比之下,简单的长度基线(总是选择更长的回答)只有65.1%的一致率,而专业的奖励模型RM-8B和RM-27B分别达到76.7%和77.6%。考虑到BLEU的简单性,这个结果令人惊讶。
研究者还发现参考答案的质量至关重要。由强大模型(如Claude-3.7-Sonnet和GPT-4o)生成的参考答案能带来超过72%的一致率,而较弱模型生成的参考答案表现要差得多,有些甚至不如长度基线。过于冗长的参考也会影响效果——例如,Gemini-2.5-Pro生成的参考答案平均比实际回答长4.5倍,这导致其一致率只有69.5%。研究者发现参考长度与实际回答长度的差异越大,BLEU的效果就越差。
研究者还分析了BLEU在不同领域的表现。在写作和编程任务上,BLEU与奖励模型的一致性最高,但在数学/推理任务上表现较差,可能是因为表面级别的变化在数学上等价的表达式中很常见。
二、BLEUBERI:用BLEU奖励直接训练大语言模型
验证了BLEU与人类判断有惊人一致性后,研究团队转向下一个问题:能否直接用BLEU作为奖励函数来训练语言模型?
他们开发的BLEUBERI方法首先从Tulu3 SFT数据集中选取50,000个示例,过滤出主要与写作相关的任务。然后,他们运行基础模型对每个指令生成回答,并计算其与参考答案的BLEU分数。接着,他们选择BLEU分数最低的5,000个"困难"样本进行训练。
BLEUBERI使用一种叫做GRPO的技术。简单来说,GRPO让模型为每个指令生成多个候选回答,对每个回答计算BLEU分数,然后指导模型学习生成高分回答的模式。与传统的PPO(Proximal Policy Optimization)算法相比,GRPO在这类任务上同样有效,而且计算BLEU分数比使用奖励模型快得多(最多快48倍)。
研究团队在三种不同的基础模型上测试了BLEUBERI:Llama-3.1-8B、Qwen2.5-7B和Qwen2.5-3B。他们使用四个基准测试评估模型性能:MT-Bench(80个高质量多轮问题)、ArenaHard v1和v2(各500个有挑战性的现实世界查询)以及WildBench(1,024个复杂现实世界查询)。评估采用"LLM-as-a-judge"框架,使用gpt-4.1-mini作为评判。
结果令人印象深刻:BLEUBERI训练的模型在所有基准测试上与GRPO-RM(使用奖励模型的GRPO)和SFT(监督微调)相当,有时甚至表现更好。具体来说,对于Qwen2.5-7B,BLEUBERI在MT-Bench上得分70.8,ArenaHard v1上得分29.3,ArenaHard v2上得分12.8,WildBench上得分65.4,平均得分44.6,与GRPO-RM的平均得分45.9相差无几。
研究者还担心BLEUBERI可能会在开放式创意任务上表现不佳,因为这类任务往往没有单一正确答案。但WildBench创意任务分割测试显示,BLEUBERI(66.7)、GRPO-RM(67.2)和SFT(60.4)表现相似,证明基于BLEU的优化并不会限制创意能力。
研究团队还尝试了使用完全合成的参考答案进行训练。他们发现参考模型的人类一致率与训练出的模型性能之间存在中等强度的相关性(Pearson相关系数0.34)。其中,Claude和o4-mini生成的参考答案效果最好,与GRPO-RM相当。
三、BLEUBERI生成的回答质量如何?
除了基准测试分数外,研究团队还深入分析了模型生成的回答质量。他们发现SFT训练的模型往往生成更冗长、更重复的内容,GRPO-RM模型拒绝回答的比例略高(即模型拒绝遵循用户指令的情况),而BLEUBERI和GRPO-RM模型都比SFT模型更频繁地使用Markdown格式,其中GRPO-RM使用最多。
有趣的是,研究者发现GRPO训练的Qwen模型有特定的回答开头习惯。BLEUBERI训练的Qwen模型经常以"Certainly!"开头(Qwen2.5-3B为51.6%,Qwen2.5-7B为27.1%),而GRPO-RM模型则常以"Sure!"开头(分别为70.6%和35.2%)。这些短语在Qwen基础模型和所有Llama变体中都很少见。研究者认为这可能不是奖励黑客行为(reward hacking,即模型找到取巧方式获得高分),因为在训练中使用的参考答案中"Certainly!"出现率不到1%,更可能是GRPO放大了Qwen预训练中潜在的微妙偏好。
最重要的是,研究团队评估了模型生成内容的事实准确性。他们使用VERISCORE(一种评估长篇生成任务中事实准确性的自动指标)在三个不同领域的数据集上进行测试。结果显示,BLEUBERI在LONGFACT和ASKHISTORIANS上始终优于GRPO-RM和SFT,在FRESHQA上与GRPO-RM表现相当。这表明使用RL优化BLEU可以引导模型生成更有事实依据的内容。
为了更直接地评估BLEUBERI与GRPO-RM的比较,研究团队请两名人类评估者比较这两种方法在Qwen2.5-7B上训练的模型输出。他们从四个基准测试中各抽取30个样本,共120个示例,并移除可能引起隐性偏见的肯定性开头(如"Certainly!"或"Sure!")。结果显示,两位评估者分别在67.5%和52.5%的情况下认为BLEUBERI输出至少与GRPO-RM一样好,这表明人类评估者也认为BLEUBERI输出质量与GRPO-RM相当。
四、为什么BLEU在这个场景下如此有效?
这个研究结果可能让许多人感到惊讶,因为BLEU作为一个简单的n-gram匹配度量,在多年来的研究中被认为与人类判断相关性不高,特别是在机器翻译、摘要、代码生成和问答等领域。
为什么BLEU在通用指令遵循任务中如此有效?研究者认为这可能是因为BLEU能够捕捉到指令遵循中的关键属性:
1. 事实准确性:BLEU能够奖励输出中包含参考答案中的关键事实和数值。 2. 格式一致性:BLEU奖励维持正确格式(如JSON结构、标题格式等)的输出。 3. 简短惩罚机制:BLEU的简短惩罚机制确保模型生成全面的回答而不是过于简短的回复。
此外,随着参考答案质量和数量的提高,BLEU的效果显著增强。当使用多个高质量参考时,BLEU能够更好地适应不同但同样正确的回答方式,这与通用指令遵循的需求很契合。
最重要的是,现代大语言模型和训练技术解决了早期基于BLEU优化面临的许多挑战,如不稳定训练和输出质量下降。BLEUBERI在现代RL框架内使用BLEU,结合强大的基础语言模型和高质量参考答案,成功克服了这些历史挑战。
五、BLEUBERI的局限性和未来方向
尽管BLEUBERI展示了令人印象深刻的结果,研究团队也坦诚承认其局限性:
首先,研究范围有限,只涵盖两种模型规模、中等规模的数据池(50K示例)和一种字符重叠度量(BLEU)。未来研究可以探索扩大模型规模、数据量、训练时间,或使用其他替代度量。
其次,由于计算资源限制,研究团队没有对每个模型和设置进行广泛的超参数调优。
第三,BLEU依赖于表面形式的n-gram重叠,在词汇变化大的领域(如数学推理和多语言任务)可能表现欠佳。
尽管如此,BLEUBERI作为一种轻量级、成本效益高的对齐替代方案,为未来的研究开辟了新的可能性。它表明,在有高质量参考答案的情况下(无论是通过现有数据集还是强大LLM生成),基于字符匹配的简单度量可以成为有效的奖励信号,无需昂贵的人类偏好监督。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。