近日,由中国人民大学高瓴人工智能学院的朱丰琦、王荣臻、聂深等研究人员,联合阿里巴巴蚂蚁集团和清华大学的研究团队,发表了一篇题为"LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models"的研究论文。这项研究于2025年5月25日发布在arXiv预印本平台(arXiv:2505.19223v1),为扩散语言模型与人类偏好对齐开辟了新的道路。有兴趣深入了解的读者可以通过项目页面https://ml-gsai.github.io/LLaDA-1.5-Demo/获取更多信息。
我们平时使用的大型语言模型,如ChatGPT等,大多采用自回归(Autoregressive Models,简称ARMs)架构,就像写文章一样,一个词接一个词地生成。而近年来,一种名为掩码扩散模型(Masked Diffusion Models,简称MDMs)的新型架构逐渐崭露头角,这种模型可以并行生成文本,而非一个接一个地生成,展现出很大的潜力。LLaDA就是这样一种大型语言扩散模型。
然而,虽然MDMs在预训练和监督微调方面取得了长足进步,但在与人类偏好对齐方面却鲜有研究。本文作者正是瞄准了这个空白,提出了一种名为"方差减少偏好优化"(Variance-Reduced Preference Optimization,简称VRPO)的新方法,有效解决了MDMs在进行偏好优化时面临的高方差问题。
一、扩散语言模型中的挑战:为何偏好对齐如此困难?
想象一下,我们在教一个小孩学习。传统的自回归模型就像是我们一句一句地教他说话,而掩码扩散模型则像是让他先学会一些单词,然后逐渐完成整句话。这种学习方式虽然在某些方面更高效,但也带来了新的挑战。
在自回归模型中,我们可以精确计算出模型生成某个句子的概率,这就像是我们可以准确知道小孩说出某句话的把握程度。但在掩码扩散模型中,这种计算变得异常复杂,我们只能通过一种称为"证据下界"(Evidence Lower Bound,简称ELBO)的方法来估计,这就像是我们只能粗略猜测小孩掌握某句话的程度,而不能精确知道。
当我们想要通过强化学习让模型更好地理解人类偏好时,这种不精确性带来了很大的挑战。具体来说,传统的偏好优化方法,如直接偏好优化(Direct Preference Optimization,简称DPO),需要精确计算模型生成某段文本的对数似然,而掩码扩散模型只能提供这种似然的估计值,而且这种估计本身就带有很高的方差(也就是不稳定性)。
就好比我们在教小孩学习时,无法准确判断他的进步程度,只能通过一些间接的迹象来猜测,而这些猜测本身就可能大起大落,让我们很难有效地引导他的学习方向。
二、方差减少偏好优化:创新的解决方案
研究团队面对的核心问题是:如何在掩码扩散模型中准确估计偏好分数,并减少估计过程中的高方差问题?
他们首先对这个问题进行了深入的理论分析。把问题比作一次探险,他们需要找到一条更可靠的路径。通过理论推导,他们发现,偏好优化过程中引入的偏差和方差主要由偏好分数估计器的方差控制,就像探险中的不确定性主要来自地图的模糊程度。
基于这一发现,他们提出了VRPO方法,包含三个核心策略:
第一个策略是增加采样预算。想象一下,如果你只看地图一眼就决定路线,可能会走错;但如果你反复查看地图并综合判断,就能做出更可靠的决策。同样,VRPO通过增加Monte Carlo采样的数量,提高了ELBO估计的准确性。
第二个策略是最优分配,即将有限的计算资源最有效地分配到不同的时间步和掩码样本上。这就像是在有限的探险时间内,决定在哪些地点花更多时间探索。研究团队发现,最佳策略是将所有采样预算分散到不同的时间步,而每个时间步只取一个掩码样本。
第三个策略是对偶采样,即在估计当前模型和参考模型的ELBO时共享相同的随机样本。这就像两位探险者沿着完全相同的路径前进,这样他们之间的差异就完全来自于他们自身的能力差异,而不是路径不同带来的干扰。
这些策略的组合使VRPO能够显著降低偏好分数估计的方差,从而提高偏好优化的效率和稳定性。最重要的是,所有这些策略都是无偏的,意味着它们不会引入新的系统性误差。
三、实验验证:LLaDA 1.5的惊人表现
纸上得来终觉浅,研究团队将VRPO应用到了LLaDA 8B Instruct模型上,训练了一个全新的模型:LLaDA 1.5。他们使用了35万对偏好数据,这些数据涵盖了写作、对话、知识问答、推理、数学、编程等广泛领域。
令人振奋的是,经过VRPO训练的LLaDA 1.5在多个基准测试中都显著优于其前身LLaDA。在数学任务方面,GSM8K基准测试上提高了4.7个百分点;在代码生成方面,HumanEval提高了3.0个百分点,MBPP提高了1.8个百分点;在对齐任务方面,IFEval提高了4.0个百分点,Arena-Hard提高了4.3个百分点。
更令人惊讶的是,LLaDA 1.5在数学能力上甚至能与强大的自回归语言模型和掩码扩散模型相媲美,在Math基准测试上达到了最高的零样本得分。这一成果证明,掩码扩散模型与基于强化学习的对齐方法是完全兼容的,为今后更深入的研究奠定了基础。
四、深入理解VRPO:理论与实践的完美结合
为了更好地理解VRPO的效果,研究团队进行了一系列深入的消融实验,就像是拆解一道复杂菜品的每一个成分,观察每个成分的贡献。
他们分别测试了不同采样预算、不同配置策略以及是否使用对偶采样的组合。实验结果清晰地表明,所有这三个组件都对降低方差和提高下游任务性能起到了积极作用。特别是,将采样预算从1增加到8,GSM8K的准确率从80.1%提升到83.3%;采用最优分配策略(每个时间步一个掩码样本)比每个时间步多个样本的策略效果更好;而对偶采样的移除则会导致估计器方差的显著增加。
这些结果验证了VRPO的理论基础,印证了研究团队关于偏好分数估计器方差与下游任务性能之间强相关性的假设。
五、拓展与局限性
研究团队指出,VRPO中的方差减少技术不仅限于DPO,还可以应用到其他需要估计ELBO或两个相关ELBO差值的对齐算法中。这为掩码扩散模型的更广泛对齐开辟了可能性。
当然,这项研究也存在一些局限性。首先,VRPO需要额外的计算资源来实现较低的方差,导致训练过程中略微增加了计算开销。不过,研究团队指出,在他们的默认设置中(采样预算n=8),这一额外开销相对于预训练的总成本而言是微不足道的——不到预训练成本的0.5%。
另外,尽管VRPO有效降低了方差,但在某些下游基准测试(如MTBench和Arena-Hard)上的收益相对有限。这可能需要更大规模的偏好数据和更先进的对齐方法来解决。
六、结论与未来展望
这项研究向我们展示了掩码扩散模型与基于强化学习的对齐方法的兼容性,为大型语言扩散模型的研究开辟了新的方向。VRPO作为一种理论上有保证且实践中有效的方法,不仅解决了掩码扩散模型中偏好优化的高方差问题,还为未来的研究提供了坚实的基础。
归根结底,LLaDA 1.5的成功证明,即使在架构复杂、似然估计困难的掩码扩散模型中,我们也能通过精心设计的方差减少技术实现有效的人类偏好对齐。这为构建更加符合人类价值观和期望的大语言模型提供了新的可能性。
对于普通用户来说,这意味着未来我们可能会看到更多基于扩散模型的语言助手,它们不仅能高效生成文本,还能更好地理解和遵循人类的指令和偏好。而对于研究社区来说,这项工作为掩码扩散模型的对齐研究铺平了道路,可能激发更多创新方法的涌现。
如果你对这项研究感兴趣,可以通过文章开头提到的项目页面了解更多详情,或者直接在arXiv上检索原论文。未来,我们可以期待更多关于语言扩散模型对齐的研究成果,以及这些模型在实际应用中的表现。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。