近日,由中国人民大学高瓴人工智能学院的朱丰琦、王荣臻、聂深等研究人员,联合阿里巴巴蚂蚁集团和清华大学的研究团队,发表了一篇题为"LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models"的研究论文。这项研究于2025年5月25日发布在arXiv预印本平台(arXiv:2505.19223v1),为扩散语言模型与人类偏好对齐开辟了新的道路。有兴趣深入了解的读者可以通过项目页面https://ml-gsai.github.io/LLaDA-1.5-Demo/获取更多信息。
我们平时使用的大型语言模型,如ChatGPT等,大多采用自回归(Autoregressive Models,简称ARMs)架构,就像写文章一样,一个词接一个词地生成。而近年来,一种名为掩码扩散模型(Masked Diffusion Models,简称MDMs)的新型架构逐渐崭露头角,这种模型可以并行生成文本,而非一个接一个地生成,展现出很大的潜力。LLaDA就是这样一种大型语言扩散模型。
然而,虽然MDMs在预训练和监督微调方面取得了长足进步,但在与人类偏好对齐方面却鲜有研究。本文作者正是瞄准了这个空白,提出了一种名为"方差减少偏好优化"(Variance-Reduced Preference Optimization,简称VRPO)的新方法,有效解决了MDMs在进行偏好优化时面临的高方差问题。
一、扩散语言模型中的挑战:为何偏好对齐如此困难?
想象一下,我们在教一个小孩学习。传统的自回归模型就像是我们一句一句地教他说话,而掩码扩散模型则像是让他先学会一些单词,然后逐渐完成整句话。这种学习方式虽然在某些方面更高效,但也带来了新的挑战。
在自回归模型中,我们可以精确计算出模型生成某个句子的概率,这就像是我们可以准确知道小孩说出某句话的把握程度。但在掩码扩散模型中,这种计算变得异常复杂,我们只能通过一种称为"证据下界"(Evidence Lower Bound,简称ELBO)的方法来估计,这就像是我们只能粗略猜测小孩掌握某句话的程度,而不能精确知道。
当我们想要通过强化学习让模型更好地理解人类偏好时,这种不精确性带来了很大的挑战。具体来说,传统的偏好优化方法,如直接偏好优化(Direct Preference Optimization,简称DPO),需要精确计算模型生成某段文本的对数似然,而掩码扩散模型只能提供这种似然的估计值,而且这种估计本身就带有很高的方差(也就是不稳定性)。
就好比我们在教小孩学习时,无法准确判断他的进步程度,只能通过一些间接的迹象来猜测,而这些猜测本身就可能大起大落,让我们很难有效地引导他的学习方向。
二、方差减少偏好优化:创新的解决方案
研究团队面对的核心问题是:如何在掩码扩散模型中准确估计偏好分数,并减少估计过程中的高方差问题?
他们首先对这个问题进行了深入的理论分析。把问题比作一次探险,他们需要找到一条更可靠的路径。通过理论推导,他们发现,偏好优化过程中引入的偏差和方差主要由偏好分数估计器的方差控制,就像探险中的不确定性主要来自地图的模糊程度。
基于这一发现,他们提出了VRPO方法,包含三个核心策略:
第一个策略是增加采样预算。想象一下,如果你只看地图一眼就决定路线,可能会走错;但如果你反复查看地图并综合判断,就能做出更可靠的决策。同样,VRPO通过增加Monte Carlo采样的数量,提高了ELBO估计的准确性。
第二个策略是最优分配,即将有限的计算资源最有效地分配到不同的时间步和掩码样本上。这就像是在有限的探险时间内,决定在哪些地点花更多时间探索。研究团队发现,最佳策略是将所有采样预算分散到不同的时间步,而每个时间步只取一个掩码样本。
第三个策略是对偶采样,即在估计当前模型和参考模型的ELBO时共享相同的随机样本。这就像两位探险者沿着完全相同的路径前进,这样他们之间的差异就完全来自于他们自身的能力差异,而不是路径不同带来的干扰。
这些策略的组合使VRPO能够显著降低偏好分数估计的方差,从而提高偏好优化的效率和稳定性。最重要的是,所有这些策略都是无偏的,意味着它们不会引入新的系统性误差。
三、实验验证:LLaDA 1.5的惊人表现
纸上得来终觉浅,研究团队将VRPO应用到了LLaDA 8B Instruct模型上,训练了一个全新的模型:LLaDA 1.5。他们使用了35万对偏好数据,这些数据涵盖了写作、对话、知识问答、推理、数学、编程等广泛领域。
令人振奋的是,经过VRPO训练的LLaDA 1.5在多个基准测试中都显著优于其前身LLaDA。在数学任务方面,GSM8K基准测试上提高了4.7个百分点;在代码生成方面,HumanEval提高了3.0个百分点,MBPP提高了1.8个百分点;在对齐任务方面,IFEval提高了4.0个百分点,Arena-Hard提高了4.3个百分点。
更令人惊讶的是,LLaDA 1.5在数学能力上甚至能与强大的自回归语言模型和掩码扩散模型相媲美,在Math基准测试上达到了最高的零样本得分。这一成果证明,掩码扩散模型与基于强化学习的对齐方法是完全兼容的,为今后更深入的研究奠定了基础。
四、深入理解VRPO:理论与实践的完美结合
为了更好地理解VRPO的效果,研究团队进行了一系列深入的消融实验,就像是拆解一道复杂菜品的每一个成分,观察每个成分的贡献。
他们分别测试了不同采样预算、不同配置策略以及是否使用对偶采样的组合。实验结果清晰地表明,所有这三个组件都对降低方差和提高下游任务性能起到了积极作用。特别是,将采样预算从1增加到8,GSM8K的准确率从80.1%提升到83.3%;采用最优分配策略(每个时间步一个掩码样本)比每个时间步多个样本的策略效果更好;而对偶采样的移除则会导致估计器方差的显著增加。
这些结果验证了VRPO的理论基础,印证了研究团队关于偏好分数估计器方差与下游任务性能之间强相关性的假设。
五、拓展与局限性
研究团队指出,VRPO中的方差减少技术不仅限于DPO,还可以应用到其他需要估计ELBO或两个相关ELBO差值的对齐算法中。这为掩码扩散模型的更广泛对齐开辟了可能性。
当然,这项研究也存在一些局限性。首先,VRPO需要额外的计算资源来实现较低的方差,导致训练过程中略微增加了计算开销。不过,研究团队指出,在他们的默认设置中(采样预算n=8),这一额外开销相对于预训练的总成本而言是微不足道的——不到预训练成本的0.5%。
另外,尽管VRPO有效降低了方差,但在某些下游基准测试(如MTBench和Arena-Hard)上的收益相对有限。这可能需要更大规模的偏好数据和更先进的对齐方法来解决。
六、结论与未来展望
这项研究向我们展示了掩码扩散模型与基于强化学习的对齐方法的兼容性,为大型语言扩散模型的研究开辟了新的方向。VRPO作为一种理论上有保证且实践中有效的方法,不仅解决了掩码扩散模型中偏好优化的高方差问题,还为未来的研究提供了坚实的基础。
归根结底,LLaDA 1.5的成功证明,即使在架构复杂、似然估计困难的掩码扩散模型中,我们也能通过精心设计的方差减少技术实现有效的人类偏好对齐。这为构建更加符合人类价值观和期望的大语言模型提供了新的可能性。
对于普通用户来说,这意味着未来我们可能会看到更多基于扩散模型的语言助手,它们不仅能高效生成文本,还能更好地理解和遵循人类的指令和偏好。而对于研究社区来说,这项工作为掩码扩散模型的对齐研究铺平了道路,可能激发更多创新方法的涌现。
如果你对这项研究感兴趣,可以通过文章开头提到的项目页面了解更多详情,或者直接在arXiv上检索原论文。未来,我们可以期待更多关于语言扩散模型对齐的研究成果,以及这些模型在实际应用中的表现。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。