
近日,由中国人民大学高瓴人工智能学院的朱丰琦、王荣臻、聂深等研究人员,联合阿里巴巴蚂蚁集团和清华大学的研究团队,发表了一篇题为"LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models"的研究论文。这项研究于2025年5月25日发布在arXiv预印本平台(arXiv:2505.19223v1),为扩散语言模型与人类偏好对齐开辟了新的道路。有兴趣深入了解的读者可以通过项目页面https://ml-gsai.github.io/LLaDA-1.5-Demo/获取更多信息。
我们平时使用的大型语言模型,如ChatGPT等,大多采用自回归(Autoregressive Models,简称ARMs)架构,就像写文章一样,一个词接一个词地生成。而近年来,一种名为掩码扩散模型(Masked Diffusion Models,简称MDMs)的新型架构逐渐崭露头角,这种模型可以并行生成文本,而非一个接一个地生成,展现出很大的潜力。LLaDA就是这样一种大型语言扩散模型。
然而,虽然MDMs在预训练和监督微调方面取得了长足进步,但在与人类偏好对齐方面却鲜有研究。本文作者正是瞄准了这个空白,提出了一种名为"方差减少偏好优化"(Variance-Reduced Preference Optimization,简称VRPO)的新方法,有效解决了MDMs在进行偏好优化时面临的高方差问题。
一、扩散语言模型中的挑战:为何偏好对齐如此困难?
想象一下,我们在教一个小孩学习。传统的自回归模型就像是我们一句一句地教他说话,而掩码扩散模型则像是让他先学会一些单词,然后逐渐完成整句话。这种学习方式虽然在某些方面更高效,但也带来了新的挑战。
在自回归模型中,我们可以精确计算出模型生成某个句子的概率,这就像是我们可以准确知道小孩说出某句话的把握程度。但在掩码扩散模型中,这种计算变得异常复杂,我们只能通过一种称为"证据下界"(Evidence Lower Bound,简称ELBO)的方法来估计,这就像是我们只能粗略猜测小孩掌握某句话的程度,而不能精确知道。
当我们想要通过强化学习让模型更好地理解人类偏好时,这种不精确性带来了很大的挑战。具体来说,传统的偏好优化方法,如直接偏好优化(Direct Preference Optimization,简称DPO),需要精确计算模型生成某段文本的对数似然,而掩码扩散模型只能提供这种似然的估计值,而且这种估计本身就带有很高的方差(也就是不稳定性)。
就好比我们在教小孩学习时,无法准确判断他的进步程度,只能通过一些间接的迹象来猜测,而这些猜测本身就可能大起大落,让我们很难有效地引导他的学习方向。
二、方差减少偏好优化:创新的解决方案
研究团队面对的核心问题是:如何在掩码扩散模型中准确估计偏好分数,并减少估计过程中的高方差问题?
他们首先对这个问题进行了深入的理论分析。把问题比作一次探险,他们需要找到一条更可靠的路径。通过理论推导,他们发现,偏好优化过程中引入的偏差和方差主要由偏好分数估计器的方差控制,就像探险中的不确定性主要来自地图的模糊程度。
基于这一发现,他们提出了VRPO方法,包含三个核心策略:
第一个策略是增加采样预算。想象一下,如果你只看地图一眼就决定路线,可能会走错;但如果你反复查看地图并综合判断,就能做出更可靠的决策。同样,VRPO通过增加Monte Carlo采样的数量,提高了ELBO估计的准确性。
第二个策略是最优分配,即将有限的计算资源最有效地分配到不同的时间步和掩码样本上。这就像是在有限的探险时间内,决定在哪些地点花更多时间探索。研究团队发现,最佳策略是将所有采样预算分散到不同的时间步,而每个时间步只取一个掩码样本。
第三个策略是对偶采样,即在估计当前模型和参考模型的ELBO时共享相同的随机样本。这就像两位探险者沿着完全相同的路径前进,这样他们之间的差异就完全来自于他们自身的能力差异,而不是路径不同带来的干扰。
这些策略的组合使VRPO能够显著降低偏好分数估计的方差,从而提高偏好优化的效率和稳定性。最重要的是,所有这些策略都是无偏的,意味着它们不会引入新的系统性误差。
三、实验验证:LLaDA 1.5的惊人表现
纸上得来终觉浅,研究团队将VRPO应用到了LLaDA 8B Instruct模型上,训练了一个全新的模型:LLaDA 1.5。他们使用了35万对偏好数据,这些数据涵盖了写作、对话、知识问答、推理、数学、编程等广泛领域。
令人振奋的是,经过VRPO训练的LLaDA 1.5在多个基准测试中都显著优于其前身LLaDA。在数学任务方面,GSM8K基准测试上提高了4.7个百分点;在代码生成方面,HumanEval提高了3.0个百分点,MBPP提高了1.8个百分点;在对齐任务方面,IFEval提高了4.0个百分点,Arena-Hard提高了4.3个百分点。
更令人惊讶的是,LLaDA 1.5在数学能力上甚至能与强大的自回归语言模型和掩码扩散模型相媲美,在Math基准测试上达到了最高的零样本得分。这一成果证明,掩码扩散模型与基于强化学习的对齐方法是完全兼容的,为今后更深入的研究奠定了基础。
四、深入理解VRPO:理论与实践的完美结合
为了更好地理解VRPO的效果,研究团队进行了一系列深入的消融实验,就像是拆解一道复杂菜品的每一个成分,观察每个成分的贡献。
他们分别测试了不同采样预算、不同配置策略以及是否使用对偶采样的组合。实验结果清晰地表明,所有这三个组件都对降低方差和提高下游任务性能起到了积极作用。特别是,将采样预算从1增加到8,GSM8K的准确率从80.1%提升到83.3%;采用最优分配策略(每个时间步一个掩码样本)比每个时间步多个样本的策略效果更好;而对偶采样的移除则会导致估计器方差的显著增加。
这些结果验证了VRPO的理论基础,印证了研究团队关于偏好分数估计器方差与下游任务性能之间强相关性的假设。
五、拓展与局限性
研究团队指出,VRPO中的方差减少技术不仅限于DPO,还可以应用到其他需要估计ELBO或两个相关ELBO差值的对齐算法中。这为掩码扩散模型的更广泛对齐开辟了可能性。
当然,这项研究也存在一些局限性。首先,VRPO需要额外的计算资源来实现较低的方差,导致训练过程中略微增加了计算开销。不过,研究团队指出,在他们的默认设置中(采样预算n=8),这一额外开销相对于预训练的总成本而言是微不足道的——不到预训练成本的0.5%。
另外,尽管VRPO有效降低了方差,但在某些下游基准测试(如MTBench和Arena-Hard)上的收益相对有限。这可能需要更大规模的偏好数据和更先进的对齐方法来解决。
六、结论与未来展望
这项研究向我们展示了掩码扩散模型与基于强化学习的对齐方法的兼容性,为大型语言扩散模型的研究开辟了新的方向。VRPO作为一种理论上有保证且实践中有效的方法,不仅解决了掩码扩散模型中偏好优化的高方差问题,还为未来的研究提供了坚实的基础。
归根结底,LLaDA 1.5的成功证明,即使在架构复杂、似然估计困难的掩码扩散模型中,我们也能通过精心设计的方差减少技术实现有效的人类偏好对齐。这为构建更加符合人类价值观和期望的大语言模型提供了新的可能性。
对于普通用户来说,这意味着未来我们可能会看到更多基于扩散模型的语言助手,它们不仅能高效生成文本,还能更好地理解和遵循人类的指令和偏好。而对于研究社区来说,这项工作为掩码扩散模型的对齐研究铺平了道路,可能激发更多创新方法的涌现。
如果你对这项研究感兴趣,可以通过文章开头提到的项目页面了解更多详情,或者直接在arXiv上检索原论文。未来,我们可以期待更多关于语言扩散模型对齐的研究成果,以及这些模型在实际应用中的表现。
好文章,需要你的鼓励
本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。
这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。
中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。
这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。