



这项由中国科学院大学的马天任、张木、王艺冰和叶齐祥教授团队完成的研究发表于2025年1月的arXiv预印本(论文编号:arXiv:2510.02880v1),有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队开发了一种名为MaskGRPO的全新AI训练方法,这是首个能够有效训练多模态离散扩散模型的强化学习技术。
一、为什么AI需要学会"奖惩分明"?
在日常生活中,我们学习新技能时总是需要反馈——做对了会得到表扬,做错了会被纠正。对于AI来说,这种"奖惩分明"的学习方式被称为强化学习,就像训练宠物时给小狗正确行为奖励小零食一样。
当前的AI模型,特别是那些既能理解文字又能生成图像的多模态模型,就像是刚学会走路的孩子,虽然能够完成基本任务,但在复杂推理和创意生成方面还需要大量改进。传统的训练方法就像是给孩子看书学习,虽然有用,但缺乏实践中的及时反馈。
强化学习的引入就像为AI配备了一位耐心的老师,能够根据AI的表现给出即时的评价和指导。然而,现有的强化学习方法主要针对传统的自回归模型(就像按顺序一个字一个字写作文的方式),对于新兴的离散扩散模型(类似于同时在多个位置填词的方式)却束手无策。
离散扩散模型的工作原理可以比作拼图游戏。传统的AI模型像是按照从左上角到右下角的顺序逐片拼图,而离散扩散模型则是同时在多个位置放置拼图片,最终形成完整的图案。这种并行的工作方式虽然效率更高,但也给训练带来了前所未有的挑战。
研究团队发现,现有的强化学习方法在面对这种并行生成模式时会遇到两个核心问题。首先是"重要性采样"问题——就像老师需要知道学生在哪些地方进步最大,以便给出针对性的指导,但在并行生成的情况下,很难准确评估每个部分的贡献度。其次是"推理生成"问题——需要让AI在学习过程中产生多样化的输出以供比较学习,但现有方法生成的样本往往缺乏足够的多样性。
二、MaskGRPO如何破解多模态训练难题?
面对这些挑战,研究团队开发了MaskGRPO,这是一个专门为多模态离散扩散模型设计的强化学习框架。这个名字中的"Mask"指的是遮罩技术,"GRPO"则代表群体相对策略优化,整个系统就像是为不同类型的学习任务配备了专门的教学方法。
MaskGRPO的核心创新在于针对文本和图像这两种截然不同的模态设计了专门的处理策略。这就像是意识到教授数学和教授绘画需要完全不同的方法——数学需要逻辑推理和步骤分解,而绘画需要空间感知和整体协调。
对于文本处理,研究团队观察到一个有趣的现象:即使离散扩散模型采用并行生成方式,在处理自然语言时仍然表现出某种"类自回归"的特性。简单来说,就像人们在填写句子时,前面的词语会影响后面词语的选择概率。基于这个发现,团队设计了"渐隐遮罩估计器",这种方法会逐渐增加对句子后半部分的关注度,因为这些部分通常包含更多的不确定性和创新内容。
这种处理方式可以比作园艺师修剪植物的技巧。对于刚发芽的嫩枝(句子开头),园艺师会比较谨慎,因为这些部分相对稳定;但对于正在快速生长的新枝(句子后半部分),园艺师会投入更多关注,因为这些部分的变化最为剧烈,也最需要精心引导。
对于图像处理,团队面临的挑战完全不同。图像的各个部分之间存在强烈的全局关联性——一个像素的改变可能影响整个图像的和谐度。这种情况下,传统的逐步遮罩方法就像试图通过遮挡画布的小部分来理解整幅画作,显然是不合适的。
因此,研究团队为图像模态开发了全新的"概率性涌现采样策略"。这种方法不再强制规定每次预测要生成多少个像素,而是让像素自然地从遮罩状态中"涌现"出来。这个过程就像观察油画颜料在画布上自然晕染的过程——艺术家不会严格控制每一滴颜料的扩散范围,而是引导整体的色彩流动方向。
三、训练过程如何实现精准反馈?
MaskGRPO的训练过程就像是一个精心设计的学习循环,每个步骤都有其特定的作用和意义。整个过程可以比作一位经验丰富的导师指导学生完成复杂项目的方式。
训练开始时,系统会针对每个输入问题生成多个不同的回答或图像,就像让学生针对同一个题目提交多种解决方案。这种多样性确保了学习过程的丰富性,避免了AI过早地固化在某种特定的思路上。
接下来是关键的评估阶段。系统使用专门设计的奖励函数来评价每个生成结果的质量,这就像老师根据预设的评分标准为学生作品打分。对于数学推理任务,评分标准主要关注答案的正确性和推理过程的逻辑性;对于图像生成任务,评分标准则考虑图像与文本描述的匹配度、美学质量以及整体的视觉吸引力。
然后是计算相对优势的过程。系统不会简单地根据绝对分数来调整模型,而是比较同一组回答中不同选项的相对表现。这种方法就像是让学生在小组内部进行互相评比,每个人的进步都是相对于组内其他成员而言的。这样做的好处是避免了绝对评分标准可能带来的偏差,同时也让学习过程更加稳定。
在重要性估计环节,MaskGRPO展现出其核心创新。对于文本生成,系统会特别关注那些在渐隐遮罩过程中变化最大的部分,因为这些部分通常包含了最重要的推理转折点或创新思路。对于图像生成,系统则采用高截断率的随机遮罩,确保能够捕捉到图像全局特征的重要变化。
最后是策略更新阶段。系统会根据收集到的所有反馈信息,精确地调整模型参数。这个过程就像导师根据学生的表现,有针对性地调整教学方法和重点内容。整个调整过程既要保证学习的进步,又要避免过度修正导致的不稳定性。
四、实验结果展现的惊人效果
研究团队在多个基准数据集上测试了MaskGRPO的效果,结果令人印象深刻。这些测试就像是让AI参加各种不同类型的考试,从数学竞赛到艺术创作,全面检验其能力水平。
在数学推理方面,MaskGRPO在GSM8K数学题集上将准确率从基础模型的76.7%提升到了84.2%,这意味着AI解决数学问题的能力获得了7.5个百分点的显著提升。更令人惊讶的是,这种提升是在使用更短的推理序列(256个标记而非512个)的情况下实现的,这表明AI不仅变得更聪明,还变得更加高效。
在编程任务上,AI在MBPP编程基准测试中的表现从39.0%提升到了45.4%,提升幅度超过6个百分点。这种改进意味着AI能够更好地理解编程问题的要求,并生成更加正确和优雅的代码解决方案。
图像生成领域的改进同样令人瞩目。在GenEval文本图像对齐测试中,MaskGRPO训练后的模型得分从0.56提升到了0.80,这个改进幅度在该领域属于突破性进展。更重要的是,这是首次有研究团队成功地将强化学习技术应用于离散扩散图像生成模型,并取得如此显著的效果。
在人类偏好评分测试中,训练后的模型在多个维度都获得了明显改善。HPSv3美学质量评分从8.81提升到9.40,ImageReward文本对齐评分从0.93提升到1.18,这些数字背后代表的是更加逼真、更加符合人类审美标准的图像生成能力。
特别值得注意的是,MaskGRPO在训练效率方面也表现出色。相比之前的方法,新方法仅需要25%的训练步数就能达到更好的效果,这大大降低了计算成本和训练时间。这种效率提升就像是找到了一条通往目标的捷径,既节省了资源又提高了效果。
五、技术细节中的巧思设计
MaskGRPO的成功不仅仅在于整体框架的创新,更在于众多技术细节中体现出的精巧设计。这些设计就像是手表内部精密的齿轮装置,每一个小部件都有其特定的作用和价值。
在遮罩策略的设计上,研究团队针对不同模态采用了截然不同的方法。对于文本,他们开发的渐隐遮罩算法能够精确控制每个位置的遮罩概率,让系统更多地关注那些包含重要信息转折的位置。这个过程就像是有经验的编辑在审阅文章时,会特别关注那些承上启下的关键段落。
对于图像处理,团队选择了更加激进的高截断率策略,通常将截断参数设置为0.8,这意味着系统只关注那些遮罩率很高的情况。这种选择基于一个重要发现:图像的像素之间存在强烈的全局相关性,只有在大范围遮罩的情况下,系统才能真正学会理解图像的整体结构和局部细节之间的关系。
在采样算法的改进上,团队为图像生成开发的"涌现采样器"代表了一个重要的技术突破。传统的MaskGIT采样器会强制要求每次预测生成固定数量的像素,这种方法在使用高精度视觉编码器时容易产生不稳定的结果。新的涌现采样器则允许像素根据其概率分布自然地从遮罩状态中显现出来,这个过程更加符合离散扩散模型的理论基础。
在重要性权重的计算上,研究团队提出了一个重要的理论近似。他们发现,虽然离散扩散模型的确切似然估计在计算上是困难的,但可以通过模型在特定时间步的损失差异来近似计算重要性权重。这个发现为整个方法提供了坚实的理论基础,也解决了之前研究中一直存在的技术难题。
在训练稳定性的保证上,团队采用了多种技术手段。他们在每个设备上管理独立的随机种子集合,确保重要性计算的一致性和可重复性。同时,他们还对截断范围进行了精心调整,在效果和稳定性之间找到了最佳平衡点。
六、对比实验揭示的关键洞察
研究团队进行了大量的对比实验,这些实验就像是科学家在实验室中进行的精确测量,每一个数据点都揭示了方法改进的具体原因和机制。
在截断参数的消融实验中,团队发现了一个有趣的现象:对于文本任务,最优的截断参数是0.6,这个数值既保证了足够的学习信号,又避免了过度截断导致的信息丢失。而对于图像任务,最优参数则是0.8,这反映了图像和文本在信息结构上的根本差异。
在遮罩策略的比较实验中,渐隐遮罩方法明显优于随机遮罩和严格路径追踪方法。这个结果验证了团队关于文本"类自回归"特性的理论假设,也证明了针对性设计的重要性。
研究团队还将MaskGRPO与其他几种最新的强化学习方法进行了详细比较。结果显示,MaskGRPO不仅在最终效果上表现最佳,在训练稳定性和收敛速度方面也有明显优势。特别是与TraceRL等竞争方法相比,MaskGRPO在相同的计算资源下能够取得更好的结果。
在采样器比较实验中,团队发现了一个看似矛盾但实际上很有启发性的现象:虽然新的涌现采样器在强化学习之前的表现略逊于传统MaskGIT采样器,但在强化学习训练之后,它能够引导模型达到更高的性能水平。这说明采样器的选择不应该只看初始表现,更要考虑其在学习过程中的探索能力。
七、方法的局限性和未来发展方向
尽管MaskGRPO在多个方面都取得了显著进展,但研究团队也诚实地指出了当前方法存在的一些局限性,这种科学严谨的态度为未来的改进指明了方向。
首先是计算复杂度的问题。虽然MaskGRPO比之前的方法更加高效,但强化学习本身仍然是一个计算密集型的过程。每次训练迭代都需要生成多个候选样本并进行评估,这在处理大规模模型时仍然需要大量的计算资源。
其次是奖励函数设计的挑战。当前的实验主要使用了相对简单的奖励函数,如数学题的正确性判断和图像的美学评分。但在更复杂的应用场景中,如何设计既准确又全面的奖励函数仍然是一个开放性问题。
在模型架构的适应性方面,虽然MaskGRPO已经在不同类型的离散扩散模型上进行了验证,但对于一些特殊架构(如混合式注意力模型)的适应性还需要进一步研究。
关于多模态统一性,虽然当前的方法能够分别处理文本和图像任务,但如何设计一个真正统一的多模态强化学习框架,让模型能够在不同模态之间进行无缝切换和联合学习,仍然是一个有待解决的问题。
研究团队也指出了一些有前景的发展方向。首先是将方法扩展到其他类型的离散序列,如音频、视频或者科学数据。其次是探索更加复杂的奖励函数设计,可能结合人类反馈和自动评估的优势。
另一个有趣的方向是将MaskGRPO与其他先进技术结合,如知识蒸馏、参数高效微调等,以进一步提高方法的实用性和可扩展性。
八、对AI发展的深远影响
MaskGRPO的成功不仅仅是一个技术突破,更代表了AI训练方法学上的重要进步。这项工作为我们理解如何训练更加智能和可靠的AI系统提供了新的视角和工具。
从技术发展的角度来看,这项研究打通了强化学习和离散扩散模型之间的桥梁,为两个原本相对独立的研究领域开辟了新的交集。这种交叉融合往往能够产生意想不到的创新成果,就像化学中不同元素的结合可能产生全新的化合物一样。
在实用性方面,MaskGRPO为开发更加智能的AI助手提供了技术基础。经过这种方法训练的AI模型能够更好地理解人类的需求和偏好,在数学推理、代码生成、图像创作等多个领域都能提供更高质量的服务。
从更广阔的视野来看,这项研究也为AI安全和对齐研究提供了有价值的参考。通过强化学习技术,我们能够更好地控制AI模型的行为,让它们更加符合人类的价值观和期望。这对于确保AI技术的安全发展具有重要意义。
在教育和科研领域,MaskGRPO可能会推动自动化教学工具和科研助手的发展。能够进行复杂数学推理的AI系统可以帮助学生更好地理解抽象概念,而能够生成高质量图像的AI则可以协助研究人员进行数据可视化和概念展示。
说到底,MaskGRPO代表的是一种新的AI训练哲学:不再满足于让AI模型简单地模仿训练数据,而是要让它们学会在实际应用中不断改进和优化。这种从"模仿学习"向"强化学习"的转变,可能会成为下一代AI系统的重要特征。
当然,任何技术进步都需要时间来验证其长远价值。MaskGRPO虽然在实验室环境中表现出色,但要真正走向广泛应用,还需要在更多场景下接受检验,也需要解决计算成本、部署复杂度等实际问题。
归根结底,这项来自中科院团队的研究为我们展示了AI训练技术的一个重要发展方向。通过巧妙地结合不同技术领域的优势,研究者们为构建更加智能、更加可靠的AI系统铺平了道路。随着这类技术的不断成熟和完善,我们有理由期待在不久的将来能够看到更多令人惊喜的AI应用成果。有兴趣深入了解技术细节的读者,可以通过论文编号arXiv:2510.02880v1查询完整的研究报告。
Q&A
Q1:MaskGRPO和传统的AI训练方法有什么区别?
A:传统AI训练就像让学生背书,只是让AI模仿训练数据中的内容。而MaskGRPO采用强化学习方式,就像配备了一位老师给AI即时反馈,根据AI的表现好坏来调整训练方向。最关键的是,MaskGRPO专门针对能同时处理文字和图像的离散扩散模型设计,解决了这类模型无法使用传统强化学习的技术难题。
Q2:为什么说MaskGRPO是首个多模态离散扩散强化学习方法?
A:之前的强化学习方法主要针对按顺序生成内容的自回归模型,就像逐字写作文。但离散扩散模型是同时在多个位置生成内容,就像同时填拼图的多个位置,这种并行方式让传统强化学习方法失效。MaskGRPO首次解决了这个问题,既能处理文本又能处理图像,因此被称为首个多模态离散扩散强化学习方法。
Q3:MaskGRPO在实际应用中的效果如何?
A:实验结果非常亮眼。在数学推理方面,AI解题准确率从76.7%提升到84.2%,提升了7.5个百分点。在编程任务上从39.0%提升到45.4%。在图像生成的文本对齐测试中,从0.56分提升到0.80分。而且训练效率也大幅提高,只需要原来25%的训练步数就能达到更好效果,大大节省了计算资源和时间成本。
 0赞
 0赞好文章,需要你的鼓励
 推荐文章
 推荐文章
浙江大学团队提出动态专家搜索方法,让AI能根据不同问题灵活调整内部专家配置。该方法在数学、编程等任务上显著提升推理准确率,且不增加计算成本。研究发现不同类型问题偏爱不同专家配置,为AI推理优化开辟新路径。
清华大学研究团队提出SIRI方法,通过"压缩-扩张"交替训练策略,成功解决了大型推理模型"话多且准确率低"的问题。实验显示,该方法在数学竞赛题上将模型准确率提升43.2%的同时,输出长度减少46.9%,真正实现了效率与性能的双重优化,为AI模型训练提供了新思路。
南洋理工大学与腾讯联合研究团队开发出Rolling Forcing技术,实现AI视频实时流式生成的重大突破。该技术通过滚动窗口联合去噪、注意力锚点机制和高效训练算法三项创新,解决了长视频生成中的错误累积问题,可在单GPU上以16fps速度生成多分钟高质量视频,延迟仅0.76秒,质量漂移指标从传统方法的1.66降至0.01,为交互式媒体和内容创作开辟新可能。
华中科技大学研究团队发现,通过让AI模型学习解决几何问题,能够显著提升其空间理解能力。他们构建了包含约30000个几何题目的Euclid30K数据集,使用强化学习方法训练多个AI模型。实验结果显示,几何训练在四个空间智能测试基准上都带来显著提升,其中最佳模型达到49.6%准确率,超越此前最好成绩。这项研究揭示了基础几何知识对培养AI空间智能的重要价值。