
这项由中国人民大学高瓴人工智能学院的李家南、李崇轩教授与蚂蚁集团的关健、吴伟等研究人员共同完成的研究,发表于2025年12月的arXiv预印本平台,论文编号为arXiv:2512.13586v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
当前主流的AI文本生成技术就像一个按部就班的作家,必须从第一个字开始,一个字一个字地写下去,不能跳跃,也不能同时思考多个部分。这种方式虽然能保证文字的连贯性,但速度很慢,就像用打字机写作一样效率低下。而另一种叫做掩码扩散模型的技术则像一个可以同时在纸上多个地方写字的神奇作家,理论上可以大大提高写作速度,但实际使用中却面临两个严重问题。
第一个问题是这种"多点写作"的方式无法重复利用之前的思考成果。就好比一个画家每次添加新的笔触时,都必须重新审视整幅画,不能基于之前已经完成的部分来继续创作,这样反而比传统方式更加耗费精力。第二个问题是当同时在多个地方写字时,经常会出现前后矛盾的情况,比如在描述一个人时,前面写着"他很高兴",后面又写着"她很难过",出现了性别和情绪的混乱。
针对这些挑战,研究团队提出了一种名为ReFusion的创新解决方案。这个模型巧妙地将"整体规划"和"局部填充"结合起来,就像一个经验丰富的建筑师既能统筹全局,又能专注于细节施工。
一、从字词级别跃升到段落级别的创新思路
传统的掩码扩散模型试图同时预测多个独立的词汇,这就像让一个人同时玩多个拼图游戏,很容易出现混乱。ReFusion采用了一种全新的思路,它不再把注意力放在单个词汇上,而是以"插槽"为基本单位进行操作。每个插槽包含一段连续的文字,通常是4到32个词汇组成的小片段。
这种设计的灵感来自研究团队的一个重要发现:相邻词汇之间的依赖关系远比远距离词汇之间的关系更强。就像写一个句子时,"今天天气很"后面跟"好"的概率远远高于跟"昨天"的概率。通过分析大量文本数据,研究人员发现这种局部依赖性随着距离的增加而快速递减,这为他们的插槽设计提供了科学依据。
在ReFusion的工作机制中,每个插槽内部的词汇仍然按照传统的从左到右顺序生成,确保局部的连贯性。而不同插槽之间则可以并行生成,大大提高了整体效率。这就像组装一台汽车时,可以同时制造发动机、车身和轮胎,但每个部件内部的零件仍需按照特定顺序组装。
二、双步骤协同工作的精巧设计
ReFusion的核心魅力在于其"规划-填充"的双步骤工作流程。在每一轮生成中,模型首先进入规划阶段,就像一个导演在拍电影前先制定拍摄计划。模型会评估所有尚未填充的插槽,计算每个插槽的"确定性分数",这个分数反映了基于当前上下文,模型对该插槽内容的把握程度。
确定性分数的计算相当直观,模型会预测每个插槽第一个词汇的概率分布,概率最高的词汇所对应的数值就是该插槽的确定性分数。分数越高,说明模型越有把握知道这个位置应该写什么内容。接着,模型会选择那些确定性分数超过预设阈值的插槽,这些插槽被认为具有较强的上下文约束且相互之间依赖性较弱,适合并行生成。
进入填充阶段后,ReFusion采用了一种类似"投机性解码"的策略来加速生成过程。对于选中的每个插槽,模型首先快速生成一个草稿版本,然后进行全局验证。如果草稿质量足够高,就直接采用,否则启动并行迭代完善过程。
这个过程分为两个子步骤:验证和预测。在验证步骤中,模型会检查每个插槽草稿中每个词汇的条件概率,找出最长的可接受前缀。在预测步骤中,模型会保留这个可接受的前缀,重新掩盖剩余部分,然后基于上下文和前缀来预测被掩盖的词汇。这个循环会持续进行,直到所有插槽都被完全填充。
三、突破性的缓存重用技术
ReFusion最引人注目的技术突破之一是实现了完整的键值缓存重用。在传统的自回归模型中,每次生成新词汇时,模型都会保存之前计算的中间结果,这样就不需要重复计算,大大提高了效率。然而,传统的掩码扩散模型由于需要双向注意力机制,无法享受这种优化带来的好处。
ReFusion通过一个巧妙的重排序策略解决了这个问题。每当新的插槽被生成完毕后,模型会将这些插槽物理移动到序列的前部,位于还未填充的掩码插槽之前。这种重排序使得整个序列保持了因果关系,新生成的内容总是出现在待生成内容之前,从而能够使用标准的因果注意力机制。
关键的是,尽管插槽的物理位置发生了变化,但每个词汇的位置标识符始终保持不变,对应其在最终正确序列中的位置。通过使用旋转位置编码技术,模型能够正确计算所有词汇之间的相对距离,确保注意力机制的准确性。这种设计使得模型既能享受并行生成的速度优势,又能获得传统序列生成的缓存效率。
四、混合训练目标的创新设计
为了让ReFusion具备规划和填充的双重能力,研究团队设计了一个独特的混合训练策略。传统的掩码扩散模型只从被掩盖的位置学习,而ReFusion的训练过程充分利用了序列中的每个词汇。
训练数据的构造过程分为三个步骤。首先是随机插槽掩盖,模型会随机选择一定比例的插槽进行掩盖,每个被选中的插槽会被替换为特殊的掩码符号。接着是清洁插槽的排列,为了让模型适应任意顺序的生成,未被掩盖的插槽会被随机重新排列。最后是重新排序,将排列后的清洁插槽放在序列前部,掩盖的插槽放在后部。
在训练目标方面,ReFusion采用了双重损失函数。对于清洁插槽,模型使用标准的自回归损失进行训练,这培养了模型的顺序生成能力。对于掩盖插槽,模型使用掩码扩散损失进行训练,这增强了模型的并行重建能力。这两个损失通过一个平衡参数进行加权组合,形成最终的训练目标。
这种混合训练策略的一个显著优势是数据效率的提升。与传统掩码扩散模型只从被掩盖位置学习不同,ReFusion从每个词汇位置都获得监督信号,这意味着同样的训练数据能够提供更多的学习机会。
五、全面的实验验证和性能分析
研究团队在七个不同类型的基准测试上全面评估了ReFusion的性能,这些测试涵盖了数学推理、代码生成、通用理解等多个领域。具体包括MMLU-Pro、ARC-C、GSM8K、MATH、GPQA、HumanEval和MBPP等权威评测集。
在与现有掩码扩散模型的比较中,ReFusion展现出了压倒性的优势。相比于LLaDA和Dream等先进模型,ReFusion在平均性能上提升了34%,同时吞吐量提高了超过18倍。更令人印象深刻的是,ReFusion不仅超越了同类模型,还在多个任务上挑战甚至超越了强大的自回归模型。
以具体数据为例,在GSM8K数学推理任务上,ReFusion达到了84.91%的准确率,超过了Qwen3-8B模型的81.96%。在MBPP代码生成任务上,ReFusion的表现同样出色,pass@1指标达到68.20%,显著优于其他掩码扩散模型。更重要的是,在实现这些性能的同时,ReFusion的推理速度比Qwen3-8B快了2.33倍。
为了验证这些改进确实来自架构创新而非数据或初始化优势,研究团队进行了严格的对照实验。他们使用相同的基础模型和相同的训练数据重新训练了多个基线方法,结果显示ReFusion的优势依然显著,证明了其架构设计的有效性。
六、关键参数的影响分析
ReFusion的性能可以通过几个关键参数进行调节,研究团队对这些参数的影响进行了详细分析。插槽选择阈值控制着规划阶段的严格程度,较高的阈值会选择更可靠的插槽进行并行生成,提高质量但可能降低并行度。词汇接受阈值则影响填充阶段的验证严格程度,过高的阈值可能导致频繁的重新生成,影响效率。
插槽大小是另一个重要参数,研究发现较大的插槽大小能够同时改善性能和速度。这是因为更大的插槽能够包含更完整的语义单元,减少插槽间的依赖性,同时在验证阶段能够整体接受更多的草稿内容。实验显示,当插槽大小从4增加到32时,模型在保持高性能的同时显著提升了推理速度。
研究还发现存在一个相当宽泛的"最佳区间",在这个区间内ReFusion在性能和速度两个维度上都超越了基线模型。这种鲁棒性对于实际应用来说非常重要,意味着用户不需要过分精细地调节参数就能获得良好的效果。
七、缓存重用机制的深入分析
为了验证直接连接并行生成插槽的键值缓存是否会影响性能,研究团队进行了专门的消融实验。他们比较了默认的缓存连接方式与完全重新计算缓存的方式,结果令人意外。
实验结果显示,直接连接缓存的方式在所有基准测试上都保持了1.16到1.33倍的速度优势,而性能不仅没有下降,在某些任务上甚至略有提升。研究团队认为这种现象可能源于一种隐式的正则化效果:通过避免过度依赖可能存在缺陷的并行草稿,这种方法减少了错误传播的风险。
这一发现不仅验证了ReFusion缓存重用策略的有效性,还表明这种设计选择同时增强了效率和鲁棒性,而不仅仅是一个简单的速度与准确性的权衡。
八、实际应用案例的深入分析
研究团队通过一个具体的编程任务展示了ReFusion的工作过程。在生成一个计算"亲和数"的Python函数时,ReFusion展现出了高度的并行性和非线性生成模式。模型能够同时生成多个代码段落,并且生成顺序并非严格的从上到下。
例如,在某次迭代中,模型同时生成了四个不同的代码片段,展现出强大的并行解码能力。同时,模型的生成顺序呈现出明显的非线性特征,比如先构建了核心的循环结构,然后才填充局部变量的初始化代码。这种能力使得ReFusion能够以更接近人类问题解决思维的方式构建复杂的结构化内容。
与传统方法相比,其他掩码扩散模型在同样的任务上往往会产生逻辑错误或语法问题,而ReFusion生成的代码不仅结构清晰,而且完全正确地实现了所要求的功能。
九、扩展性和未来潜力
研究团队还探索了ReFusion在不同数据规模下的扩展性能。通过在从12万到1400万样本的不同大小数据集上训练模型,他们发现ReFusion展现出了良好的扩展特性。随着训练数据的增加,模型的推理速度稳步提升,这表明更大规模的训练能够提高模型的内部生成置信度,从而减少迭代次数。
虽然性能的扩展并非严格单调,但这种现象在固定训练轮次的设置下是正常的。研究团队指出,如果增加计算预算允许更多的训练轮次,性能很可能会持续改善,进一步释放ReFusion的潜力。
十、技术局限性和改进方向
研究团队诚实地指出了当前框架的主要局限性。一旦插槽被生成完毕,其内容就被视为最终确定,无法在后续迭代中进行修正或改进。这种设计虽然简化了推理过程,但也阻止了模型纠正可能存在的局部错误。
针对这个问题,研究团队提出了未来的改进方向:引入子插槽级别的重新掩盖机制。在填充插槽后,模型可以验证生成的内容,保留高置信度的前缀部分,重新掩盖质量较低的后缀。这种方法将允许迭代式的精化,但需要更复杂的推理逻辑来处理动态调整的插槽大小。
这项由人大和蚂蚁集团联合完成的研究为文本生成领域带来了重要突破。ReFusion不仅在技术上实现了并行生成与质量保证的统一,更重要的是它证明了通过巧妙的架构设计,可以同时获得掩码扩散模型的速度优势和自回归模型的质量保证。随着大语言模型在各个领域的广泛应用,这种高效且高质量的生成技术将为AI系统的实际部署提供重要的技术支撑。
Q&A
Q1:ReFusion模型与传统AI写作方式有什么区别?
A:传统AI写作就像用打字机一个字一个字地写,必须按顺序进行。ReFusion则像一个能够同时在多个地方写字的智能作家,它把文章分成若干个"插槽",可以并行生成不同部分的内容,速度比传统方式快2-18倍,同时还能保证内容的连贯性和准确性。
Q2:ReFusion的双步骤工作流程是如何运作的?
A:ReFusion采用"规划-填充"的工作方式。首先在规划阶段,模型会评估哪些部分最容易写,选择那些把握最大的段落同时进行创作。然后在填充阶段,模型会先快速写出草稿,再进行验证和完善。这就像建筑师既要统筹全局规划,又要专注于具体施工细节。
Q3:ReFusion在实际应用中表现如何?
A:在七个权威测试中,ReFusion相比同类模型平均性能提升34%,速度提高18倍以上。在数学推理任务中准确率达84.91%,在代码生成任务中pass@1指标达68.20%。更重要的是,它不仅超越了其他并行生成模型,甚至在某些任务上超越了传统的顺序生成模型。
好文章,需要你的鼓励
Adobe研究院与UCLA合作开发的Sparse-LaViDa技术通过创新的"稀疏表示"方法,成功将AI图像生成速度提升一倍。该技术巧妙地让AI只处理必要的图像区域,使用特殊"寄存器令牌"管理其余部分,在文本到图像生成、图像编辑和数学推理等任务中实现显著加速,同时完全保持了输出质量。
香港科技大学团队开发出A4-Agent智能系统,无需训练即可让AI理解物品的可操作性。该系统通过"想象-思考-定位"三步法模仿人类认知过程,在多个测试中超越了需要专门训练的传统方法。这项技术为智能机器人发展提供了新思路,使其能够像人类一样举一反三地处理未见过的新物品和任务。
韩国KAIST开发的Vector Prism系统通过多视角观察和统计推理,解决了AI无法理解SVG图形语义结构的难题。该系统能将用户的自然语言描述自动转换为精美的矢量动画,生成的动画文件比传统视频小54倍,在多项评估中超越顶级竞争对手,为数字创意产业带来重大突破。
华为诺亚方舟实验室提出VersatileFFN创新架构,通过模仿人类双重思维模式,设计了宽度和深度两条并行通道,在不增加参数的情况下显著提升大语言模型性能。该方法将单一神经网络分割为虚拟专家并支持循环计算,实现了参数重用和自适应计算分配,为解决AI模型内存成本高、部署难的问题提供了全新思路。