微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

港科大、威廉与玛丽学院、康奈尔大学联手：让语言模型同时拥有"顺序阅读"和"全局感知"两种能力，速度提升1.6倍

大语言模型扩散模型推理加速

港科大、威廉与玛丽学院、康奈尔大学联手：让语言模型同时拥有"顺序阅读"和"全局感知"两种能力，速度提升1.6倍

作者：科技行者

2026-06-02 16:46

分享至：

港科大、威廉与玛丽学院和康奈尔大学联合提出B3D-RWKV，通过"三联块布局"训练法，无需改动模型结构，将RWKV-7改造为扩散语言模型，解码速度提升1.6倍。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-02 16:46 • 科技行者

这项由香港科技大学、威廉与玛丽学院和康奈尔大学的研究团队共同完成的研究，于2026年5月25日以预印本形式发布，论文编号为arXiv:2605.25969。感兴趣的读者可通过该编号在arXiv平台检索完整论文。

一、先聊聊大语言模型的两个老大难问题

要理解这项研究在做什么，得先从一个日常场景出发。假设你在读一篇小说，每次只能看一个字，看完这个字才能看下一个字，而且每次看新的字，都要把之前所有字重新过一遍脑子。你的阅读速度会有多慢？这正是目前绝大多数主流大语言模型（比如GPT、LLaMA等）在生成文字时面临的困境。它们被设计成严格从左到右逐字生成，前面没生成完，后面就完全不能动。

这种"逐字生成"的方式带来了两个痛点。第一个痛点是没法并行——因为每个词都依赖前面的词，所以无法同时处理多个位置，生成速度自然受限。第二个痛点是处理长文本时代价极高。在标准的Transformer架构中，模型每生成一个新词，都需要与此前所有词做一次"注意力计算"，这个计算量随文本长度的平方增长——文本长度翻倍，计算量变成四倍，长度增加十倍，计算量就变成一百倍，这对超长文本来说几乎是灾难性的开销。

面对这两个问题，研究界沿着两条不同的路分别探索。一条路是"离散扩散语言模型"——借鉴图像生成领域扩散模型的思路，不再逐字生成，而是一次性对整个文本块进行去噪，多个位置可以同时推理，天然具备并行能力。另一条路是以RWKV家族为代表的"线性时间循环模型"——它把传统循环神经网络（RNN）和注意力机制融合，让计算量随文本长度线性增长而非平方增长，在超长文本上效率极高。

然而，把这两条路合并成一条，说起来容易做起来难。扩散模型需要"双向注意力"——也就是说，在预测某个位置的词时，它既能看到左边的内容，也能看到右边的内容。而RWKV这类循环模型是严格"单向"的——只能从左到右，后面的内容对前面的预测完全不可见。这就像是一个人既想用望远镜看远处（双向感知），又必须戴着眼罩只看前方（单向因果），两者天然矛盾。

正是这道鸿沟，成了这篇论文要架设桥梁的地方。

二、三胞胎排列法：一个不改模型结构的巧妙绕路方案

研究团队提出的核心方法叫做"三联块布局"（Triplet-Block Layout），可以用一个非常直白的比喻来理解它：考虑这样一个场景，你正在参加一场闭卷考试，但考卷给你出现了三次。第一次出现时，部分题目被遮住了，你能看见未被遮住的答案；第二次出现的是同样的卷子，遮住的题目也完全相同，但这次你必须在这份卷子上作答，并且老师只检查这一份；第三次出现的是完整版，所有答案都可见，作用是帮你"刷新记忆"，为下一套题目做准备。

在这个设计里，关键的魔法发生在第一次和第二次卷子之间。当你拿到第二份卷子，看到某道被遮住的题时，你的脑海里已经有了第一份卷子中所有未被遮住的内容——包括这道题在整份卷子里的上下文信息。虽然你是严格按顺序（从第一份到第二份）读取信息的，但你对第二份卷子中某道遮住题目的推理，实际上已经整合了整个块里所有可见内容，无论那些内容在这道题的左边还是右边。这就是"伪双向感知"的核心机制。

用更正式的语言来描述：对于训练数据中的每个逻辑块（大小为B个词），研究团队把它变成三个物理块连续排列。第一个物理块是这段文字的"遮掩版"，随机遮住部分词，未遮住的保持原样。第二个物理块是"完全相同的遮掩版"，遮住的位置一模一样，这是模型真正需要在上面做预测并计算损失的地方。第三个物理块是这段文字的"完整版"，所有词都可见，它的作用是刷新模型的循环状态，让下一个逻辑块开始时模型拥有正确的历史记忆。

因为RWKV是严格从左到右处理的，当它读到第二个物理块中某个被遮住的位置时，它已经完整处理过第一个物理块的所有内容（包括第一个块中那些未被遮住的词）。由于第一、二个物理块的遮掩模式完全一致，第二个块中某个被遮住的位置，在第一个块的相同位置也被遮住了，所以第一个块里那些"可见"的词，其实就是整个逻辑块里所有未被遮住的词。模型处理第二个块的某个位置时，它的隐藏状态里已经融合了整个逻辑块中所有可见信息，无论这些信息在该位置的左边还是右边。

这个设计最妙的地方在于：它完全不需要改变RWKV的任何架构参数。整个训练过程只是改变了数据的组织方式，把原来一段文字变成了三段连续排列的特殊格式。对于RWKV而言，它仍然在做自己最擅长的事：严格从左到右处理文字序列。

当然，代价也是存在的。每个逻辑块变成三个物理块，意味着训练时的序列长度是原来的三倍。原来2048个词的训练样本，现在变成6144个词的序列。好在RWKV的计算量是随序列长度线性增长的，三倍长度就是三倍计算量，而不是Transformer那样的九倍，这在工程上是完全可以接受的。

三、让模型更"自信"地一次提交更多答案

仅仅让模型具备伪双向感知能力还不够，要真正实现高效的并行解码，还需要解决另一个问题：在推理时，模型怎么知道哪些位置的预测已经足够可靠、可以直接"定稿"，哪些还需要继续迭代？

研究团队借鉴了LLaDA 2.0中的"置信度感知并行训练"方案。这个机制的核心思想是：如果模型在某个被遮住的位置已经猜对了正确答案，就额外给模型一个惩罚信号，让它把自己的预测概率分布变得更加集中、更加"自信"——用专业术语说，就是降低该位置预测分布的熵。

为什么要这样做？因为在推理阶段，模型要决定是否"提交"某个位置的预测，依据的是模型对该位置预测的最高概率是否超过某个阈值τ。如果训练时模型总是以一种分散的概率分布来输出答案（即使答案是对的），推理时就很难清晰地超过阈值，导致每次迭代只能提交很少的位置，需要更多轮迭代。而通过熵最小化训练，模型在已经猜对的位置会形成非常尖锐、集中的概率分布，推理时就更容易超过阈值，每次迭代能提交更多位置，整体生成速度自然更快。

最终的训练目标由两部分组成。一部分是标准的交叉熵损失，确保模型能预测出正确答案；另一部分是只针对已经预测正确的位置的熵最小化损失，确保正确预测的置信度足够高。两部分加权求和，权重系数λ设为0.5。

四、推理时像解一道多空填写题

了解了训练方式，再来看推理时模型怎么工作。在推理阶段，模型采用"逐块迭代去噪"的方式生成文本。

以生成新内容为例，每次处理一个逻辑块。初始时，这个块的所有位置都是"[MASK]"（遮掩标记）。模型拿到已有的前缀内容，加上这个全遮掩的块，从左到右处理一遍，然后对块中每个遮掩位置给出预测概率。接下来，对于最高预测概率超过阈值τ（默认设为0.9）的位置，把它们"提交"，将MASK替换为模型最有把握的那个词。对于没有超过阈值的位置，继续保持MASK状态，等待下一轮迭代。

为了防止极端情况下整轮迭代一个位置都提交不了（比如所有位置的置信度都偏低），系统还设置了一个"兜底机制"：无论如何，每轮迭代至少强制提交最有把握的k_min个位置。这保证了每次迭代都有真实进展，不会无限循环。

当一个块的所有位置都被提交后，这个块就变成了"干净"文本，被追加到前缀中，作为下一个块推理的上下文。如此反复，直到生成完整的回答。

值得注意的是，在推理阶段，模型只需要两份物理块（遮掩版和去噪版），而不是训练时的三份，因为推理时不需要第三份"刷新状态"的完整版——已提交的内容本身就承担了这个角色。

五、真实测试：性能如何，有哪些弱点

研究团队基于公开的RWKV-7-7.2B模型（一个70亿参数规模的预训练语言模型）进行了训练，使用了约49亿个词的混合数据集，包括TULU 3对话指令数据集、GLM-5.1推理轨迹数据和Claude Opus 4.6的推理轨迹数据。整个训练过程分两轮进行：第一轮用较小的块大小（每块32个词、64个逻辑块、共2048词原始长度）训练约1.8个周期；第二轮扩大到每块32词、256个逻辑块、8192词原始长度，训练约0.2个周期。整个训练在8块H100 80GB显卡上运行，共消耗约500个GPU小时。

在8项基准测试上，B3D-RWKV-7.2B的表现呈现出清晰的规律性。在常识理解、阅读理解等偏向于"感知上下文、综合信息"的任务上，它的表现甚至超过了RWKV-7基线模型——在ARC-Challenge（科学选择题）上，RWKV-7得55.5分，而B3D-RWKV得61.6分；在RACE（阅读理解）上，RWKV-7得43.5分，而B3D-RWKV得49.7分。研究团队认为，这正是伪双向感知带来的收益，在需要综合句子前后信息才能作出判断的任务中，具备更广视野的模型自然更有优势。

另一方面，在需要精确、逐步推演的数学任务上，B3D-RWKV出现了明显下滑。在GSM8K（初中数学应用题）上，RWKV-7得83.9分，而B3D-RWKV只有71.5分；在MATH（竞赛数学）上，RWKV-7得48.8分，而B3D-RWKV只有23.8分。这个差距是可以理解的：数学题要求每一步都精确、步骤之间严格依赖，而并行解码在多个位置同时填词时，很难保证每一步的局部正确性都能传递到后续步骤。就像拼一栋积木楼，如果底层还没完全确定就同时开始搭多层，最后可能整体歪掉。MATH测试尤其严苛，答案需要在LaTeX格式层面完全精确匹配，一个符号错误就算0分，没有部分分，这恰好是并行解码最容易出问题的场景。

在推理速度方面，实验结果相当亮眼。与同规模的LLaDA-8B（一个基于Transformer的扩散语言模型）相比，B3D-RWKV在所有测试的上下文长度（从1K到512K词）下都保持了更高的吞吐量。与RWKV-7基线相比，B3D-RWKV平均实现了1.6倍的解码速度提升。在延迟方面，随着上下文从1K增加到512K，推理时间从约91毫秒增加到约45.8秒，呈现出接近线性的增长关系，而不是Transformer那样的超线性增长，这符合RWKV线性复杂度的理论预期。

通过调整采样参数，可以在速度和精度之间灵活权衡。以ARC-E测试为例，当采样步数设为8步时，模型能达到581词/秒的速度，但准确率只有18.7%；增加到32步时，准确率升至79.3%，速度降至213词/秒。类似地，置信度阈值τ设为0.3时，速度高达772词/秒，但准确率崩溃到11.2%；τ设为0.9时，准确率恢复到79.3%，速度213词/秒。两个参数从不同角度调节同一条速度-精度权衡曲线，用户可以根据实际需求灵活选择。

六、这个方法的边界和未来空间

研究团队在论文中也坦诚地讨论了几项局限。

首先，"三联块布局不改变任何架构"的普适性结论，在理论上对所有满足"严格因果性"和"状态前向传播"的语言模型都成立——包括RWKV全系列、Mamba、Mamba-2、RetNet、Gated Linear Attention、Hyena等线性时间模型，甚至传统Transformer也满足这两个条件（只是三倍序列长度对Transformer代价更大）。然而，实验层面目前只在单个7.2B参数的RWKV-7骨干上得到了验证，其他骨干的实际效果有待后续工作确认。

其次，训练数据规模相对有限。整个后训练只使用了约49亿个词的指令和推理数据，与RWKV-7原始预训练数万亿词的规模相比差距悬殊。加之没有经过强化学习对齐阶段，模型在部分任务上相较原始RWKV-7基线出现了一定程度的能力回退，这是预期中的代价。研究团队预计，如果扩大后训练数据规模并加入强化学习对齐，这些回退是可以弥补甚至超越的。

此外，本次训练没有针对代码生成和工具调用等场景进行专项优化。从附录展示的样本来看，模型能够完成基础的Python函数编写、数学应用题求解、多轮对话和简单翻译等任务，但在复杂结构化推理上仍有明显空间。

归根结底，这项研究展示了一条把"逐字生成"和"并行生成"两种范式融合的可行路径，而且实现成本相当低廉——不需要修改模型结构，不需要从头训练，只需要改变训练数据的排列方式。对于已经存在的海量预训练因果语言模型而言，这意味着可以用相对小的代价将其改造为能并行生成的扩散语言模型。在需要快速响应、高吞吐量、超长上下文的应用场景中，这种改造可能带来实实在在的部署优势。

这项研究留给未来探索的问题也同样清晰：能否在更多不同架构上验证这套方法？能否通过扩大后训练数据规模和引入强化学习，让扩散版本在数学推理等精确任务上也不落后于原始因果模型？"三联块"是否是最优的块结构，还是存在更高效的组织方式？这些问题的答案，将决定这条路能走多远。

Q&A

Q1：B3D-RWKV是什么？

A：B3D-RWKV是一个把扩散语言模型和RWKV线性循环模型结合起来的新型语言模型。它通过一种叫"三联块布局"的训练数据组织方法，让原本只能从左到右逐字生成的RWKV模型，具备了对整个文本块双向感知的能力，从而实现并行解码，生成速度比原始RWKV模型平均快1.6倍。

Q2：三联块布局为什么能让单向模型获得双向感知？

A：核心在于数据排列的技巧。每个文本块被复制三份连续放置：第一份是随机遮掩版，第二份是完全相同的遮掩版（用于训练损失计算），第三份是完整版。当模型从左到右处理到第二份时，它的内部记忆已经融合了第一份中所有可见内容，这些可见内容覆盖了整个块中所有未被遮掩的位置，无论在当前预测位置的左边还是右边，从而实现了伪双向感知。

Q3：B3D-RWKV在哪些任务上表现好，哪些任务上表现差？

A：在需要综合上下文信息的任务上表现较好，比如常识选择题ARC-Challenge比RWKV-7基线高出6个百分点，阅读理解RACE高出6个百分点。在需要精确逐步推演的数学任务上表现明显下降，比如竞赛数学MATH只有23.8分，远低于基线的48.8分，原因是并行解码难以保证数学推理每一步的精确传递。

大语言模型扩散模型推理加速

分享至