微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

浙江大学团队揭秘AI写作新现象：中间过程竟比最终答案更准确

人工智能扩散语言模型时间一致性强化

浙江大学团队揭秘AI写作新现象：中间过程竟比最终答案更准确

作者：科技行者

2025-08-14 12:48

分享至：

浙江大学研究团队发现AI写作中的"时间振荡"现象：AI在生成过程的中间步骤往往给出正确答案，但最终输出时却被错误答案覆盖。团队提出"时间自一致性投票"和"时间一致性强化"两种解决方案，通过利用中间过程信息显著提升AI性能，在多个数学推理任务上实现2-25%的准确率提升，为AI系统的可靠性改进提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-08-14 12:48 • 科技行者

这项由浙江大学王文、方博真等研究者领导，联合蚂蚁集团、浙江工业大学和斯坦福大学共同完成的研究发表于2025年1月，论文题目为《Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models》。有兴趣深入了解的读者可以通过项目网页https://aim-uofa.github.io/dLLM-MidTruth访问完整研究。

在人工智能写作领域，一个令人惊讶的现象被发现了：就像一个学生在考试时，草稿纸上的答案可能比最终交上去的答案更正确。研究团队在分析最新的扩散语言模型时发现，这些AI系统在生成文本的中间步骤往往产生正确答案，但在最终输出时却被错误答案覆盖了。

这种现象被研究者命名为"时间振荡"。就好比一个厨师在烹饪过程中，中途尝味道时调料搭配刚好，但继续调味后反而变得不好吃了。在数学问题求解中，研究团队发现AI模型在中间步骤给出正确答案"25"，但到了最后一步却改成了错误的"2"。

为了解决这个问题，研究团队提出了两种巧妙的解决方案。第一种方法叫做"时间自一致性投票"，就像让所有中间步骤的答案进行民主投票，选出出现最多次的答案作为最终结果。这种方法不需要额外的计算成本，就像在现有的烹饪过程中增加了品尝环节。

第二种方法更加深入，叫做"时间一致性强化"。研究团队发明了一个新的评估标准——"时间语义熵"，用来衡量AI在生成过程中答案的稳定性。如果把AI的思考过程比作一条河流，那么这个指标就是用来测量河水是平静流淌还是波涛汹涌的工具。

**一、发现意外的"时间振荡"现象**

研究团队在测试两个主要的扩散语言模型LLaDA-8B-Instruct和LLaDA-1.5时，意外发现了一个违背常理的现象。他们选择了四个经典的数学推理数据集进行测试：GSM8K包含小学数学应用题，MATH500是高中竞赛数学题，SVAMP是基础数学文字题，而Countdown则是数字组合游戏。

测试结果让人大跌眼镜。以GSM8K数据集为例，AI模型最终答案的准确率只有68.5%，但如果考察整个生成过程中是否曾经出现过正确答案，准确率竟然高达80.5%。这意味着有12%的问题，AI实际上知道正确答案，只是在最后关头改错了。

这种现象就像一个象棋高手在比赛中，中盘时找到了获胜的走法，但在后面的步骤中却走错了棋而败北。研究团队通过大量案例分析发现，这种"聪明反被聪明误"的情况在所有测试的数学问题中都普遍存在。

在一个典型的例子中，AI需要计算植物问题：有100株植物，四分之一是室内植物，剩余的三分之二是室外植物，其余是开花植物，问开花植物占总数的百分之几。在第55步时，AI正确计算出答案是25%，但到了第64步，最终答案却变成了错误的2%。

这种现象的发现彻底颠覆了人们对AI推理过程的认知。传统观念认为，AI模型经过更多轮次的优化后会给出更准确的答案，但现实却是中间过程的智慧被后续步骤的"愚蠢"所掩盖。

**二、深入分析背后的数学原理**

为了理解这个奇怪现象的本质，研究团队从多个角度进行了深入分析。他们首先观察了准确率在整个生成过程中的变化趋势，发现不同复杂程度的任务表现出截然不同的模式。

对于相对简单的任务如SVAMP，AI在早期步骤就能达到较高准确率，后续过程更多是在已有正确答案基础上进行微调。但对于复杂任务如Countdown，AI在初期准确率很低，需要通过多轮迭代才能逐步接近正确答案，然而这个"接近"过程往往过头了，导致最终偏离正确轨道。

研究团队还分析了生成过程中的熵值变化。熵值就像测量系统混乱程度的温度计，数值越高表示AI越不确定。他们发现，在整个生成过程中，AI的不确定性总体上是递减的，但那些最终答错的问题往往在中间过程显示出更高的不确定性波动。

更有趣的是，研究者将问题分为三类来分析：最终答对的问题、中间答对但最终答错的问题，以及始终答错的问题。结果显示，中间答对但最终答错的问题在早期显示出相对较低的不确定性，这表明AI确实在某个时点"知道"了正确答案，但后续的"多此一举"破坏了这个正确状态。

**三、创新的"时间语义熵"评估体系**

基于对时间振荡现象的深度理解，研究团队提出了一个全新的评估概念——时间语义熵（TSE）。这个概念的核心思想是测量AI在整个生成过程中答案含义的稳定性，而不仅仅关注最终结果。

时间语义熵的计算过程可以用整理书架的例子来理解。假设你要整理一个书架，每次重新摆放后都会产生一个新的排列方案。如果你每次摆放的结果都很相似，那么你的"整理熵"就很低，说明你有明确的目标。但如果每次摆放结果都大不相同，那么熵值就很高，说明你对最终目标并不明确。

具体计算时，研究团队首先收集AI在所有中间步骤产生的答案，然后根据语义相似性将这些答案分组。同样意思的答案归为一类，不同意思的答案分别成组。接着计算这些语义组的分布均匀程度，如果答案含义高度集中，熵值就低；如果含义分散，熵值就高。

实验结果验证了时间语义熵的有效性。在所有测试的数据集中，最终答对的问题确实显示出更低的时间语义熵，这意味着这些问题的答案在整个生成过程中保持了较高的语义一致性。相比之下，答错的问题往往表现出更高的语义波动，就像一个人在做决定时摇摆不定，最终做出了错误选择。

这个发现为评估AI系统的可靠性提供了一个全新角度。传统评估只看最终答案的对错，但时间语义熵让我们能够评估AI思考过程的稳定性和可信度，这对于需要高可靠性的应用场景具有重要意义。

**四、巧妙的"时间自一致性投票"解决方案**

基于对时间振荡现象的理解，研究团队提出了第一个解决方案：时间自一致性投票。这个方法的核心思想非常直观——让AI在生成过程中的所有中间答案进行民主投票，选出得票最多的答案作为最终结果。

这种方法就像在一个会议中，与其只听最后一个发言者的意见，不如综合考虑所有与会者的观点，通过投票找出大家最认同的方案。在AI生成文本的过程中，每个中间步骤都相当于一个"专家意见"，虽然单独看可能有误，但集体智慧往往更可靠。

为了让这个投票过程更科学，研究团队还设计了不同的权重分配策略。第一种是平等投票，每个中间步骤的意见权重相同。第二种是线性加权，越接近最终步骤的答案权重越高，体现了"越想越准确"的传统观念。第三种是指数加权，同样给后期步骤更高权重，但变化更平滑。

实验结果显示，指数加权策略效果最佳。这种策略既承认了后期步骤可能更成熟的判断，又不完全忽视早期步骤的智慧，在平衡中找到了最优解。以LLaDA-8B-Instruct模型为例，使用指数加权的时间自一致性投票后，GSM8K数据集的准确率从68.5%提升到70.1%，MATH500从27.4%提升到28.4%。

这种方法的最大优势是几乎没有额外的计算成本。就像在现有的烹饪过程中增加品尝环节一样，不需要重新开始，只是更好地利用了已有的信息。这对于实际应用具有重要意义，因为它可以直接集成到现有的AI系统中，立即提升性能而无需重新训练模型。

**五、深层次的"时间一致性强化"训练方法**

除了在推理阶段的投票方法，研究团队还提出了一个更深层次的解决方案：时间一致性强化训练。这个方法的核心是在AI的学习过程中就教会它保持答案的时间一致性，而不是事后补救。

这种训练方法使用了前面提到的时间语义熵作为奖励信号。在强化学习的框架下，AI每次生成文本时都会根据答案的时间稳定性获得相应的奖励或惩罚。如果AI在生成过程中保持了语义一致性（低时间语义熵），就会得到正面反馈；如果答案摇摆不定（高时间语义熵），就会收到负面信号。

这个过程就像训练一个学生养成深思熟虑的习惯。不是单纯地奖励正确答案，而是奖励思维过程的一致性和稳定性。通过这种训练，AI学会了在推理过程中保持更高的内在一致性，避免了"朝令夕改"的问题。

更令人惊喜的是，这种方法甚至不需要正确答案作为监督信号。传统的AI训练需要大量标注好的正确答案来指导学习，但时间一致性强化只需要AI自己生成的中间过程就能进行自我改进。这就像一个学生通过反思自己的思维过程来提升逻辑能力，无需老师提供标准答案。

实验结果证明了这种方法的威力。仅使用时间语义熵作为奖励信号，在Countdown数据集上就实现了24.7%的平均性能提升。当将时间语义熵与传统的准确性奖励结合使用时，效果更加显著：GSM8K提升2.0%，MATH500提升4.3%，SVAMP提升6.6%，Countdown更是达到了25.3%的惊人提升。

**六、实验验证与实际效果**

为了全面验证提出方法的有效性，研究团队进行了大规模的实验验证。他们不仅测试了不同的数据集，还考察了不同文本长度、不同模型架构的表现，确保方法的普适性和鲁棒性。

在时间自一致性投票的实验中，研究团队发现权重函数的选择对结果有重要影响。他们测试了不同的指数衰减参数，发现当参数设为5时效果最佳，这个参数在各个数据集上都能取得平均1.5%的性能提升。这个发现为方法的实际应用提供了重要的参数配置指导。

在时间一致性强化训练的实验中，研究团队还分析了训练后模型的行为变化。他们发现，经过强化训练的模型确实表现出更低的时间语义熵，证明训练目标得到了有效实现。同时，模型生成的文本长度有所减少，研究者推测这可能是因为更简洁的回答更不容易出现内在矛盾。

特别值得注意的是，即使在经过时间一致性强化训练之后，时间自一致性投票仍然能够带来额外的性能提升。这表明两种方法是互补的，可以叠加使用来获得更好的效果。这就像一个学生既要培养良好的思维习惯，同时在考试时也要运用检查技巧来避免失误。

**七、方法的局限性与适用范围**

尽管取得了显著成果，研究团队也诚实地指出了方法的局限性。这些方法的有效性在很大程度上依赖于AI模型本身具有一定的基础能力。如果模型在整个生成过程中都很少产生正确答案，那么无论如何投票或强化训练都难以产生好的效果。

研究团队用数独游戏作为反例进行了测试。在数独任务中，模型在所有中间步骤的平均准确率都低于5%，这种情况下时间自一致性投票反而会降低性能，因为投票池中几乎都是错误答案。这个发现提醒我们，方法的适用性是有边界的，不能盲目应用到所有场景。

另一个局限是计算资源的考虑。虽然时间自一致性投票几乎没有额外计算成本，但时间一致性强化训练需要重新训练模型，这在某些资源受限的环境下可能不太现实。研究团队建议在不同场景下选择合适的方法组合。

此外，研究主要集中在数学推理任务上，对于其他类型的任务如创意写作、对话生成等，方法的效果还需要进一步验证。不同任务对答案一致性的要求可能不同，创意任务甚至可能需要一定程度的"不一致性"来保持新颖性和多样性。

**八、对AI发展的深远意义**

这项研究的意义远远超出了技术改进本身，它为我们理解AI系统的工作机制提供了全新视角。传统上，我们更多关注AI的最终输出，但这项研究表明，AI的中间过程蕴含着丰富的信息，这些信息如果被充分利用，能够显著提升系统性能。