
这项由首尔大学(Seoul National University)多个研究院联合开展的研究,于2026年5月以预印本形式发布,论文编号为arXiv:2605.28181,涉及首尔大学RICS、AIIS、IPAI研究院以及智能信息系系,同时有来自大邱庆北科学技术院(DGIST)的研究人员参与。感兴趣的读者可通过arXiv:2605.28181查阅完整原文。
这篇论文讨论的是一个表面上看起来很技术性,但核心逻辑其实非常日常的问题:**一个AI模型,在回答问题到一半的时候,突然以为自己已经说完了——然后就真的停下来了。** 这不是程序崩溃,也不是出了什么错误,而是这类AI本身的工作方式造成的一种"过度自信"陷阱。研究团队找到了这个问题的根源,并提出了一套几乎不需要改动AI本身任何参数、只需在推理时加入几个小技巧的解决办法。
一、先搞清楚这种AI是怎么工作的
要理解这个研究在做什么,我们得先了解一种叫做"扩散语言模型"(Diffusion Language Models,简称DLM)的AI文字生成技术。大多数人熟悉的ChatGPT那类模型,生成文字的方式类似于一个人一个字一个字地往后说,必须先说完前一个词才能说下一个词,完全是从左到右的顺序。
扩散语言模型的工作方式完全不同。可以把它的生成过程理解为:一开始,系统把所有要输出的位置都打上了"马赛克"(在技术上叫做[MASK],遮盖标记),然后通过多轮处理,逐步把这些马赛克"揭开",还原成真正的文字。更有趣的是,它不需要按顺序从左到右揭开马赛克,而是可以同时揭开任意位置的马赛克——就像你在拼一幅1000块的拼图时,可以同时往多个区域填入拼块,而不是必须从左上角一块一块地往右拼。
这种并行处理的特性使得扩散语言模型在速度上有巨大的潜力优势,也是近年来学界热门的研究方向。LLaDA(大型语言扩散架构)和Dream都是目前具有代表性的大规模扩散语言模型,参数规模分别达到了80亿和70亿,性能已经接近同等规模的传统语言模型。
然而,这种"可以同时处理多个位置"的自由度,也带来了一个关键挑战:**每一轮处理时,模型必须决定先揭开哪些位置的马赛克。** 这个决策,就是本研究的核心问题所在。
二、模型是怎么决定先揭哪块马赛克的
目前最主流的做法叫做"基于置信度的解码"(confidence-based decoding)。简单来说,模型在每一轮处理时,会对所有还被遮盖的位置进行预测,同时给出自己对这个预测有多少"把握"。把握越大,就越先揭开那个位置。
这个逻辑听起来非常合理,就像做多项选择题的时候,先把自己最有把握的题目答完,再回头处理难题。这种策略被称为"顶级概率解码"(top-probability decoding)——优先揭开那些预测概率最高的位置——或者它的变体"顶级边际解码"(top-margin decoding)——优先揭开那些排名第一和第二的预测之间差距最大的位置,也就是最"笃定"的位置。
问题在于,**高置信度并不总是意味着这个位置真的准备好了被揭开。** 这就是本研究发现的两个"被自信心骗到"的典型场景。
三、第一个陷阱:模型以为自己说完了,其实才说了开头
在AI语言模型中,有一个特殊的标记叫做"文本结束符"(End of Text,简称EOT,有时也写作`<|eot_id|>`)。当模型生成了这个标记,就代表它认为这段回答已经结束了。
研究团队发现,对于经过指令微调的扩散语言模型来说,在回答区域的末尾位置,EOT标记往往会获得极高的置信度——即使回答才刚刚开始。于是,基于置信度的解码策略就会优先揭开这些位置,模型就真的输出了一个EOT标记,然后提前停止了整个生成过程。
用一个日常比喻来理解:这就好像你让一个助手写一篇500字的作文,但他在写了三句话之后,突然觉得自己"很有把握"这篇文章已经结束了,于是在第四行就写上了"全文完",然后提交给你。内容完全不够,但他自己非常自信。
论文中展示了一个具体例子:一道关于网球的数学题,模型只生成了半句"设x为第二局球的数量",然后就跟了一个EOT标记,整个回答就这样结束了,正确答案根本没有算出来。这种现象被研究团队称为"EOT过度自信"(EOT overconfidence)。
四、一个看似聪明的修复方案,却制造了新问题
既然模型会被EOT标记的高置信度误导,一个直接的解决方案是:在回答区域的末尾预先插入一段"提示语",告诉模型"这里还没结束,后面还要写内容"。这种做法叫做"后缀锚点"(suffix anchor)——在回答区域临近结尾处预先填入一段固定的短语,例如在数学推理题中放入"The answer is"(答案是),或者在代码生成任务中放入`return`关键字。
这个后缀锚点的存在,相当于给模型设置了一个"路标":你必须把内容写到这里,而且这里还在等待答案,所以别轻易停下来。研究结果证实,插入后缀锚点后,模型提前结束生成的现象大幅减少——EOT标记出现的比例从很高的水平显著降低。
然而,后缀锚点又带来了一个新的麻烦。研究团队发现,**锚点周围的几个位置会产生异常高的置信度**,导致模型在生成前面内容之前,就急着先把锚点附近的答案位置揭开了。
回到拼图的比喻:后缀锚点就像在拼图的右下角提前放了几块样板,告诉你"最终这里应该长这个样子"。结果你看到右下角有了参照,反而急着往右下角填拼块,把左边大片空白的区域都晾在那里没填——可左边内容才是整幅图的主体,右下角的答案没有左边的背景根本说不通。
研究团队用数据证明了这一点:在解码过程的最初15%的步骤里,被揭开的位置有一个显著的集中趋势,大量集中在后缀锚点附近。而此时整个推理过程才刚刚开始,前面的推导内容几乎还是空白。于是,在"根据不完整推理过程得出的高置信度答案"的驱使下,模型输出了一个看起来很有把握、实则错误的结论。
论文给出了一个具体案例:同样是那道关于网球的题目,加了后缀锚点之后,模型确实写完了整个推理过程,但在推理还没写完的中途,靠近"The answer is"的位置就被过早揭开,填入了一个错误的数字"9",而正确答案应该是"10"。模型说得很流畅,态度很自信,偏偏算错了。
五、真正的解决方案:让自信心随着进度"解冻"
认清了这两个陷阱之后,研究团队提出了一套名为"带后缀锚点的置信度调制"(Suffix-Anchored Confidence Modulation,简称SACM)的方法。这套方法由两个部分组合而成,协同工作。
第一个部分是保留后缀锚点。尽管后缀锚点会带来局部过度自信的问题,但它减少EOT提前出现的效果非常显著,是值得保留的基础设施。研究团队还发现,后缀锚点的具体内容其实并不关键——不管是完整的"The answer is"、还是一个简单的句号"."、甚至只是一个逗号",",都能起到类似的引导效果。本质上,后缀锚点的作用是给模型一个"这里还没结束,继续写"的信号,而不是规定一个固定的输出模板。
第二个部分才是这套方法最核心的创新:**置信度调制**(confidence modulation)。这个机制的工作原理是:在解码的早期阶段,人为压低后缀锚点附近位置的置信度,让这些位置即使模型自己觉得很有把握,在位置选择的竞争中也排在后面;随着解码的进度推进,这种人为压低的幅度逐渐减少,到了解码的后期,锚点附近的置信度就恢复为模型的原始估计值。
用一个更具体的比方来理解这个机制:假设你在做一道需要长篇推导的数学题。在你刚刚动笔的时候,即使你隐约感觉到答案可能是某个数字,你也不应该马上写上最终答案——因为推导还没完成,这种"感觉"并不可靠。等到你的推导写了七八成,前面的步骤逻辑清晰,那个"答案感觉"才真正有了依据,这时再写上去才是合理的。置信度调制做的,就是在解码早期"按住"锚点附近的高置信度,让它等到推导过程充分展开之后再发挥作用。
这套机制涉及三个可调节的参数:控制压制范围空间衰减速度的κ(读作"kappa"),控制整体压制力度的β(读作"beta"),以及控制压制程度随进度恢复快慢的γ(读作"gamma")。研究团队发现,这些参数的取值在一个较宽的范围内都能保持稳定的效果,不需要精细调节,也可以在一个任务上调好之后直接迁移到没有验证集的其他任务使用。
整套方法的实现几乎不需要改动模型本身的任何内部参数,也不需要额外的辅助模块或架构改动,可以直接"插入"到现有的置信度解码框架中使用。
六、实验结果:数字说明问题
研究团队在多个基准测试上验证了这套方法的效果,覆盖了文字推理、视觉语言推理和代码生成三大类任务,使用的模型包括LLaDA 8B-Instruct、Dream 7B-Instruct和LaViDa-Instruct。
在文字推理领域,以LLaDA模型搭配顶级概率解码策略为例:不加任何修改的基础版本,在GSM8K小学数学题测试集上的正确率只有14.94%——这意味着大多数题目都因为提前截断而没有给出完整回答。加入后缀锚点之后,正确率跳升至49.89%。再加上置信度调制,正确率进一步提升至76.88%。这是一个从"基本失效"到"表现合格"的巨大跨越,而整个过程中模型的参数一个都没有改变。
换成顶级边际解码策略,同样的进步轨迹也在发生:基础版本14.78%,加后缀锚点56.18%,再加调制72.33%。在MATH-500(更难的数学题集)、StrategyQA(常识推理)和MMLU-Pro(多领域知识问答)上,也都能看到类似的逐步改善。综合四个文字推理测试的平均分,LLaDA在顶级概率解码下从21.11%提升到53.88%,在顶级边际解码下从23.98%提升到51.07%。Dream模型在相同框架下也有类似幅度的提升。
在视觉语言推理任务上,LaViDa模型在MathVista(图片数学题)和ChartQA(图表问答)两个测试集上同样受益。以顶级概率解码为例,两个测试的平均正确率从25.56%提升到40.26%;ChartQA单项从24.12%跃升至45.92%,涨幅尤为突出。
代码生成方面,LLaDA在HumanEval和MBPP两个编程测试集上,顶级概率解码的平均通过率从18.14%提升到30.67%,顶级边际解码的平均通过率从20.74%提升到31.76%。
七、和其他两种解决方案的对比
研究团队还特意将自己的方法与两种现有的替代方案进行了对比,结果更清晰地展示了这套方法的优势所在。
第一种替代方案是"显式EOT抑制"——也就是直接把EOT标记的置信度强制设为负无穷,让它在任何情况下都不可能被选中。这种做法类似于直接把"全文完"这个词从助手的词汇表里删掉,强迫他必须一直写下去。这确实能解决提前结束的问题,效果也比基础版本好得多,但研究团队的方法在几乎所有测试上都超过了它。而且,显式EOT抑制有一个根本性的缺陷:它永远无法在恰当的时候自然结束,而本文的方法并不直接干预EOT标记,只是通过结构性引导让模型自然地完成回答。
第二种替代方案是"半自回归解码"(semi-autoregressive decoding),这种方法把完全并行的生成方式改为分块从左到右,每块内部并行,但块与块之间严格按顺序进行。这种做法保留了部分并行性,但牺牲了完全并行带来的灵活性。
最能体现两者差距的是在解码步骤受限的情况下。当总步骤数只有32步(相当于每一步要同时揭开许多个位置)时,研究团队的方法在GSM8K上达到了57.70%的正确率,而最好的半自回归配置只有36.32%。这意味着在快速生成(步骤少)的场景下,完全并行的扩散解码本来应该有优势,但之前被EOT过度自信和锚点局部过度自信拖累了,而这套方法成功释放了这种并行优势。
在计算效率方面,研究团队测量了加入后缀锚点和置信度调制后的吞吐量(每秒生成的词数)和延迟(每个样本的处理时间)。结果显示,三种配置的吞吐量都在25个词/秒左右,延迟都在10.2秒/样本左右,几乎没有任何额外开销。这套方法在不牺牲速度的前提下实现了大幅的质量提升。
八、这套方法有没有局限性
研究团队在论文中诚实地描述了这套方法的边界。其一,这是一种推理阶段的修正机制,它能做的是优化"在哪个位置先揭马赛克"这个决策,但它无法弥补模型本身知识储备或推理能力的不足——如果模型就是不知道答案,再好的解码策略也没用,错误来自"猜错了"而不是"太早写答案了"。
其二,这套方法在实验中使用的都是固定位置的固定后缀锚点。虽然消融实验(控制变量测试)表明,不同的锚点内容和不同的锚点位置都能在一定范围内保持效果,但最优的锚点形式和位置可能随任务类型和输出格式有所不同,研究团队认为未来可以探索自动选择锚点的方法。
其三,这套方法目前只在英文的推理和代码任务上进行了验证,多语言任务和更多样的多模态场景还有待进一步探索。
说到底,这项研究解决的问题,是一种特别值得关注的AI失效模式:不是因为不知道,而是因为**太早相信自己知道了**。扩散语言模型在生成方式上具有传统语言模型无法实现的并行灵活性,但这种灵活性本身要求系统必须有更精妙的机制来管理"现在是不是该写这个位置"的判断。EOT过度自信和后缀锚点引发的局部过度自信,都是"置信度信号失真"的不同表现形式。
研究团队提出的这套方案,核心思想是用一个极其轻量的干预——在时间维度上动态调整置信度的权重——来纠正这两类失真,既不需要重新训练模型,也不需要改变模型的架构,只是在解码决策的环节加了一层"冷静期"机制。对于正在快速发展的扩散语言模型领域,这提供了一个值得关注的角度:提升生成质量,有时候不需要更强大的模型,只需要更明智的决策逻辑。
有兴趣深入了解这项研究的读者,可以通过arXiv编号2605.28181查阅完整论文,原文包含了详细的算法描述、完整的消融实验数据以及多个可视化的解码过程分析案例。
---
Q&A
Q1:扩散语言模型和ChatGPT那类模型有什么不同?
A:ChatGPT类模型是从左到右一个词一个词地生成文字,必须按顺序来。扩散语言模型则不同,它一开始把所有位置都"打码",然后通过多轮处理同时揭开多个位置的内容,不需要严格按顺序。这种并行处理方式速度潜力更大,但也带来了"先揭哪个位置"的新问题。
Q2:后缀锚点是什么,为什么单独用它还不够?
A:后缀锚点是在回答区域快结尾处预先插入的一小段提示词,比如"答案是",目的是告诉模型还没说完、不要提前停止。它能有效减少模型过早结束生成的情况,但也会让锚点附近的位置产生异常高的置信度,导致模型在推理还没写完的时候就急着填入答案,结果答案往往是错的。所以光靠后缀锚点还不够,还需要配合置信度调制来抑制这种过早填答的冲动。
Q3:置信度调制方法需要重新训练AI模型吗?
A:完全不需要。置信度调制只在推理阶段起作用,它不改变模型的任何参数,只是在每一步决定"揭哪个位置"时,对锚点附近的置信度分数进行临时调整。整套方法可以直接插入到现有解码流程中使用,对计算速度几乎没有影响。
好文章,需要你的鼓励
本文介绍了弗莱堡大学等机构提出的3D-SC框架,通过引入三维基础模型的几何先验,无需人工标注即可解决AI图像匹配中的左右混淆和重复部件分不清的问题。
这项来自诺基亚贝尔实验室与巴黎理工学院的研究提出了In-Writing框架,让大语言模型先自由推理、再套用格式约束,准确率最高提升27%。
KAIST与MIT研究发现,RLHF对齐训练存在"对齐篡改"漏洞:当AI生成的偏见回答与高质量回答相关联时,对齐流程会反向放大偏见,现有缓解方法均未能有效解决这一结构性缺陷。
这项研究提出Skill0.5框架,通过区分通用技能(内化进参数)和特定技能(动态外置使用),配合难度感知路由和反走捷径机制,显著提升AI智能体在未见新任务上的泛化表现。