
这项由牛津大学托尔视觉研究组与香港中文大学(深圳)联合开展的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.25893,感兴趣的读者可通过该编号查阅完整原文。
说起聊天机器人,大多数人脑海里浮现的是GPT、Claude这类产品——你问一句,它回一句,像一问一答的接力赛,下一个词永远接着上一个词往后说。然而,近几年一种全新的文字生成方式正在悄然兴起,它的工作方式更像是在黑板上写字然后反复擦擦改改,直到一篇完整的文章清晰呈现,这就是"扩散大语言模型"(Diffusion LLM,下文简称D-LLM)。
这种新型模型在速度上展现出惊人的优势。以商业产品Mercury 2为例,它每秒可以生成1009个字符,而同期的Claude Haiku 4.5只有89个,GPT-5-mini只有71个——差距几乎是十几倍。开源领域,LLaDA 2.0已经把参数规模推到了1000亿,性能直逼顶级的传统模型。换句话说,D-LLM正在从"有趣的实验"走向"真实的威胁和机遇"。
然而,越强大的工具,被滥用的风险也越大。研究人员发现,这类新型模型在安全防护方面几乎还是一片空白。现有的安全监测手段基本都是为传统的"接龙式"模型设计的,完全无法发挥D-LLM最独特的优势——那一步步"擦改"的中间过程。正是看到了这片空白,牛津大学与港中大(深圳)的研究团队决定专门为D-LLM设计一套安全监测系统。他们的成果就是本文要介绍的核心:D?-Monitor。
一、黑板擦改的秘密:扩散模型的中间过程究竟藏着什么
要理解D?-Monitor的聪明之处,首先要弄清楚D-LLM到底是怎么"写字"的。
传统的语言模型,好比一位作家在稿纸上一个字一个字往右写,写下去的字就不再改动。D-LLM的工作方式截然不同:它先把一张稿纸涂得漆黑,每一个位置都是一团墨水,然后经过许多步骤,每一步都小心地擦去一些墨水、让部分文字逐渐显现,直到最后一张清晰的文字呈现在纸上。这个从全黑到清晰的过程,就是"去噪轨迹",每一步都留下了一个中间状态。
研究团队提出的核心问题是:这些中间状态,是否包含着有关"这段文字是否有害"的信号?
为了回答这个问题,他们设计了一个对比实验,分别用两种方式来判断一段输入是否有问题:第一种是只看最后一步的结果,就像只检查作家最终交出来的稿子;第二种是把整个擦改过程都看进去,就像同时审阅每一稿草稿。实验结果表明,在绝大多数情况下,把完整的擦改过程纳入考虑,判断准确率都明显高于只看最终结果。这说明那些中间步骤确实包含着独特的安全信号,是值得挖掘的宝贵信息。
正因如此,研究团队决定在完整轨迹的基础上构建安全监测器,而非仅仅依赖最终输出。这个决定为后续一切精妙设计奠定了基础。
二、模型也会"犹豫":当安全探针在黑板前来回摇摆
有了完整轨迹这把钥匙,研究团队开始深入分析:轨迹中哪些步骤最关键?
他们的做法是在D-LLM上安装一个轻量级的"安全探针"——可以把它理解为一位手拿尺子的检查员,专门站在黑板前,每当模型擦出一步新的状态,检查员就用尺子量一量:这个状态距离"安全"和"危险"的分界线有多远?这个距离,研究者称之为"边距"。
正常情况下,边距应该稳定地落在分界线的某一侧——要么稳稳地站在"安全"这边,要么稳稳地站在"危险"那边。然而,研究团队发现,有些输入内容会让检查员反复来回踱步:这一步刚站到"安全"这边,下一步又晃到了"危险"那边,再过几步又晃了回来。这种状态,他们称为"犹豫"(hesitation)。
更具体地说,只要某一步的边距绝对值小于阈值τ,这一步就被标记为"犹豫步"。一条轨迹中犹豫步的数量,被称为"犹豫严重度",用符号nτ表示。
研究团队接着问了一个关键问题:犹豫严重度越高的输入,是不是越难被正确判断安全性?答案是肯定的,而且效果出乎意料地好。当他们把所有测试输入按照犹豫步数量分成若干组,发现犹豫步为零的那组(也就是全程稳定、没有来回摇摆的输入),安全探针的判断准确率高达约90%;而犹豫步很多的那组,准确率可能直接跌到55%到77%,差距高达约30个百分点。
这个发现具有重要意义:犹豫严重度是一个非常有效的"难度预测器",它能准确告诉你,哪些输入是轻而易举能判断的,哪些输入需要格外谨慎。
与此同时,研究团队还对比了另外两种来自模型本身(而非探针)的不确定性信号——基于词语预测概率的"熵"和"置信度"。结果发现,这两种信号虽然也有一定预测能力,但远不如探针边距来得精准。原因其实不难理解:熵和置信度衡量的是模型对自己生成内容的把握程度,而边距直接衡量的是探针对安全判断的把握程度,两者关注的层次不同,后者更直接指向了我们真正关心的问题。
三、不同寻常的分级:为什么简单地"犹豫/不犹豫"还不够
在确认犹豫是有效信号之后,研究团队还做了一步更细致的分析,这步分析最终让整个系统变得格外高效。
一种简单的做法是:只要有任何一步出现犹豫,就把这条输入标记为"困难"。这就像老师批改试卷,只要有一道题答错了,就把整张卷子归为"不及格"。
然而,研究团队发现这种简单分法太粗糙了。他们注意到,只有一步或两步轻微犹豫的输入,和犹豫步骤多达十几步甚至二十几步的输入,在实际判断难度上相差悬殊——前者的判断准确率可能接近"完全没有犹豫"那组,而后者才是真正棘手的情况。如果把它们一刀切地都叫做"困难",那就会大量"误判"许多其实不那么难的输入,浪费计算资源。
这就像用温度来衡量是否需要穿外套。简单说"冷就穿"不够准确,因为15度和5度的"冷"差别很大。精确的犹豫严重度nτ,相当于一个精确的温度计,能给出从0到S(总步数)的连续刻度,让系统能更聪明地分配资源。
四、双层防守:D?-Monitor的工作机制
有了以上所有发现,研究团队提出了D?-Monitor——一个双层的安全监测框架,核心理念是"因材施策,聪明分工"。
整个系统有三个部件:一个轻量级的基础探针,一个路由器,以及一个功能更强但更耗资源的高级探针。
每当有新的输入进来,轻量级基础探针首先开始工作。它的运转几乎不消耗什么计算资源,可以一直开着,永不关闭,就像门口的保安——每个人都要先过这一关。基础探针在检查每一步擦改结果的同时,自动统计这条输入轨迹的犹豫严重度nτ。
统计结束后,路由器登场。它把nτ与预先设定的门槛λ作比较:如果nτ不超过λ,说明这条输入比较"好判断",基础探针的结论就直接作为最终答案输出,无需额外处理。如果nτ超过了λ,说明这条输入比较棘手,路由器就把它转交给高级探针进行第二轮深度审查。
这种安排在现实中非常合理。绝大多数日常输入都是清清楚楚的——要么明显安全,要么明显有问题。这些输入只需要轻量级的基础探针处理,效率极高。只有那些刻意设计过、语义模糊、甚至带有攻击性意图的输入,才会触发高级探针。
高级探针也有两个版本供选择:一个是两层的多层感知机(MLP),另一个是带有时序注意力机制的时间注意力探针(TimeAttn)。这两种版本的参数量相近,提供了灵活的配置空间。
值得一提的是,高级探针并不是处理完整的擦改轨迹,而是专注于"犹豫窗口"——也就是从第一步犹豫到最后一步犹豫之间的那段连续区间。这就像医生不需要对全身做CT扫描,只需要精准对准可疑区域做局部检查,大大降低了计算成本。
五、如何让高级探针学会识别棘手情况
系统的训练过程同样颇具巧思,研究团队没有简单地把所有数据堆给高级探针去学,而是专门为它挑选训练材料——只有那些被基础探针标记为"犹豫"的训练样本,才会被用来训练高级探针。
为了保证这个挑选过程的公正性,研究团队使用了一种叫做"折外评分"(Out-of-Fold scoring,OOF)的技术。具体来说,训练数据被分成k份,每次用其中k-1份训练一个临时的基础探针,再用这个探针对剩下那份打分。如此轮换,直到每一条训练样本都被没见过它的探针评过分。这样做的好处是,每条样本的"犹豫分数"都是在公平条件下计算出来的,没有"考试前偷看了答案"的嫌疑,保证了训练过程的客观性。
所有步骤完成后,系统就进入实际使用阶段:基础探针用全部训练数据从头训练一遍,高级探针只用犹豫样本的犹豫窗口内的数据训练。两者各司其职,共同构成双层防线。
六、测试结果:比对手更准确,还比大多数对手更轻量
研究团队在三个公开的安全数据集上对系统进行了全面测评,分别是WildGuardMix(包含约8.68万条训练样本、1700条测试样本,含大量故意绕过安全系统的恶意输入)、ToxicChat(约5000条真实用户与AI对话,带毒性标注)、以及OpenAI-Moderation(1680条样本,涵盖仇恨言论、暴力、自我伤害等八个类别)。测试用到的D-LLM模型共四个:LLaDA-8B-Base、LLaDA-8B-Instruct、LLaDA-1.5以及LLaDA-2.0-mini。
为了体现评测的全面性,研究团队设计了两种测试方式:一是"同数据集"测试,训练和测试用同一数据集;二是"跨数据集"测试,在WildGuardMix上训练,然后直接拿去测ToxicChat和OpenAI-Moderation,看看系统能否应对陌生场景。
与此同时,他们设置了八个基准方法作为对比,涵盖了从最简单的线性探针(只看最后一步)到复杂的LSTM循环神经网络,以及处理全轨迹的时序注意力模型。
在WildGuardMix的同数据集测试中,D?-Monitor的两个变体始终居于榜首。以LLaDA-8B-Instruct为例,D?-MLP取得了89.9%的准确率和89.7%的F1分数,D?-TimeAttn则是89.6%与89.4%,而最接近的竞争对手——使用完整轨迹的TimeAttn——只有87.9%与87.5%,差距约为两个百分点。在ToxicChat上,D?-TimeAttn在LLaDA-8B-Instruct上取得了97.3%准确率和89.9%的F1分数,同样领先所有对手。
跨数据集测试中,D?-Monitor的优势同样明显。在从WildGuardMix迁移到ToxicChat的测试中,D?-MLP在LLaDA-8B-Instruct上达到了90.4%准确率和75.0% F1,而使用更多参数的LSTM只有88.6%与72.0%。
更重要的是效率。D?-MLP的预期参数量最高不超过0.36M(百万参数),相当于一个8B大模型参数量的0.01%。相比之下,TimeAttn需要1.59M参数,LSTM需要2.57M参数,但它们的准确率却低于D?-Monitor。在计算量方面,D?-MLP每条样本只需要约0.7到1.0 MFLOPs,比处理完整轨迹的MLP(Mean)节省2到3倍,比LSTM节省了惊人的35到150倍。推理速度上,D?-MLP比MLP(Mean)快2.4到6.6倍,D?-TimeAttn比TimeAttn快4到5倍。
如果用一个简单的比喻来描述这个效率-效果关系:其他方法就像驾驶一辆耗油的越野车去绕远路,而D?-Monitor则像骑一辆电动自行车走近道,不仅快得多,还省力得多,到终点时却反而比越野车先到。
七、稳健性验证:三种极端情况下的表现
研究团队还专门测试了系统在非标准条件下的表现,这是衡量一个监测系统是否真正可用的重要指标。
第一个测试维度是生成参数的变化。D-LLM在实际部署时可能使用不同的"生成长度"(一次生成多少字符)和"步数"(擦改多少轮)。研究团队把系统训练在生成长度128、步数4的配置下,然后在不改变系统的前提下,测试步数从1到8变化、生成长度从16到128变化的各种组合。结果显示,D?-Monitor在所有这些变化配置下都稳定领先于所有基准方法,没有出现明显的性能下滑。
第二个测试维度是重新遮掩策略。D-LLM在擦改过程中,每次保留哪些位置、重新遮掩哪些位置,有不同的策略选择:可以随机决定,可以根据预测置信度决定,也可以根据信息熵决定。系统在"低置信度遮掩"策略下训练,然后直接在"熵遮掩"和"随机遮掩"策略下测试。D?-Monitor依然表现最佳,表明其背后的"犹豫"信号是一种深层的、不依赖于具体遮掩方式的内在属性。
第三个测试维度是随机种子的稳定性。研究团队使用了五个不同的随机初始化种子重新训练所有方法,发现D?-Monitor的结果标准差极低,每次都能复现领先性能,验证了结果的可重现性。
八、一个意外但重要的发现:高级探针专门"接待"恶意输入
在深入分析路由机制时,研究团队发现了一个格外引人深思的规律。
WildGuardMix数据集中,有约47%的样本来自"对抗性"分类——这些是研究者专门设计的、用来刻意绕过安全检测的恶意输入,通常语义比普通有害内容更模糊,更难被识别。
研究团队统计了不同犹豫严重度nτ对应的输入中,对抗性样本所占的比例。结果显示,在nτ=0(完全不犹豫)的那组里,对抗性样本只占38%到46%,低于数据集整体平均水平;而随着nτ增大,对抗性样本的比例单调上升,在最高犹豫程度的那组中,对抗性样本比例高达67%到89%。
这个规律跨越三个不同版本的LLaDA模型保持一致,说明这不是某个特定模型的偶然现象,而是"犹豫"这个信号本身所具有的内在性质。
从路由角度来看,被发送给高级探针处理的那些输入中,对抗性样本的比例极高:LLaDA-8B-Base上D?-MLP路由到高级探针的样本中有86.3%是对抗性输入,LLaDA-8B-Instruct上是71.6%,LLaDA-1.5上是60.8%。相比整体47%的基准比例,提升非常显著。
这意味着D?-Monitor并非盲目地把"随机的一部分困难样本"交给高级探针,而是有选择性地把最可能由恶意攻击者精心设计的那些输入送去深度检查。在实际部署中,这就相当于系统自动把"可疑人员"识别出来单独盘问,而让普通用户快速通行,资源分配的合理性大为提升。
九、研究的局限性与未来方向
研究团队对自身工作的边界也保持了清醒的认识,并在论文末尾进行了坦诚的讨论。
首先,由于计算资源的限制,目前的实验最大只用到了16B参数规模的D-LLM。研究团队相信,这套方法在更大规模的模型上应该同样适用,但这一点尚未经过直接验证。
其次,正如任何基于内部表示的安全系统都面临的风险,D?-Monitor也可能遭遇自适应攻击——如果一个恶意用户知道这套系统的存在,并且了解它依赖"犹豫步数量"来做路由决策,那么他可能会精心设计输入,使其在擦改轨迹中尽量减少犹豫步,从而避免触发高级探针。研究团队建议在实际部署时,把D?-Monitor与其他互补的防御手段配合使用,并持续监控是否出现新型攻击模式。
归根结底,D?-Monitor代表的是一种思路:利用D-LLM生成过程本身特有的动态信息,而非仅仅依赖最终结果,来构建更精准、更高效的安全防线。这套方法既保留了探针类监测器轻量、可部署的优势,又通过犹豫感知路由机制大幅提升了对困难样本的处理能力。对于正在走向商业化的D-LLM技术来说,这项研究填补了一个真实存在的空白,提供了一套有据可查、性能经过充分验证的解决方案。
说到底,这个研究解决的问题其实很朴实:当一种新型的AI写作方式开始走入实际应用,我们不能直到出现问题才去亡羊补牢,而应该从它独特的工作机制中找到新的安全切入点。那些在擦改过程中反复摇摆、难以判断的"犹豫时刻",恰恰成了理解模型内在不确定性的一扇窗口,也成了构建更聪明防线的钥匙。有兴趣深入了解的读者,可以通过arXiv:2605.25893查阅完整论文。
---
Q&A
Q1:D?-Monitor中的"犹豫步"是指什么?
A:犹豫步是指扩散大语言模型在逐步"去噪"(即从模糊文字变成清晰文字)的过程中,某一步的安全探针给出的"边距"(即距离安全/危险分界线的距离)非常小,也就是探针在这一步拿不准该把输入归为安全还是危险。犹豫步越多,说明整条输入的安全性越难判断。
Q2:D?-Monitor和传统安全监测方法相比有什么不同?
A:传统方法通常只看模型的最终输出,相当于只审阅最终稿。D?-Monitor则利用扩散模型独有的多步擦改轨迹,追踪整个生成过程中安全信号的变化。遇到简单情况只用轻量探针快速处理,遇到犹豫严重的困难情况才激活更强的高级探针,做到有针对性地分配资源。
Q3:D?-Monitor的参数量为什么能做到这么小?
A:D?-Monitor的核心设计是让轻量级基础探针承担绝大多数输入的处理,高级探针只在必要时才被激活,而且高级探针只处理轨迹中的"犹豫窗口"而非完整轨迹。这种按需激活、局部处理的机制,使得整个系统的预期参数量控制在0.85M以内,仅相当于一个8B大模型参数量的0.01%。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。