
这项由浙江大学与HomologyAI联合开展的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.30219,感兴趣的读者可通过该编号查询完整论文。
你有没有试过跟AI助手聊一个复杂的问题,聊着聊着发现它把之前说过的条件"忘了",或者被你随口一句"我觉得应该是这个答案"就带偏了方向?这种体验让人抓狂,却也指向了一个AI领域长期未被系统研究的问题:大型语言模型在长对话中,究竟有没有能力始终如一地追踪证据、维护一个"正确的认知状态"?
浙江大学的研究团队把这个问题正式化为一项叫做"情境信念管理"(Contextual Belief Management,简称CBM)的研究课题。他们不仅定义了问题,还设计了一整套测试工具,并发现即使是目前最先进的AI模型也会在这方面频频失手。更重要的是,他们找到了一种有效的改进方案。
一、AI为什么需要"信念管理"?
要理解这项研究在做什么,先考虑一个日常场景。你在和一个经验丰富的侦探合作,一起根据案件现场的线索推断嫌疑人。侦探的职责是:每发现一条新线索,就更新嫌疑人名单;如果之前的线索被证明是错的,就修正名单;如果旁边有人插嘴说"我猜是张三干的",侦探应该忽略这种没有证据支撑的猜测,专注于实际证据。
这套能力听起来理所当然,但对AI来说远比想象的难。现代的大型语言模型在单轮对话里表现出色,但随着对话轮次增加,它们面对的是一个不断膨胀的信息流,其中既有真正的"案件线索"(正式证据),也有各种无关的干扰信息(任务无关噪声)。模型需要时刻保持一份"当前可信的嫌疑人名单",既不能无缘无故地删除已经确认的嫌疑人,也不能因为有人随口一说就加入新的嫌疑人。
研究团队把模型在每一轮对话中维护的这份名单称为"预测信念状态",而根据已有证据推导出的正确名单称为"oracle信念状态"(可以理解为"标准答案名单")。CBM的核心目标就是:让模型的预测名单,在对话的每一个时刻都和标准答案名单保持一致。
二、三种"侦探失职"的方式
研究团队识别出了AI模型在信念管理方面会犯的三类典型错误,这三类错误就像侦探的三种失职行为。
第一种失职叫做"坚守失败"(Failed Stay)。标准答案名单没有变化,因为没有新的实质性证据出现,但模型却莫名其妙地改变了自己的判断,把原本确认无嫌的人重新列为嫌疑人,或者把已经确认的嫌疑人悄悄划掉。这就像侦探在没有任何新线索的情况下,突然改口说"我觉得之前的判断不对了"。
第二种失职叫做"更新失败"(Failed Update)。这次有新的实质性证据出现了,标准答案名单也确实应该改变,但模型却视而不见,依然坚持旧的判断。打个比方,侦探已经收到了证明之前某条线索是错误的通知,却还在用那条错误线索排查嫌疑人。
第三种失职叫做"隔离失败"(Failed Isolation)。旁边有人插嘴说了一句无关紧要的话,比如"专家说肯定是李四干的",侦探本应无视这种没有实际证据支撑的说法,但模型却被这句话影响,改变了自己的嫌疑人名单。这类错误反映的是AI对无关社会压力的抵抗能力不足。
三、BeliefTrack:给侦探设计的专业考场
为了把这三类失职量化地测出来,研究团队设计了一个名为BeliefTrack的封闭式测评系统。之所以要用"封闭式",是因为在开放式的问答场景里,模型的错误可能来自它本身的知识储备不足,而不是信念管理能力的问题——就像不知道某个领域的侦探,自然无法判断线索是否有效。BeliefTrack的设计则完全剥离了这个干扰因素。
BeliefTrack包含两个完全虚构的推理场景。第一个叫做"规则发现"(Rule Discovery),改编自心理学中著名的"2-4-6范式"实验。在这个场景里,模型面对一个有限的候选规则集合,比如"三个数按升序排列"、"三个数之和大于10"等,每一轮对话会给出一个数字三元组和它对应的"YES/NO"标签,模型需要维护一份"与目前所有证据都相符的规则清单"。第二个场景叫做"电路诊断"(Circuit Diagnosis),模型面对一组可能的电路故障(比如电池无输出、某电阻断路等),每一轮对话会提供一条仪器读数,模型需要维护"与所有读数相符的故障清单"。
两个场景的共同特点是:候选项有限、正确答案可以用符号逻辑精确验证,因此不需要人工打分,系统自动就能判断每一轮模型的输出是否与标准答案完全吻合。研究团队基于这两个场景,分别生成了三类诊断数据集,专门测试前面提到的三种失职行为,总共生成了数千条测试轨迹。
四、连最聪明的AI也"栽了"
在正式实验开始之前,研究团队就做了一个小规模的预研究,用Qwen3.5-Plus、DeepSeek-V3.2和GPT-5.2三款当前最顶尖的AI模型,在135个规则发现样本上做了测试。结果相当触目惊心:错误率分别高达46.7%、31.9%和20.0%。换句话说,即便是GPT-5.2这样的旗舰模型,每五次对话也有一次会在信念管理上出错。
正式实验选用了Qwen2.5-7B-Instruct和Qwen3.5-9B两款开源模型,系统地测试了三类失职行为。Qwen2.5-7B的表现最为惨烈,在两个场景下,三项失败率全部徘徊在97%到99%之间,几乎可以认为完全没有有效的信念管理能力。Qwen3.5-9B情况稍好,但在电路诊断场景下的"隔离失败率"仍然高达95.4%,意思是几乎每次遇到无关噪声,模型都会被干扰到。
五、提示词有用,但用处有限
面对这种情况,最直观的改进思路是:既然模型不知道该怎么管理信念,那就在系统提示词里把规则说清楚,告诉它"只关注正式证据,无视无关信息,每次收到新证据就重新评估所有候选项"。研究团队把这种方法称为BT-Prompt(信念追踪提示),把这套规则以固定文本的形式注入到每一次对话的系统提示中。
结果是有一定帮助的,但非常不稳定。在某些设置下,Qwen2.5-7B的某些失败率确实有所下降,比如电路诊断场景下的"坚守失败率"从99%降到了48%。但在另一些设置下,BT-Prompt甚至会反向劣化表现——Qwen3.5-9B在规则发现场景下的"更新失败率"反而因为加了提示词而上升了15%,坚守失败率也上升了将近10%。
这个发现很耐人寻味:仅仅告诉模型"你应该这样做",模型并不一定就能做到,有时候甚至弄巧成拙。这说明信念管理能力的欠缺,并不只是"不知道规则"的问题,而是更深层的行为模式问题。
六、强化学习:让模型真正"学会"当一个好侦探
真正有效的改进来自强化学习(Reinforcement Learning)。研究团队使用了一种叫做GRPO的训练算法,给模型设计了一个基于"信念状态对齐程度"的奖励机制。具体来说,每当模型给出一个预测信念状态,系统就用Jaccard相似度来计算它和标准答案之间的重叠程度,重叠越多,奖励越高;完全一致,则获得满分奖励。
这种奖励有一个巧妙的设计:它不是非黑即白的。如果模型猜测的清单和标准答案只差一个候选项,它仍然能得到部分奖励;而如果猜的完全不对,则得不到任何奖励。这比简单的"对就满分、错就零分"的设计更能引导模型逐步改进。研究团队把这种奖励与更粗糙的完全匹配奖励做了对比实验,发现精细化的Jaccard奖励在六项评估指标中有五项优于完全匹配奖励,平均失败率能进一步降低约10到13个百分点。
训练时,研究团队刻意只使用了"坚守"和"更新"两类数据,完全没有让模型看到任何含有噪声的"隔离"训练样本。这样做是为了测试:在强化学习后,模型的改善究竟是背了题还是真的学会了能力。
七、结果令人眼前一亮
实验结果显示,强化学习在所有设置下都带来了大幅改善。对于Qwen2.5-7B而言,在规则发现场景下训练后,坚守失败率从99%骤降至0%,更新失败率从98%降至2%。在电路诊断场景下训练后,两项失败率同样都降到了0%。
更有说服力的是跨场景的泛化能力。只在规则发现场景下训练的Qwen2.5-7B,拿到电路诊断场景的测试题时,坚守失败率降低了93.9%,更新失败率降低了71.1%——这说明模型学到的并不是特定场景的"答题套路",而是一种通用的证据追踪能力。
对于从未见过噪声样本的"隔离失败"测试,强化学习同样带来了显著改善。规则发现场景内的隔离失败率降低了79.4%,跨场景到电路诊断也降低了63.9%。这意味着,训练好证据追踪能力之后,模型自然也变得更不容易被无关的干扰信息带偏。
同时,研究团队也验证了这些改善不是以牺牲通用能力为代价换来的。在经典的MMLU知识测试和GSM8K数学推理测试上,经过强化学习训练的模型与原始模型几乎不相上下,得分波动都在统计误差范围内。
八、越往后越难,越晚越难改
研究团队还深入分析了信念管理失败会在哪些情况下变得更严重。第一个维度是时间深度。他们在测试中逐渐增加"冗余证据的数量",也就是在模型应该坚守当前信念的阶段,不断给它喂更多重复但一致的信息,观察坚守失败率的变化。结果显示,随着冗余深度增加,原始模型和提示词增强的模型的坚守失败率都在攀升,说明"需要稳守的时间越长,越容易失守"。强化学习训练后的模型则相对平稳,对这种时间压力表现出明显更强的抵抗力。
另一个维度是修正延迟。当一条错误的证据被纠正的时间越晚,也就是错误信息在对话历史里停留的时间越长,模型就越难完成更新。原始模型在修正延迟增大时,更新失败率急剧上升,而强化学习模型的失败率则保持在较低水平。
对于噪声干扰,研究团队设计了三种不同类型的干扰话术。"迎合型噪声"会夸奖你的判断,比如"你对某假设的直觉完全正确";"权威型噪声"会以确定的语气断言一个错误的答案,比如"证据清楚地表明正确答案是X";"压力型噪声"则通过紧迫感施压,比如"时间紧迫,快做决定"。实验发现,权威型噪声造成的干扰最大,迎合型次之,压力型最小但也有一定影响。强化学习训练后的模型对三种噪声都有更强的抵抗力,且这种抵抗力是在完全没有接触过噪声训练样本的情况下习得的。
九、模型内部发生了什么?
除了测量外部行为,研究团队还用两种方式探索了信念管理失败背后的内部机制。
第一种方法是"提示探测"。在对话的某个关键时刻,研究人员临时打断对话,要求模型对所有候选假设进行排序,然后观察正确的候选假设在排名中的位置变化。他们发现,原始模型的错误往往有两种来源:一是"信念漂移",即在没有新证据的情况下,正确候选假设的排名悄悄下滑,模型内部对它的"重视程度"在降低;二是"回溯失败",即在证据被纠正后,那些本应重新上榜的候选假设,其排名迟迟无法恢复;三是"上下文劫持",即噪声信息会将正确候选假设的排名拉低,模型被噪声"抢占了注意力"。经过强化学习训练的模型在这三个方面都有明显改善,正确候选假设的排名更加稳定。
此外,研究团队还发现了一个"潜在输出鸿沟":有时候模型在内心排名里把正确的候选假设排在第一位,但最终输出的答案里却没有包含它——就像侦探内心已经认定了嫌疑人,却在最终报告里漏掉了他的名字。强化学习能够减少这种内部认知和外部输出之间的不一致。
第二种方法是"表征引导"。研究团队发现,经过强化学习训练的模型,在处理信念管理任务时,其神经网络的内部状态(即"隐藏状态")与原始模型有系统性的差异。他们计算出这个差异的方向向量,然后在测试时把这个方向向量直接叠加到原始模型的内部状态上,不改变模型的任何参数,只是"推一把"它的内部表征。结果令人印象深刻:在规则发现场景中,坚守失败率降低了78.6%,更新失败率降低了92.3%,隔离失败率降低了48.8%;在电路诊断场景中,三项也分别降低了20.7%、23.5%和12.8%。这说明强化学习带来的改变是实实在在地刻入了模型的"神经回路",而这种回路的变化是可以被提取和迁移的。
归根结底,这项研究告诉我们一件很朴素的事:让AI在长对话中可靠地追踪证据、管理自己的认知状态,并非一件"加几行提示词就能搞定"的小事,而是需要系统性训练的核心能力。
就像一个真正好的侦探,不是靠背诵"办案手册"就能练成的,而是需要通过大量真实案件的磨砺,才能形成那种在嘈杂信息中锁定关键线索、在压力下不动摇的本能。强化学习在这里扮演的,正是"实战训练"的角色。
更值得关注的是,这项能力一旦习得,似乎具有相当强的迁移性——在一种场景下训练出的好侦探,换到完全不同的案件类型里,依然能保持相当的专业水准。这对未来AI系统的设计和训练来说,是一个非常鼓舞人心的信号。
当然,这项研究也有其局限。BeliefTrack的两个场景都是人为设计的封闭式环境,现实中的对话远比这复杂——用户的一句话可能同时包含有效的修正、无关的情感表达和模糊的意图,边界远没有那么清晰。如何在过滤噪声的同时,不把真正有价值的用户反馈也挡在门外,是未来研究需要继续探索的方向。
有兴趣深入研究这个课题的读者,可以通过arXiv编号2605.30219查阅完整论文,研究团队的代码也将开源于github.com/zjunlp/CBM。
Q&A
Q1:大型语言模型的"信念管理失败"在实际使用中会怎么表现?
A:具体来说可能有几种情况:你跟AI说了一个前提条件,聊了几轮之后它好像"忘了"那个条件,给出与之矛盾的答案;或者你明确纠正了它之前说错的信息,但它仍然在后续回答中沿用那个错误信息;再或者你随口表达了一个倾向性意见,它就顺着你说,而不是坚守证据本身。这三种表现分别对应论文中的"坚守失败"、"更新失败"和"隔离失败"三类问题。
Q2:BeliefTrack和普通的AI评测基准有什么不同?
A:大多数AI评测基准测的是模型"知不知道某个答案",但BeliefTrack测的是模型"能不能在对话过程中始终维护正确的推理状态"。它特别设计了封闭式的推理场景,所有证据都由系统提供,不依赖模型的预训练知识,因此可以精确区分"因为不知道答案而出错"和"因为信念管理能力不足而出错"这两种完全不同的失败原因。
Q3:强化学习训练后的模型,为什么对从未见过的噪声类型也有抵抗力?
A:研究团队认为,强化学习并没有让模型死记硬背"遇到某种噪声就忽略它",而是真正强化了模型追踪证据的内在能力。当一个模型真正学会了"只依赖正式证据做判断",它自然就不会被各种形式的无关信息干扰,无论这种干扰是来自权威压力、迎合赞美还是时间紧迫感。表征引导实验进一步证实了这一点,说明这种能力的改变是深层次的神经网络表征变化,而非表面的行为调整。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。