微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

浙江大学研究团队发现：AI大模型在长对话中会"忘性大发"甚至"随波逐流"，强化学习或许是解药

大语言模型强化学习信念状态追踪

浙江大学研究团队发现：AI大模型在长对话中会"忘性大发"甚至"随波逐流"，强化学习或许是解药

作者：科技行者

2026-06-03 14:35

分享至：

浙江大学研究团队发现，主流大模型在长对话中存在系统性信念管理缺陷，提示词收效甚微，强化学习可将失败率平均降低70.9%。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-03 14:35 • 科技行者

这项由浙江大学与HomologyAI联合开展的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2605.30219，感兴趣的读者可通过该编号查询完整论文。

你有没有试过跟AI助手聊一个复杂的问题，聊着聊着发现它把之前说过的条件"忘了"，或者被你随口一句"我觉得应该是这个答案"就带偏了方向？这种体验让人抓狂，却也指向了一个AI领域长期未被系统研究的问题：大型语言模型在长对话中，究竟有没有能力始终如一地追踪证据、维护一个"正确的认知状态"？

浙江大学的研究团队把这个问题正式化为一项叫做"情境信念管理"（Contextual Belief Management，简称CBM）的研究课题。他们不仅定义了问题，还设计了一整套测试工具，并发现即使是目前最先进的AI模型也会在这方面频频失手。更重要的是，他们找到了一种有效的改进方案。

一、AI为什么需要"信念管理"？

要理解这项研究在做什么，先考虑一个日常场景。你在和一个经验丰富的侦探合作，一起根据案件现场的线索推断嫌疑人。侦探的职责是：每发现一条新线索，就更新嫌疑人名单；如果之前的线索被证明是错的，就修正名单；如果旁边有人插嘴说"我猜是张三干的"，侦探应该忽略这种没有证据支撑的猜测，专注于实际证据。

这套能力听起来理所当然，但对AI来说远比想象的难。现代的大型语言模型在单轮对话里表现出色，但随着对话轮次增加，它们面对的是一个不断膨胀的信息流，其中既有真正的"案件线索"（正式证据），也有各种无关的干扰信息（任务无关噪声）。模型需要时刻保持一份"当前可信的嫌疑人名单"，既不能无缘无故地删除已经确认的嫌疑人，也不能因为有人随口一说就加入新的嫌疑人。

研究团队把模型在每一轮对话中维护的这份名单称为"预测信念状态"，而根据已有证据推导出的正确名单称为"oracle信念状态"（可以理解为"标准答案名单"）。CBM的核心目标就是：让模型的预测名单，在对话的每一个时刻都和标准答案名单保持一致。

二、三种"侦探失职"的方式

研究团队识别出了AI模型在信念管理方面会犯的三类典型错误，这三类错误就像侦探的三种失职行为。

第一种失职叫做"坚守失败"（Failed Stay）。标准答案名单没有变化，因为没有新的实质性证据出现，但模型却莫名其妙地改变了自己的判断，把原本确认无嫌的人重新列为嫌疑人，或者把已经确认的嫌疑人悄悄划掉。这就像侦探在没有任何新线索的情况下，突然改口说"我觉得之前的判断不对了"。

第二种失职叫做"更新失败"（Failed Update）。这次有新的实质性证据出现了，标准答案名单也确实应该改变，但模型却视而不见，依然坚持旧的判断。打个比方，侦探已经收到了证明之前某条线索是错误的通知，却还在用那条错误线索排查嫌疑人。

第三种失职叫做"隔离失败"（Failed Isolation）。旁边有人插嘴说了一句无关紧要的话，比如"专家说肯定是李四干的"，侦探本应无视这种没有实际证据支撑的说法，但模型却被这句话影响，改变了自己的嫌疑人名单。这类错误反映的是AI对无关社会压力的抵抗能力不足。

三、BeliefTrack：给侦探设计的专业考场

为了把这三类失职量化地测出来，研究团队设计了一个名为BeliefTrack的封闭式测评系统。之所以要用"封闭式"，是因为在开放式的问答场景里，模型的错误可能来自它本身的知识储备不足，而不是信念管理能力的问题——就像不知道某个领域的侦探，自然无法判断线索是否有效。BeliefTrack的设计则完全剥离了这个干扰因素。

BeliefTrack包含两个完全虚构的推理场景。第一个叫做"规则发现"（Rule Discovery），改编自心理学中著名的"2-4-6范式"实验。在这个场景里，模型面对一个有限的候选规则集合，比如"三个数按升序排列"、"三个数之和大于10"等，每一轮对话会给出一个数字三元组和它对应的"YES/NO"标签，模型需要维护一份"与目前所有证据都相符的规则清单"。第二个场景叫做"电路诊断"（Circuit Diagnosis），模型面对一组可能的电路故障（比如电池无输出、某电阻断路等），每一轮对话会提供一条仪器读数，模型需要维护"与所有读数相符的故障清单"。

两个场景的共同特点是：候选项有限、正确答案可以用符号逻辑精确验证，因此不需要人工打分，系统自动就能判断每一轮模型的输出是否与标准答案完全吻合。研究团队基于这两个场景，分别生成了三类诊断数据集，专门测试前面提到的三种失职行为，总共生成了数千条测试轨迹。

四、连最聪明的AI也"栽了"

在正式实验开始之前，研究团队就做了一个小规模的预研究，用Qwen3.5-Plus、DeepSeek-V3.2和GPT-5.2三款当前最顶尖的AI模型，在135个规则发现样本上做了测试。结果相当触目惊心：错误率分别高达46.7%、31.9%和20.0%。换句话说，即便是GPT-5.2这样的旗舰模型，每五次对话也有一次会在信念管理上出错。

正式实验选用了Qwen2.5-7B-Instruct和Qwen3.5-9B两款开源模型，系统地测试了三类失职行为。Qwen2.5-7B的表现最为惨烈，在两个场景下，三项失败率全部徘徊在97%到99%之间，几乎可以认为完全没有有效的信念管理能力。Qwen3.5-9B情况稍好，但在电路诊断场景下的"隔离失败率"仍然高达95.4%，意思是几乎每次遇到无关噪声，模型都会被干扰到。

五、提示词有用，但用处有限

面对这种情况，最直观的改进思路是：既然模型不知道该怎么管理信念，那就在系统提示词里把规则说清楚，告诉它"只关注正式证据，无视无关信息，每次收到新证据就重新评估所有候选项"。研究团队把这种方法称为BT-Prompt（信念追踪提示），把这套规则以固定文本的形式注入到每一次对话的系统提示中。

结果是有一定帮助的，但非常不稳定。在某些设置下，Qwen2.5-7B的某些失败率确实有所下降，比如电路诊断场景下的"坚守失败率"从99%降到了48%。但在另一些设置下，BT-Prompt甚至会反向劣化表现——Qwen3.5-9B在规则发现场景下的"更新失败率"反而因为加了提示词而上升了15%，坚守失败率也上升了将近10%。

这个发现很耐人寻味：仅仅告诉模型"你应该这样做"，模型并不一定就能做到，有时候甚至弄巧成拙。这说明信念管理能力的欠缺，并不只是"不知道规则"的问题，而是更深层的行为模式问题。

六、强化学习：让模型真正"学会"当一个好侦探

真正有效的改进来自强化学习（Reinforcement Learning）。研究团队使用了一种叫做GRPO的训练算法，给模型设计了一个基于"信念状态对齐程度"的奖励机制。具体来说，每当模型给出一个预测信念状态，系统就用Jaccard相似度来计算它和标准答案之间的重叠程度，重叠越多，奖励越高；完全一致，则获得满分奖励。

这种奖励有一个巧妙的设计：它不是非黑即白的。如果模型猜测的清单和标准答案只差一个候选项，它仍然能得到部分奖励；而如果猜的完全不对，则得不到任何奖励。这比简单的"对就满分、错就零分"的设计更能引导模型逐步改进。研究团队把这种奖励与更粗糙的完全匹配奖励做了对比实验，发现精细化的Jaccard奖励在六项评估指标中有五项优于完全匹配奖励，平均失败率能进一步降低约10到13个百分点。

训练时，研究团队刻意只使用了"坚守"和"更新"两类数据，完全没有让模型看到任何含有噪声的"隔离"训练样本。这样做是为了测试：在强化学习后，模型的改善究竟是背了题还是真的学会了能力。

七、结果令人眼前一亮

实验结果显示，强化学习在所有设置下都带来了大幅改善。对于Qwen2.5-7B而言，在规则发现场景下训练后，坚守失败率从99%骤降至0%，更新失败率从98%降至2%。在电路诊断场景下训练后，两项失败率同样都降到了0%。

更有说服力的是跨场景的泛化能力。只在规则发现场景下训练的Qwen2.5-7B，拿到电路诊断场景的测试题时，坚守失败率降低了93.9%，更新失败率降低了71.1%——这说明模型学到的并不是特定场景的"答题套路"，而是一种通用的证据追踪能力。

对于从未见过噪声样本的"隔离失败"测试，强化学习同样带来了显著改善。规则发现场景内的隔离失败率降低了79.4%，跨场景到电路诊断也降低了63.9%。这意味着，训练好证据追踪能力之后，模型自然也变得更不容易被无关的干扰信息带偏。

同时，研究团队也验证了这些改善不是以牺牲通用能力为代价换来的。在经典的MMLU知识测试和GSM8K数学推理测试上，经过强化学习训练的模型与原始模型几乎不相上下，得分波动都在统计误差范围内。

八、越往后越难，越晚越难改

研究团队还深入分析了信念管理失败会在哪些情况下变得更严重。第一个维度是时间深度。他们在测试中逐渐增加"冗余证据的数量"，也就是在模型应该坚守当前信念的阶段，不断给它喂更多重复但一致的信息，观察坚守失败率的变化。结果显示，随着冗余深度增加，原始模型和提示词增强的模型的坚守失败率都在攀升，说明"需要稳守的时间越长，越容易失守"。强化学习训练后的模型则相对平稳，对这种时间压力表现出明显更强的抵抗力。

另一个维度是修正延迟。当一条错误的证据被纠正的时间越晚，也就是错误信息在对话历史里停留的时间越长，模型就越难完成更新。原始模型在修正延迟增大时，更新失败率急剧上升，而强化学习模型的失败率则保持在较低水平。

对于噪声干扰，研究团队设计了三种不同类型的干扰话术。"迎合型噪声"会夸奖你的判断，比如"你对某假设的直觉完全正确"；"权威型噪声"会以确定的语气断言一个错误的答案，比如"证据清楚地表明正确答案是X"；"压力型噪声"则通过紧迫感施压，比如"时间紧迫，快做决定"。实验发现，权威型噪声造成的干扰最大，迎合型次之，压力型最小但也有一定影响。强化学习训练后的模型对三种噪声都有更强的抵抗力，且这种抵抗力是在完全没有接触过噪声训练样本的情况下习得的。

九、模型内部发生了什么？

除了测量外部行为，研究团队还用两种方式探索了信念管理失败背后的内部机制。

第一种方法是"提示探测"。在对话的某个关键时刻，研究人员临时打断对话，要求模型对所有候选假设进行排序，然后观察正确的候选假设在排名中的位置变化。他们发现，原始模型的错误往往有两种来源：一是"信念漂移"，即在没有新证据的情况下，正确候选假设的排名悄悄下滑，模型内部对它的"重视程度"在降低；二是"回溯失败"，即在证据被纠正后，那些本应重新上榜的候选假设，其排名迟迟无法恢复；三是"上下文劫持"，即噪声信息会将正确候选假设的排名拉低，模型被噪声"抢占了注意力"。经过强化学习训练的模型在这三个方面都有明显改善，正确候选假设的排名更加稳定。

此外，研究团队还发现了一个"潜在输出鸿沟"：有时候模型在内心排名里把正确的候选假设排在第一位，但最终输出的答案里却没有包含它——就像侦探内心已经认定了嫌疑人，却在最终报告里漏掉了他的名字。强化学习能够减少这种内部认知和外部输出之间的不一致。

第二种方法是"表征引导"。研究团队发现，经过强化学习训练的模型，在处理信念管理任务时，其神经网络的内部状态（即"隐藏状态"）与原始模型有系统性的差异。他们计算出这个差异的方向向量，然后在测试时把这个方向向量直接叠加到原始模型的内部状态上，不改变模型的任何参数，只是"推一把"它的内部表征。结果令人印象深刻：在规则发现场景中，坚守失败率降低了78.6%，更新失败率降低了92.3%，隔离失败率降低了48.8%；在电路诊断场景中，三项也分别降低了20.7%、23.5%和12.8%。这说明强化学习带来的改变是实实在在地刻入了模型的"神经回路"，而这种回路的变化是可以被提取和迁移的。

归根结底，这项研究告诉我们一件很朴素的事：让AI在长对话中可靠地追踪证据、管理自己的认知状态，并非一件"加几行提示词就能搞定"的小事，而是需要系统性训练的核心能力。

就像一个真正好的侦探，不是靠背诵"办案手册"就能练成的，而是需要通过大量真实案件的磨砺，才能形成那种在嘈杂信息中锁定关键线索、在压力下不动摇的本能。强化学习在这里扮演的，正是"实战训练"的角色。

更值得关注的是，这项能力一旦习得，似乎具有相当强的迁移性——在一种场景下训练出的好侦探，换到完全不同的案件类型里，依然能保持相当的专业水准。这对未来AI系统的设计和训练来说，是一个非常鼓舞人心的信号。

当然，这项研究也有其局限。BeliefTrack的两个场景都是人为设计的封闭式环境，现实中的对话远比这复杂——用户的一句话可能同时包含有效的修正、无关的情感表达和模糊的意图，边界远没有那么清晰。如何在过滤噪声的同时，不把真正有价值的用户反馈也挡在门外，是未来研究需要继续探索的方向。

有兴趣深入研究这个课题的读者，可以通过arXiv编号2605.30219查阅完整论文，研究团队的代码也将开源于github.com/zjunlp/CBM。

Q&A

Q1：大型语言模型的"信念管理失败"在实际使用中会怎么表现？

A：具体来说可能有几种情况：你跟AI说了一个前提条件，聊了几轮之后它好像"忘了"那个条件，给出与之矛盾的答案；或者你明确纠正了它之前说错的信息，但它仍然在后续回答中沿用那个错误信息；再或者你随口表达了一个倾向性意见，它就顺着你说，而不是坚守证据本身。这三种表现分别对应论文中的"坚守失败"、"更新失败"和"隔离失败"三类问题。

Q2：BeliefTrack和普通的AI评测基准有什么不同？

A：大多数AI评测基准测的是模型"知不知道某个答案"，但BeliefTrack测的是模型"能不能在对话过程中始终维护正确的推理状态"。它特别设计了封闭式的推理场景，所有证据都由系统提供，不依赖模型的预训练知识，因此可以精确区分"因为不知道答案而出错"和"因为信念管理能力不足而出错"这两种完全不同的失败原因。

Q3：强化学习训练后的模型，为什么对从未见过的噪声类型也有抵抗力？

A：研究团队认为，强化学习并没有让模型死记硬背"遇到某种噪声就忽略它"，而是真正强化了模型追踪证据的内在能力。当一个模型真正学会了"只依赖正式证据做判断"，它自然就不会被各种形式的无关信息干扰，无论这种干扰是来自权威压力、迎合赞美还是时间紧迫感。表征引导实验进一步证实了这一点，说明这种能力的改变是深层次的神经网络表征变化，而非表面的行为调整。

大语言模型强化学习信念状态追踪

分享至