近日,清华大学计算机科学与技术系和新加坡国立大学计算学院的研究团队发表了一项重要研究,系统探讨了具有推理能力的大语言模型(Large Reasoning Models,简称LRMs)在事实查询任务中的幻觉现象。这篇题为《Are Reasoning Models More Prone to Hallucination?》(推理模型更容易产生幻觉吗?)的论文由姚子骏、刘彦涛、陈砚旭、陈健辉、房俊峰、侯磊、李娟子和蔡德成等研究者共同完成,于2025年5月29日发布于arXiv(arXiv:2505.23646v1)。
我们都知道,大语言模型有时会自信满满地"胡说八道",这就是所谓的"幻觉"问题。随着技术发展,研究人员发现让模型在回答前先进行"思考链"(Chain-of-Thought,简称CoT)推理,可以提高其解决复杂问题的能力。于是,一类经过特殊训练、擅长长链推理的模型应运而生,我们称之为大推理模型(LRMs)。
但这些模型在回答事实性问题时是否更可靠呢?实际情况却非常微妙。比如DeepSeek-R1模型声称在SimpleQA(一个事实查询基准测试)上表现更好,而OpenAI的o3模型却被观察到产生更严重的幻觉。这种矛盾引出了一个关键问题:推理增强的大模型究竟是减少了幻觉,还是让幻觉问题变得更严重了?
清华和新加坡国立大学的研究团队从三个维度展开了调查:首先,他们对不同类型的推理模型进行了全面评估;其次,他们分析了这些模型表现出的认知行为特征;最后,他们从模型不确定性的角度探究了幻觉产生的内在机制。
研究发现,推理模型的幻觉倾向与其训练方式密切相关。完整训练流程(先进行监督微调再进行强化学习)的模型往往幻觉较少,而仅使用单一训练阶段(只做蒸馏或只做强化学习)的模型则更容易产生幻觉。让我们进一步了解这项研究的细节。
大推理模型的兴起与挑战
想象一下,传统的大语言模型就像一个知识渊博但有时会不假思索脱口而出答案的朋友。而大推理模型则像是一个会在回答前先"思考"一番的朋友,它会先在草稿纸上写下思考过程,然后才给出最终结论。
这种"思考"能力来源于后训练阶段(post-training)的特殊处理。研究人员通常会用两种方式增强模型的推理能力:一是监督微调(Supervised Fine-Tuning,简称SFT),让模型学习人类专家的推理示范;二是强化学习(Reinforcement Learning,简称RL),让模型通过反复尝试和奖励机制来优化其推理能力。这些技术催生了一系列知名的大推理模型,如OpenAI的o1、o3、o4-mini,DeepSeek-R1,GLM-Z1和Qwen-3等。
但问题在于,这些模型在正式推理任务(如数学题、编程问题)上表现优异,却可能在需要事实准确性的任务上表现不一。为什么会出现这种情况?模型的推理能力是否真的能帮助减少幻觉?清华和新加坡国立大学的研究团队决定一探究竟。
推理模型的幻觉全面评估
研究团队首先对不同训练流程的推理模型在事实查询任务上进行了系统评估。他们选择了两个广泛使用的事实查询基准测试:SimpleQA和TriviaQA。前者包含对抗性收集的问题,对模型挑战更大;后者则是一个更传统的问答数据集。
研究者根据训练方法将推理模型分为三类: 1. SFT+RL模型:经过完整的冷启动监督微调加可验证奖励强化学习流程 2. 仅RL模型:绕过监督微调,直接用零样本风格的强化学习训练 3. 仅SFT模型:只进行监督微调,通常是从更大的模型蒸馏而来
令人惊讶的是,只有经过完整SFT+RL流程训练的模型在事实查询任务上表现更好。以DeepSeek-R1为例,它在SimpleQA上的准确率比其基础模型提高了4.7%,在TriviaQA上提高了2.2%。而其他两类模型几乎都表现出准确性下降的趋势。
以一个具体例子说明:当询问"Qwen-2模型何时发布,有多少参数?"时,DeepSeek-Qwen-Distill-32B(一个仅SFT模型)回答:"Qwen-2模型于2023年3月发布,拥有35亿参数。"这完全是错误的,实际上Qwen-2于2024年6月发布,且没有3.5亿参数的版本。
这一发现挑战了人们的直觉。我们常认为让模型"多思考"应该能提高其准确性,但事实上,特定训练方法下的"思考"反而可能让模型更容易犯错。这就像一个学生,掌握了解题技巧但基础知识不牢,结果推理过程看似合理,答案却完全错误。
幻觉背后的认知行为分析
为什么不同训练流程的推理模型表现如此不同?研究团队通过深入分析模型输出,发现了两种关键的认知行为与幻觉紧密相关:
第一种是"错误重复"(Flaw Repetition)。想象一个人陷入了思维定势,虽然尝试不同的思路,但始终围绕着同一个错误的核心逻辑打转。研究中,RL-only模型DeepMath-Zero在回答《龙之家族》中的一个问题时,不断重复"生活是一场恐惧的游戏。我们生活在对王位的恐惧中,对彼此的恐惧中,对未来的恐惧中",而无法探索其他可能性。
第二种是"思考-答案不匹配"(Think-Answer Mismatch)。这就像一个学生在草稿纸上推导出了正确答案,但在试卷上却写下了完全不同的结果。例如,SFT-only模型DPSK-Qwen-32B在推理过程中正确识别出"Freddie Keppard"是Red Hot Peppers的创始人,但在最终答案中却给出了完全不相关的"Fred Hager"。
统计分析显示,RL-only模型在SimpleQA上的错误答案中有17.8%存在"错误重复"问题,4.6%存在"思考-答案不匹配"问题;而SFT+RL模型这两个比例分别仅为5.6%和1.0%。这清晰地表明了不同训练流程对模型认知行为的影响。
从不确定性角度解析幻觉机制
为了进一步理解幻觉的内在机制,研究团队从模型不确定性的角度进行了探索。在理想情况下,模型对答案的确信度应与答案正确的概率一致——这被称为"校准"(calibration)。
研究者通过让模型多次回答同一问题并计算答案的一致性来估算模型的确信度,然后将这一确信度与实际答案正确率对比。结果发现,SFT+RL模型的期望校准误差(ECE)为0.12,低于其非推理版本的0.146;而RL-only和SFT-only模型的校准误差反而更高,分别为0.156和0.183。
为了探究这一现象,研究者进一步设计了一个"不确定性探测"实验,试图从模型的隐藏状态中提取不确定性信息。有趣的是,对SFT+RL模型的探测准确率比基础模型高2.7%,而对RL-only和SFT-only模型的探测准确率则分别下降了20.1%和16.0%。这表明后两类模型在训练过程中实际上丧失了部分不确定性表达能力。
这就像一个学生,他不仅答错了题,更糟糕的是他不知道自己不知道——他失去了对自己知识边界的感知能力。相比之下,经过完整训练流程的模型则保留了这种"知道自己不知道"的能力,因此更不容易自信地给出错误答案。
研究者还探索了一个可能的替代解释:参数变化幅度。人们可能认为,训练过程中参数变化越大,模型越容易"遗忘"基础知识,从而产生更多幻觉。然而,数据显示这一假设并不成立。GLM-Z1-32B的参数变化最大(MAE=1.1529),但其幻觉程度相对较轻;相反,DPSK-Qwen-14B和Qwen3-14B的参数变化较小(MAE分别为0.3374和0.1590),却产生了更明显的幻觉行为。
研究启示与未来方向
这项研究为我们提供了几点重要启示。首先,推理模型并非天然比非推理模型更可靠或更不可靠,关键在于其训练流程。完整的冷启动监督微调加强化学习流程有助于保持模型的事实准确性,而单一训练阶段可能导致幻觉增加。
其次,模型的思考过程质量直接影响其回答的可靠性。"错误重复"和"思考-答案不匹配"是导致幻觉的两种关键认知行为,未来的模型训练应着重避免这些问题。
最后,模型对自身不确定性的校准程度是评估和监控幻觉风险的重要指标。具有良好校准的模型更能准确评估自身知识的边界,从而避免自信地给出错误答案。
研究团队也承认本研究的局限性。由于计算资源限制,他们无法自行复现完整的后训练流程,而是依赖于公开发布的模型进行分析。更严格的变量控制和更全面的实验将有助于进一步验证这些发现。
总之,这项研究为理解和改进大推理模型的事实准确性提供了宝贵见解。它提醒我们,在追求更强大的推理能力的同时,不应忽视模型的事实基础;在评估模型性能时,除了常规的推理任务外,也应考察其在事实查询任务上的表现。这对于开发更可靠、更值得信赖的人工智能系统具有重要意义。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。