微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 推理模型更懂如何表达自信:大型语言模型如何通过慢思考实现更准确的自我评估

推理模型更懂如何表达自信:大型语言模型如何通过慢思考实现更准确的自我评估

2025-05-26 08:19
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-26 08:19 科技行者

在人工智能日益融入我们生活的今天,大语言模型的可靠性变得尤为重要。2025年5月,由KAIST、LG AI研究院、CMU和UCL的研究团队联合发表了一篇题为《推理模型更好地表达它们的自信》(Reasoning Models Better Express Their Confidence)的研究论文。这项研究首次全面探究了推理模型(即进行链式思考的大语言模型)在表达自信程度方面的优势,论文作者包括Dongkeun Yoon、Seungone Kim、Sohee Yang、Sunkyoung Kim、Soyeon Kim、Yongil Kim、Eunbi Choi、Yireun Kim和Minjoon Seo。这篇发表在arXiv上的论文(arXiv:2505.14489v1)揭示了推理模型不仅擅长解决问题,还能更准确地表达自身的确信度,即它们对自己所给答案的把握程度。

想象一下,你正在向一位朋友请教一个历史问题:"谁是创建了500人议会的雅典改革者?"你的朋友可能会一口气回答"克利斯提尼",但你并不知道他对这个答案有多确定。而另一位朋友则会这样回答:"嗯,我记得雅典有几位重要的改革者,如梭伦、克利斯提尼和伯里克利...所以可能不是梭伦。克利斯提尼...哦,他确实创建了500人议会...伯里克利出现得更晚...但我不认为是他建立了500人议会...所以综合起来,克利斯提尼是建立500人议会的改革者...我觉得我没有混淆任何细节。"第二位朋友不仅给出了答案,还通过思考过程展示了他如何逐步调整自己的确信度——这就是本研究所关注的"慢思考"行为如何帮助推理模型更准确地表达自信。

一、推理模型与普通模型的区别:何为"慢思考"?

首先,我们需要了解什么是推理模型。想象普通的大语言模型(如ChatGPT)就像是一个反应迅速的学生,能立刻给出答案但可能不会详细解释思考过程。而推理模型(如OpenAI的o1和Deepseek-R1)则像是一个会边思考边解答的学生,它们会使用链式思考(Chain-of-Thought,简称CoT)进行推理。

这种链式思考的特别之处在于它的"慢思考"行为。什么是慢思考呢?就像人类深思熟虑时会做的那样:探索不同解决方案、验证答案、在必要时回溯并修正先前的想法。这就像你解决一道复杂数学题时,不是直接写下答案,而是先尝试一种方法,发现不对后又换一种方法,最后仔细检查确认答案是否正确。

研究团队发现,推理模型在这种慢思考过程中会产生"认知标记"(如"我认为"、"可能"等表示不确定性的词语),这使它们能够更准确地表达对答案的确信度——就好比一个诚实的学生会坦率地告诉你"我完全确定这个答案"或"我不太确定,但我认为可能是这样"。

二、研究设计:如何测试模型的自信表达能力?

研究团队设计了一个全面的实验来比较推理模型与普通模型(即经指令微调但不专注于长链思考的模型)表达自信的能力。他们精心选择了以下测试内容:

对于测试数据集,研究者们选择了两类问题:一类是知识型问题(TriviaQA和NonambigQA),主要测试模型的知识储备;另一类是推理型问题(SuperGPQA和MMLU-Pro的子集),需要模型进行复杂的思维推理。这就像分别测试学生的记忆力和解决问题的能力。

在模型选择上,研究团队测试了六种推理模型(如R1-Distill-Qwen、QwQ等)及其对应的非推理模型(如Qwen2.5-Instruct等),所有模型规模均为320亿参数级别。这有点像让普通学生和接受过特殊训练的学生分别解答同一套题目,看谁不仅答得对,还能准确评估自己的把握程度。

测试流程设计得很巧妙:每个模型需要完成三个步骤——首先进行解题推理得出答案,然后评估对答案的确信度,最后将确信度映射到十个区间(从"几乎没有可能(0-0.1)"到"几乎确定(0.9-1.0)")中的一个。这就像让学生不仅要答题,还要说明"我有多确定这个答案是对的"。

研究者使用三种指标来评估模型的自信表达准确性:

1. 期望校准误差(ECE):测量模型预测的确信度与实际正确率之间的平均差距。就像测量学生说"我90%确定"时,实际上有多少比例的答案是正确的。

2. 布莱尔分数(Brier Score):衡量模型预测确信度与实际结果之间的平均平方差异,能同时反映校准性和区分能力。

3. AUROC:测量模型能否将正确答案的确信度排在错误答案之前,反映区分能力。

此外,研究团队还进行了多种额外测试,包括不同置信表达风格、不同解码策略等,以确保研究结果的稳健性。

三、惊人发现:推理模型确实更会表达自信

实验结果令人惊讶:在36种测试设置中(6个模型×6个数据集),推理模型在33种情况下比对应的非推理模型表现更好。就像在班上,接受过特殊训练的学生不仅解题能力强,还能更准确地评估自己对答案的把握程度。

特别值得注意的是,即使在知识型问题上,尽管推理模型与非推理模型的答题准确率相似,推理模型仍然表现出更好的校准性。这表明推理模型的优势不仅仅来自于更好的解题能力,而是确实更擅长评估自己的知识限度。

当研究团队进一步分析TriviaQA上的结果时,他们发现像R1-Distill-Qwen这样的推理模型在60%以上的置信度区间表现出近乎完美的校准性——也就是说,当模型说它有80%确定时,实际上大约有80%的答案是正确的。相比之下,非推理模型如Qwen2.5-Instruct则显得过度自信,超过80%的回答被归入85%或95%的高置信度区间。

在推理密集型任务上,情况也类似。虽然在少数AUROC指标上非推理模型表现更好,但研究者进一步分析发现,这是因为多选题格式无意中给了模型一些暗示——非推理模型倾向于在答案出现在选项中时预测95%的置信度,而在不确定时选择85%置信度,这种简单的二分策略意外地提高了AUROC得分。不过,在更全面的布莱尔分数上,推理模型仍然表现更好。

四、深入分析:推理模型如何动态调整自信度?

研究团队好奇,推理模型为什么能更准确地表达自信?他们通过三组精心设计的实验找到了答案。

首先,他们测量了模型在思考过程中确信度的变化。想象学生解题时的思考过程:起初可能不太确定,随着分析深入逐渐变得更有把握(或发现答案有误而降低确信度)。研究者将每个推理过程分成11个累积段落,从0%到100%,并在每个点收集模型的答案和确信度表达。

结果非常有趣:研究者发现推理模型(如R1-Distill-Qwen、GLM-Z1等)在思考过程中的校准性逐渐提高,确信度表达越来越准确。就像一个认真思考的学生,随着推理深入越来越清楚自己对答案的把握程度。相比之下,非推理模型(如Qwen2.5-Instruct)不仅没有这种提升趋势,某些情况下甚至随着思考的推进变得更不准确了!

其次,研究团队进行了消融实验(去掉某些组件看影响),系统地删除推理模型思考过程中的不同成分,发现:

1. 移除对自信度的显式推理影响不大,表明模型的校准能力主要来自于对问题本身的思考,而非专门思考自己有多确定。

2. 移除表达不确定性的短语(如"我认为"、"可能")会导致ECE显著下降,但AUROC反而提高。进一步分析发现,这是因为模型变得过度自信,大部分预测集中在95%或65%两个区间,虽然区分能力保留,但校准性受损。

3. 最重要的是,限制模型只能进行线性推理(移除探索替代方案、回溯等非线性特性)会使所有指标大幅恶化。这证明了"慢思考"中的非线性特性——探索不同解法、验证答案、必要时返回修正——对于准确表达自信至关重要。

最后,研究者还发现非推理模型在通过少样本学习被引导进行慢思考时,也能获得类似的校准改进。这进一步证明了慢思考本身的价值,而不仅仅是推理模型特有的属性。

五、实际应用与未来展望

这项研究不仅具有学术价值,还有重要的实际意义。在医疗诊断、金融决策、自动驾驶等高风险场景中,AI系统不仅需要给出正确答案,还要准确表达自己的确信度,以便人类知道何时可以信任AI,何时需要进一步验证。

想象一个医学AI助手告诉医生:"我95%确定这是A型流感",如果这种确信度表达是可靠的,医生就能据此做出更好的治疗决策。而如果AI过度自信(实际准确率远低于表达的确信度),则可能导致错误的医疗决策。

研究团队也指出了一些局限性和未来研究方向:即使是推理模型也仍然倾向于表达较高的确信度,很少给出低于55%的置信评分。这表明在表达不确定性方面还有改进空间。此外,随着模型规模增加,慢思考带来的校准改进会变得更加显著,这是一个令人鼓舞的趋势。

最后,研究者讨论了强制延长思考过程是否有用的问题。他们发现单纯延长思考时间不一定带来校准性的进一步提升,表明关键在于思考的质量而非数量。就像学生解题,花更长时间未必能提高自我评估的准确性,关键是思考方式和深度。

六、结论:慢思考让AI更懂"知道自己不知道"

归根结底,这项研究告诉我们,让AI进行"慢思考"——探索不同方案、验证答案、在必要时回溯修正——不仅能提高解决问题的能力,还能让它们更准确地表达自信度。就像人类一样,深思熟虑往往会带来更清晰的自我认知。

这种"知道自己知道什么"的能力对于构建可靠的AI系统至关重要。未来,随着推理模型的发展和完善,我们可能会看到更多AI系统不仅能准确回答问题,还能诚实地告诉你"这个我很确定"或"这个我不太确定,需要进一步验证"——就像一个理想的人类助手一样。

对于我们日常使用AI工具的普通人来说,这项研究提醒我们关注AI不仅能给出什么答案,还能如何表达对答案的确信度。当AI系统能诚实地表达自己对答案的把握程度时,我们才能更好地判断何时可以依赖它,何时需要寻求进一步验证或人类专家的意见。

有兴趣深入了解的读者可以通过arXiv访问全文(arXiv:2505.14489v1),或查看研究代码:https://github.com/MattYoon/reasoning-models-confidence。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-