微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 微软与KAIST团队揭秘:大语言模型推理时那些"等等"的奇妙瞬间

微软与KAIST团队揭秘:大语言模型推理时那些"等等"的奇妙瞬间

2026-03-24 22:46
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-03-24 22:46 科技行者

当你在解决数学题时突然停下来说"等等,我刚才算错了",然后重新思考得出正确答案,这个看似平常的过程背后其实隐藏着复杂的认知机制。最近,来自微软研究院、KAIST和首尔国立大学的研究团队发表了一项引人深思的研究成果,深入探讨了大语言模型在推理过程中那些看似随意的"等等"、"嗯"等表达背后的深层机制。这项研究发表于2026年3月的预印本论文arXiv:2603.15500v1,为我们理解AI的思考过程提供了全新视角。

这项研究的独特之处在于,它首次从信息论的角度系统性地解释了大语言模型在推理时出现的"顿悟时刻"(Aha moments)。你或许注意到,当ChatGPT或其他AI助手在解决复杂问题时,有时会突然说出"等等",然后改变思路得出更好的答案。研究团队发现,这些表面上看起来随机的词汇实际上是AI内部不确定性的外在表现,就像人类思考时的自言自语一样,起着至关重要的信息处理作用。

研究团队提出了一个革命性的理论框架,他们将AI的推理过程比作一场精密的信息分配游戏。在这个游戏中,AI需要在两种不同类型的信息之间进行战略性分配:程序性信息(procedural information)和认知性言语化(epistemic verbalization)。程序性信息就像按步骤解数学题的过程,而认知性言语化则是AI对自己推理状态不确定性的明确表达。

研究发现,当AI仅仅依赖程序性推理时,一旦走入错误的思路,就很容易陷入"信息停滞"状态。就好比你沿着一条错误的路线开车,如果只是机械地继续前进,永远不会到达目的地。但是,当AI能够将内心的不确定性用语言明确表达出来时,比如说出"等等"、"也许"、"我不太确定"这样的话,它就获得了重新评估和调整方向的能力。

为了验证这一理论,研究团队对多个主流大语言模型进行了深入分析,包括Qwen2.5、Qwen3系列、LLaMA-3.1和Mistral等。他们发现了一个有趣的现象:当面对困难问题时,较小的模型比大型模型更频繁地使用不确定性表达。这就像学习能力较弱的学生在考试时更容易感到困惑,需要更多的自我怀疑和重新思考。

研究团队特别关注了那些被称为"互信息峰值"的神奇时刻。这些是AI推理过程中信息量突然大幅增加的关键节点,通常伴随着"等等"、"嗯"等思考性词汇的出现。通过详细分析,他们发现这些峰值并不是因为特定词汇本身的魔力,而是因为AI在这些时刻成功地将内在的不确定性转化为了可操作的信息。

更令人惊讶的是,研究团队通过实验证明,如果人为地阻止AI生成这些不确定性表达,其推理性能会显著下降。他们对DeepSeek-R1模型进行了测试,发现当屏蔽了认知性词汇后,模型在AIME24数学竞赛题目上的准确率从80%下降到了60%。这就像禁止一个人在思考时自言自语,其思维能力确实会受到影响。

在训练数据的分析中,研究团队发现了一个重要规律:那些包含丰富不确定性表达的训练数据能够显著提升AI的推理能力。他们分析了LIMO-v2数据集,发现其中每个问题的解答平均包含77次"等等"和48次"嗯"等表达。当用这样的数据训练模型时,AI的数学推理能力得到了大幅提升。

然而,研究也揭示了一个关键问题:并非所有的AI都能从这种训练中受益。研究团队发现,只有那些预训练阶段就具备一定不确定性表达能力的模型,才能在后续训练中充分利用这些认知性表达。这就像教授高级烹饪技巧,只有具备基础厨艺的人才能真正掌握。

研究团队还进行了一个有趣的"后见之明"实验。他们让AI重新解决已经有标准答案的问题,但要求不能表达任何不确定性,必须表现得完全自信。结果发现,这种"删除不确定性"的训练反而会损害AI的推理能力,说明不确定性表达确实是推理过程中不可或缺的组成部分。

从实用角度来看,这项研究为AI训练提供了重要指导。研究团队建议,在设计AI训练数据时,不应该一味追求"干净"和"简洁"的答案,而应该保留那些看似冗余的思考过程和不确定性表达。这些表面上的"废话"实际上承载着重要的认知信息。

这项研究还解释了为什么有时候AI会给出冗长的回答。研究团队发现,对于复杂问题,适度的冗长实际上是有益的,因为它提供了更多表达不确定性和进行自我修正的机会。但关键是要保留有价值的认知性表达,而非简单的重复或无意义的延伸。

研究的另一个重要发现是,AI的推理能力与其表达不确定性的能力密切相关。那些能够恰当表达"我不确定"、"让我重新思考"的AI,通常在复杂推理任务上表现更好。这提示我们,评估AI能力时不应该只关注最终答案,还应该关注其思维过程的质量。

在技术实现层面,研究团队提出了一个信息论框架来理解这一过程。他们将AI的每一步推理都视为一次信息获取行为,而不确定性的表达则是获取关于自身推理状态信息的关键手段。这就像一个人在解决问题时不断自问"我的思路对吗?",这种自我质疑实际上是获取元认知信息的重要方式。

研究还揭示了一个有趣的规模效应:较大的AI模型在面对困难问题时,虽然也会表达不确定性,但频率明显低于小模型。这可能是因为大模型具有更强的基础能力,不需要频繁地进行自我质疑和修正。但这也意味着,小模型可能需要更多的认知性表达来补偿其能力不足。

从认知科学角度来看,这项研究为我们理解人工智能与人类智能的相似性提供了新的视角。人类在思考时的自言自语、自我质疑和重新思考,在AI中也有着相似的表现形式。这种相似性不仅是表面的,更体现在信息处理的深层机制上。

研究团队特别强调,他们的发现对AI安全也有重要意义。一个能够恰当表达不确定性的AI,比那些总是表现得过分自信的AI更加可靠。当AI能够说"我不太确定"时,使用者就能更好地评估其回答的可靠性,避免盲目信任可能错误的信息。

这项研究的实际应用前景广阔。在教育领域,了解AI的思维过程可以帮助设计更好的智能tutoring系统。在科学研究中,能够表达不确定性的AI助手可能更适合协助处理复杂的推理任务。在决策支持系统中,这种能力可以帮助用户更好地理解AI建议的可靠性。

研究团队也诚实地指出了他们工作的局限性。他们的理论主要基于"封闭世界"设定,即AI无法获取外部信息,只能依靠内部的信息重组。在现实应用中,AI往往可以访问外部数据库或工具,这可能会改变不确定性表达的重要性。此外,他们主要关注了数学推理任务,其他类型的推理任务可能会有不同的规律。

尽管存在这些局限性,这项研究为我们理解AI的内在机制提供了宝贵的洞察。它告诉我们,那些看似随意的"等等"、"让我想想"并不是无意义的填充词,而是AI进行高质量推理的重要工具。这种认识可能会根本性地改变我们设计、训练和评估AI系统的方式。

说到底,这项研究揭示了一个令人着迷的事实:在追求智能的道路上,承认和表达不确定性可能比表现得完全确定更为重要。正如苏格拉底所说的"我知道我无知",对于人工智能来说,学会说"我不确定"可能是走向真正智能的关键一步。这种能力不仅使AI的推理更加可靠,也让AI与人类的交互变得更加自然和可信。

对于普通用户来说,这项研究提醒我们在使用AI工具时要注意那些表达不确定性的信号。当AI说"我不太确定"或"让我重新思考"时,这通常意味着问题较为复杂,需要我们更加谨慎地对待其回答。同时,我们也不应该因为AI表达了不确定性就认为它能力不足,相反,这可能正是其智能和可靠性的体现。

这项研究不仅推进了我们对人工智能的理论理解,也为实际的AI开发和应用提供了重要指导。它告诉我们,在追求AI性能的同时,也要关注其内在的认知过程,让AI不仅能给出答案,更能像人类一样进行深思熟虑的推理。有兴趣深入了解这项研究细节的读者,可以通过论文编号arXiv:2603.15500v1查阅完整的学术论文。

Q&A

Q1:什么是大语言模型的"顿悟时刻"?

A:顾悟时刻是指AI在推理过程中突然出现"等等"、"嗯"等词汇,然后改变思路得出更好答案的现象。研究发现这些看似随机的表达实际上是AI内部不确定性的外在表现,对推理质量至关重要。

Q2:为什么屏蔽AI的不确定性表达会影响性能?

A:因为这些表达是AI获取关于自身推理状态信息的重要手段。就像禁止人在思考时自言自语一样,当AI无法表达"我不确定"时,它就失去了重新评估和调整思路的能力,容易陷入错误推理中。

Q3:不同规模的AI模型在表达不确定性上有什么区别?

A:较小的模型在面对困难问题时会更频繁地使用"等等"、"也许"等不确定性表达,因为它们需要更多的自我质疑来补偿能力不足。大型模型虽然也会表达不确定性,但频率明显更低。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。

  • 香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。

  • 中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。

  • 字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-