这项由腾讯AI实验室的王悦、刘启志、徐嘉豪等研究团队完成的突破性研究,发表于2025年2月18日的arXiv预印本平台,论文编号为arXiv:2501.18585v2。研究团队还包括来自苏州大学和上海交通大学的合作者。对这项研究感兴趣的读者可以通过链接https://arxiv.org/abs/2501.18585访问完整论文。
想象一下你在解一道复杂的数学题。一开始你想到了一个很有希望的解题思路,但刚想了一会儿,你就突然转向另一种方法,然后又迅速跳到第三种思路,结果什么都没想透彻,最终交了白卷。这种现象在我们日常生活中并不少见,但没想到,连最先进的AI系统也会犯这样的"毛病"。
腾讯AI实验室的研究团队发现,那些被誉为能像人类一样深度思考的AI模型——比如OpenAI的o1和它的开源"兄弟们"QwQ、DeepSeek-R1等——竟然也存在一个令人意外的问题:它们经常在找到正确思路后,却没有坚持下去,而是频繁地在不同的解题策略之间跳来跳去,就像一个注意力不集中的学生。
这个现象被研究团队形象地命名为"思维不足"(underthinking)。更令人惊讶的是,当这些AI模型给出错误答案时,它们平均会比给出正确答案时多消耗225%的计算资源,思维跳跃的频率更是高达418%。这就好比一个学生在考试中,越是不会做的题目,越是在草稿纸上写得密密麻麻,但实际上都是无效的思考。
为了解决这个问题,研究团队开发了一种叫做"思维切换惩罚"(TIP)的新方法。这种方法就像给AI装上了一个"专注力训练器",当AI想要频繁切换思路时,系统会给它一个小小的"提醒",鼓励它把当前的想法想透彻再换其他方法。
这项研究的意义远不止于提高AI的答题准确率。它揭示了一个深刻的道理:即使是最聪明的系统,也需要学会如何有效地分配注意力和思考资源。正如人类学习需要培养专注力一样,AI也需要被"教导"如何进行深度思考。
一、AI的"注意力缺陷":当机器也会三心二意
在我们的印象中,计算机总是专注而高效的。它们不会像人类一样感到疲惫、分心或者三心二意。然而,腾讯研究团队的发现彻底颠覆了这个认知。他们通过对三个极具挑战性的测试集进行深入分析,发现了一个令人意外的现象。
这三个测试集分别是MATH500(高中数学竞赛题)、GPQA Diamond(研究生水平的物理化学生物题)和AIME2024(美国邀请数学考试题)。每一个测试集都代表了人类智力的巅峰挑战,即使是优秀的学生也可能在这些题目前束手无策。
研究团队选择了两个最具代表性的开源AI模型进行研究:QwQ-32B-Preview和DeepSeek-R1-671B。这两个模型都属于所谓的"o1类模型",它们最大的特点是具有可见的长串思考过程,就像学生在草稿纸上写下的详细解题步骤一样。
令人震惊的发现出现了:当这些AI模型遇到困难问题时,它们的思维模式就像一个焦虑的考生。面对简单问题时,它们通常能保持专注,用较少的步骤得出正确答案。但是,当问题难度增加时,情况就完全不同了。以QwQ模型为例,在处理最简单的1级题目时,它平均只需要1.1个思考步骤,但面对最难的5级题目时,思考步骤激增到4.0个。
更关键的是,研究团队发现了一个反直觉的规律:错误答案往往伴随着更多的思维跳跃。当AI给出正确答案时,它的思考过程相对专注和高效。但当它给出错误答案时,就会表现出明显的"思维散漫"特征,不断在不同的解题策略之间切换,就像一个慌张的学生在考场上不停地改变解题思路。
以一个具体的例子来说明这种现象。研究团队展示了QwQ模型解决一个复杂椭圆方程问题的过程。这个问题要求找到满足特定条件的实数a和b的最小值。AI在第一个思考步骤中其实已经找到了正确的方向,它正确地识别出这些方程代表的是椭圆,并开始考虑如何找到它们的交点。这个思路是完全正确的,如果坚持下去,很可能得出正确答案。
然而,AI没有深入这个思路,而是迅速跳转到几何解释、优化问题、距离计算等多个不同的方法。总共进行了25个思考步骤,消耗了7681个计算单元,最终却给出了一个毫无根据的猜测答案。如果它坚持最初的正确思路,可能只需要411个计算单元就能得出正确答案。这意味着它浪费了94.6%的计算资源。
这种现象在所有测试集中都普遍存在。在MATH500-Hard测试集中,错误答案平均消耗的资源比正确答案多出196%。在GPQA Diamond测试集中,这个比例达到了129%。这就好比一个学生在不会做的题目上花费了大量时间,但效果反而更差。
研究团队还发现,随着模型能力的提升,这种"思维不足"现象有时甚至会加剧。更先进的模型在产生错误答案时,往往会进行更多但无效的思考。这就像一个知识更丰富的学生,在遇到困难时反而更容易陷入过度思考的陷阱,在各种可能的方法之间摇摆不定,最终什么也没想透彻。
这个发现彻底改变了我们对AI推理过程的理解。以前我们认为,更多的计算时间和更长的推理过程总是有益的。但这项研究表明,关键不在于思考的时间长短,而在于思考的深度和专注度。
二、寻找"思维不足"的根源:是真的不会,还是没想透
面对AI频繁跳跃思维的现象,研究团队面临一个关键问题:这到底是因为AI真的不知道如何解决问题,所以只能四处"乱撞",还是它其实找到了正确方向,但没有坚持深入思考下去?
这个问题的答案直接决定了解决方案的方向。如果是前者,那么需要提升AI的基础知识和理解能力;如果是后者,那么问题的核心就在于如何让AI学会"坚持"和"深度思考"。
为了找出答案,研究团队设计了一个巧妙的分析方法。他们让另外两个高水平的AI模型——DeepSeek-R1-Distill-Llama-70B和DeepSeek-R1-Distill-Qwen-32B——来评估每一个思考步骤的质量。这就像让两个优秀的老师来评估学生草稿纸上每一行推理是否正确。
评估的标准很简单:如果一个思考步骤能够引导到正确答案,就被标记为"正确思考";如果不能,就被标记为"错误思考"。为了确保评估的准确性,研究团队还进行了人工验证,发现这种自动评估方法的准确率超过了82%。
分析结果令人震惊。在那些最终给出错误答案的回应中,超过70%的情况下都包含至少一个完全正确的思考步骤。更令人惊讶的是,在超过50%的错误回应中,正确思考步骤的比例超过了10%。
这就好比一个学生在数学考试中,明明在草稿纸的某个角落写下了正确的解题思路,但他没有意识到这个思路的价值,反而把注意力转向了其他错误的方向,最终交出了一份错误的答案。
更深入的分析显示了一个清晰的模式:在错误答案中,早期的思考步骤往往具有更高的正确率。以DeepSeek-R1-671B模型为例,第一个思考步骤有32%的正确率,但随着思考的深入,正确率呈现波动下降的趋势。这表明AI模型确实能够在早期识别出正确的解题方向,但它们缺乏坚持和深化这些正确思路的能力。
研究团队还发现了一个有趣的现象:越先进的模型,在错误回应中包含的正确思考反而可能更少。这听起来很矛盾,但实际上反映了一个深层问题。更先进的模型拥有更丰富的"知识储备",面对困难问题时,它们能想到更多种解决方案,但这反而增加了它们在不同方案之间摇摆的可能性。
这就像一个博学的学者面对复杂问题时,可能会同时想到历史学、社会学、经济学等多个角度的分析方法,但如果不能专注于其中一个角度深入分析,反而可能得出肤浅的结论。
为了量化这种"思维不足"现象,研究团队提出了一个创新的评估指标。这个指标的核心思想是测量"思维效率":在一个错误的回应中,有多少部分真正有助于找到正确答案。
具体来说,如果一个AI模型在回应中总共用了1000个计算单元,但只有前200个单元用于正确的思考,那么它的思维效率就是20%,"思维不足"分数就是80%。分数越高,说明浪费的计算资源越多。
通过这个指标,研究团队发现所有测试的AI模型都存在显著的思维不足问题。在MATH500-Hard测试集中,QwQ模型的思维不足分数达到了58.2%,意味着超过一半的计算资源被浪费在无效思考上。在AIME2024测试集中,某些模型的思维不足分数甚至超过了75%。
这些发现揭示了AI推理的一个根本性问题:它们不是不聪明,而是不够专注。就像一个天赋异禀的学生,拥有解决问题的能力,但缺乏深入思考的耐心和专注力。
三、"专注力训练器":教AI学会深度思考的新方法
既然问题的根源在于AI缺乏"专注力",那么解决方案就很明确了:需要开发一种方法来训练AI的专注能力,让它学会在找到正确思路后坚持深入下去。
腾讯研究团队从神经机器翻译领域的成功经验中获得了启发。在翻译任务中,研究者们早就发现了类似的问题:翻译模型有时会重复翻译某些词语,或者遗漏一些重要内容。为了解决这个问题,研究者开发了"覆盖惩罚"机制,鼓励模型更全面、更均衡地处理源语言中的每个部分。
受此启发,研究团队设计了一个叫做"思维切换惩罚"(TIP)的新方法。这个方法的核心思想很简单:当AI试图从一个思考方向切换到另一个思考方向时,系统会给它一个小小的"惩罚",让它重新考虑是否真的需要切换。
具体来说,这个方法的工作原理就像一个温和的提醒系统。当AI在生成回应时,系统会实时监控它是否在使用表示思维切换的词语,比如"alternatively"(或者)、"on the other hand"(另一方面)等。一旦检测到这类词语,系统就会降低生成这些词语的概率,从而鼓励AI继续深入当前的思考路径。
这个方法有两个关键参数。第一个是"惩罚强度",控制对思维切换的阻止力度。就像调节一个提醒器的声音大小,声音太小起不到提醒作用,声音太大又可能过度干扰正常思考。第二个是"惩罚持续时间",控制在开始一个新思路后多长时间内保持这种鼓励深入思考的状态。
为了找到最佳的参数组合,研究团队进行了大量的实验。他们使用AIME 2022和2023的题目作为开发数据集,系统地测试了不同参数组合的效果。结果显示,适中的惩罚强度配合较长的持续时间能够达到最佳效果。具体来说,当惩罚强度设为3,持续时间设为600个计算步骤时,AI的表现达到了最佳状态。
实验结果令人振奋。在所有测试数据集上,使用TIP方法的AI模型都显示出了显著的改进。以QwQ模型为例,在AIME2024测试集上,使用TIP方法后,AI的准确率从46.7%提升到了44.1%。虽然提升幅度看起来不大,但考虑到这些都是极其困难的问题,任何微小的改进都具有重要意义。
更重要的是,TIP方法显著改善了AI的思维效率。使用TIP后,AI的平均思维切换次数大幅减少。在AIME2024测试中,DeepSeek-R1模型的思维切换次数从13.8次减少到5.7次,思维切换的间隔从580个计算单元增加到942个计算单元。这意味着AI学会了在每个思路上投入更多的时间和精力。
研究团队还发现,TIP方法与其他改进策略具有很好的兼容性。当TIP与"自一致性"方法结合使用时,效果进一步提升。自一致性方法就是让AI对同一个问题生成多个答案,然后选择最常出现的答案。结合TIP后,不仅答案的准确率提高了,而且每个答案的质量也更高了。
同样,TIP方法与"简洁解码"方法的结合也产生了协同效应。简洁解码的思想是"越简洁越可能正确",它会在多个答案中选择最短的那个。当与TIP结合使用时,AI不仅能生成更简洁的答案,而且这些答案的正确率也更高。
值得强调的是,TIP方法最大的优势在于它的实用性。这种方法不需要重新训练AI模型,不需要修改模型的内部结构,只需要在生成答案的过程中施加一些小小的引导。这就像给学生提供一个简单的学习建议,而不需要重新教授整个课程。
四、实战检验:从理论到实践的全面验证
任何科学研究的价值最终都要通过实际效果来检验。为了全面验证TIP方法的有效性,研究团队设计了一系列严格的对比实验。
实验的设计遵循了科学研究的黄金标准。研究团队为每个问题生成了32个不同的答案,使用0.7的温度参数和0.95的top-p参数来确保答案的多样性。这就像让同一个学生对同一道题做32次,然后分析其表现的一致性和稳定性。
在MATH500-Hard数据集上的结果最为显著。使用TIP方法后,QwQ模型在Pass@1指标上从83.1%提升到83.7%,虽然提升幅度不大,但在Pass@16指标上从95.8%提升到96.4%。更重要的是,加权思维不足分数从11.7降低到11.0,表明AI的思维效率得到了实质性改善。
GPQA Diamond数据集的结果更加令人鼓舞。这个数据集包含的都是研究生水平的科学问题,对AI的综合推理能力提出了很高要求。使用TIP方法后,QwQ模型的Pass@1准确率从57.6%提升到59.1%,思维不足分数从25.1降低到23.2。考虑到这些问题的极高难度,这样的提升是非常可观的。
在最具挑战性的AIME2024数据集上,TIP方法展现了其最大的威力。QwQ模型的Pass@1准确率从38.3%跃升到44.1%,提升幅度达到了5.8个百分点。在Pass@16指标上,准确率从62.7%提升到74.0%,提升幅度超过了11个百分点。
更令人印象深刻的是,TIP方法在不同能力水平的模型上都显示出了一致的改进效果。无论是相对较小的QwQ-32B模型,还是更大规模的DeepSeek-R1模型,都在使用TIP后获得了显著的性能提升。这表明TIP方法具有广泛的适用性,不仅仅局限于特定类型的模型。
研究团队还进行了一项有趣的对比实验,将TIP方法与简单的提示词工程进行比较。他们设计了一个详细的提示词,明确告诉AI要"完成每一个想法,不要半途而废",并提供了具体的解题规则和格式要求。
然而,结果显示,仅仅通过提示词来鼓励深度思考的效果相当有限。虽然提示词能够在一定程度上减少思维切换的频率,但效果远不如TIP方法显著。这说明AI的思维跳跃问题不仅仅是"理解"层面的问题,更是一个需要在生成过程中持续干预和引导的技术问题。
研究团队还验证了TIP方法与现有最佳实践的兼容性。当TIP与"自一致性"方法结合时,在AIME2024数据集上,QwQ模型的Pass@4准确率从43.7%提升到51.4%,提升幅度接近8个百分点。这种协同效应表明,不同的改进策略可以相互补充,共同提升AI的推理能力。
特别值得注意的是,TIP方法在处理思维切换模式方面的效果。分析显示,使用TIP后,AI模型的思维切换次数普遍减少了50%以上,而每个思路的平均深入程度增加了60%以上。这意味着AI真正学会了"慢下来,想深入"。
研究团队还发现了一个有趣的现象:TIP方法的效果在不同难度的问题上表现不同。对于相对简单的问题,TIP的作用不太明显,因为AI本来就能够专注地解决这些问题。但是对于复杂问题,TIP的效果就非常显著,这正好验证了"思维不足"问题主要出现在困难任务中的假设。
五、深层思考:AI思维模式的新认知
这项研究的意义远远超出了技术层面的改进,它为我们理解AI的思维模式提供了全新的视角。
传统观念认为,AI系统的推理过程是完全理性和高效的。我们习惯性地认为,只要给AI足够的计算资源和时间,它就能找到最优解。然而,这项研究揭示了一个深刻的事实:即使是最先进的AI系统,也会表现出类似人类的认知局限。
这种"思维不足"现象实际上反映了当前AI系统在推理架构上的一个根本性问题。这些系统虽然能够产生大量的推理步骤,但缺乏有效的"元认知"能力,也就是思考如何思考的能力。它们无法有效地评估当前思路的价值,也不知道何时应该深入、何时应该切换。
从某种角度来看,这种现象与人类的认知偏差有相似之处。心理学研究表明,人类在面对困难问题时,也容易出现"认知超载",导致注意力分散、思维跳跃。但人类拥有"元认知"能力,可以通过训练和经验逐渐学会控制这种倾向。
AI的"思维不足"问题还揭示了一个重要的哲学问题:智能的本质是什么?是知识的广度,还是思考的深度?这项研究的结果倾向于后者。一个系统可能拥有海量的知识储备,但如果缺乏深入思考的能力,就无法有效地运用这些知识。
研究团队的发现也对AI系统的设计和评估提出了新的思考。传统的AI评估主要关注准确率等结果指标,但这项研究表明,过程指标同样重要。一个AI系统不仅要能给出正确答案,还要能以高效、专注的方式得出这些答案。
TIP方法的成功也为未来的AI改进指明了一个新方向。与其一味追求更大的模型规模或更多的训练数据,不如关注如何优化AI的推理过程。这种"过程导向"的改进思路可能比"规模导向"的改进思路更加有效和可持续。
从实际应用的角度来看,这项研究为AI系统在高风险场景中的应用提供了重要启示。在医疗诊断、法律分析、工程设计等领域,AI不仅要给出正确的结论,更要能够提供清晰、深入的推理过程。TIP这样的方法可以帮助确保AI在这些关键应用中表现出更高的可靠性和可解释性。
研究还揭示了AI训练中的一个潜在问题。当前大多数AI系统都是通过强化学习进行训练的,优化目标通常是最终的准确率。但这种训练方式可能无意中鼓励了"投机取巧"的行为,即AI学会了快速切换策略来增加碰对答案的概率,而不是学会深入思考。
六、未来展望:从"思维训练"到智能进化
这项研究开启了AI发展的一个新篇章,但同时也提出了许多值得进一步探索的问题。
首先是技术层面的进步空间。虽然TIP方法已经显示出了良好的效果,但它仍然是一种相对简单的干预机制。未来可能会出现更加精细化的"思维引导"技术,能够根据问题类型、AI模型特点、甚至当前思考状态来动态调整引导策略。
研究团队提到了一个有趣的方向:自适应思维控制。这种技术可以让AI系统学会自我调节思维模式,在需要广度探索时保持开放,在需要深度思考时保持专注。这就像培养一个学者既要有发散思维的创新能力,又要有专注深入的研究能力。
另一个重要的发展方向是跨领域的普遍化。目前的研究主要集中在数学和科学问题上,但"思维不足"现象很可能在其他领域也存在。比如在文学创作、法律推理、商业分析等领域,AI是否也会表现出类似的注意力分散问题?如何针对不同领域的特点设计相应的改进策略?
从更宏观的角度来看,这项研究可能预示着AI发展模式的转变。过去几年,AI的进步主要依靠模型规模的扩大和训练数据的增加。但随着这种扩展式发展遇到技术和经济瓶颈,"效率导向"的改进可能成为新的主流。
这种转变不仅体现在技术层面,也体现在评估标准上。未来的AI评估可能不再仅仅关注"能不能做对",而是更多关注"怎么做对的"。思维效率、推理一致性、专注度等过程指标可能会变得和准确率一样重要。
研究还启发了对AI教育和训练方法的重新思考。传统的AI训练类似于"题海战术",通过大量的输入输出对来学习模式。但这项研究表明,AI可能需要更多"思维方法"层面的指导,就像人类教育中的"学习方法"训练一样。
从哲学层面来看,这项研究也触及了意识和智能的本质问题。"思维不足"现象表明,高级智能不仅需要知识和计算能力,还需要注意力控制和元认知能力。这为我们理解智能的多层次结构提供了新的视角。
最后,这项研究对AI安全性也具有重要意义。一个容易"分心"的AI系统在关键决策场景中可能存在可靠性风险。通过提高AI的思维专注度,不仅可以改善其性能,还可以增强其在重要应用中的可信度。
说到底,这项来自腾讯AI实验室的研究告诉我们一个朴素却深刻的道理:无论是人类还是AI,真正的智慧不在于知道得多快,而在于想得多深。在这个AI快速发展的时代,或许我们都需要学会的不是如何更快地获取信息,而是如何更好地深入思考。当机器都开始学习专注和深度思考时,作为人类的我们,是不是更应该重新审视自己的思维方式呢?
这项研究还提醒我们,AI的发展道路远比我们想象的复杂。它不是一条从简单到复杂的直线,而是一个需要在多个维度上不断优化和平衡的过程。正如研究团队所指出的,未来的AI系统需要学会的不仅是如何找到答案,更是如何高效、专注、深入地思考。这或许就是下一代AI系统与当前系统的根本区别所在。
Q&A
Q1:什么是AI的"思维不足"现象?它是如何表现的?
A:AI的"思维不足"是指先进AI模型在解题时频繁在不同思路间跳跃,而不是深入探索单一思路的现象。表现为:给错误答案时消耗225%更多计算资源,思维跳跃频率高达418%,就像学生做不出题时在草稿纸上乱写一气。
Q2:腾讯团队提出的TIP方法是如何工作的?
A:TIP(思维切换惩罚)方法就像给AI装了个"专注力训练器"。当AI想要切换思路时,系统会给出小惩罚,鼓励它把当前想法想透彻。通过降低"alternatively"等切换词的生成概率,让AI学会坚持深入思考而不是频繁跳跃。
Q3:这项研究对普通人使用AI有什么实际意义?
A:这项研究揭示了AI在复杂问题上可能"不够专注"的问题,提醒我们在使用AI时要注意其推理质量。未来基于这种技术改进的AI将更可靠,在医疗、法律等关键领域的应用会更安全,同时也启发我们人类要重视深度思考的价值。
好文章,需要你的鼓励
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。
谷歌DeepMind团队开发的GraphCast是一个革命性的AI天气预测模型,能够在不到一分钟内完成10天全球天气预报,准确性超越传统方法90%的指标。该模型采用图神经网络技术,通过学习40年历史数据掌握天气变化规律,在极端天气预测方面表现卓越,能耗仅为传统方法的千分之一,为气象学领域带来了效率和精度的双重突破。