微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 等一下,我们真的需要"等"吗?——伦敦大学学院团队发现AI推理过程中的"思考"可能是多余的

等一下,我们真的需要"等"吗?——伦敦大学学院团队发现AI推理过程中的"思考"可能是多余的

2025-06-20 09:27
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-20 09:27 科技行者

这项由伦敦大学学院的王晨龙团队与华盛顿大学合作完成的研究发表于2025年6月,论文题目为《Wait, We Don't Need to "Wait"! Removing Thinking Tokens Improves Reasoning Efficiency》。有兴趣深入了解的读者可以通过arXiv:2506.08343v2访问完整论文。

想象一个学生在做数学题时的情形:他写下"嗯..."、"等等..."、"让我再想想..."这样的话,然后继续计算。现在的AI推理模型就像这个学生一样,在解决问题时会生成大量的"思考"词汇,比如"Wait"(等等)、"Hmm"(嗯)、"Alternatively"(或者说)等等。这些看似合理的"自我反思"过程被认为是高级推理的标志,但伦敦大学学院的研究团队却提出了一个颠覆性的观点:这些"等等"可能完全是多余的。

这项研究的核心发现令人惊讶——当研究团队开发出一种名为NOWAIT的方法,专门阻止AI模型生成这些"思考"词汇时,模型不仅没有变笨,反而在保持准确性的同时,推理速度大幅提升。具体来说,在多个测试中,模型的输出长度减少了27%到51%,这意味着AI可以用更少的"话"来得出同样正确的答案。

这个发现的意义远超技术层面。目前的大型推理模型,比如ChatGPT-O1、DeepSeek-R1等,都会产生冗长的思考过程,有时候一个简单问题的回答可能包含成千上万个词汇。这不仅消耗大量计算资源,还增加了用户等待时间。如果NOWAIT方法得到广泛应用,它可能彻底改变我们与AI交互的方式,让AI助手变得更加高效和实用。

研究团队的方法简单而巧妙:他们识别出AI模型中那些表示"自我反思"的关键词,然后在模型生成文本时主动阻止这些词汇的出现。这就像给一个爱说"嗯"的人装上了过滤器,强迫他直接说重点。令人意外的是,去掉这些"思考"词汇后,AI的表现并没有下降,甚至在某些任务上还有所提升。

更重要的是,这项研究不仅适用于文字推理,还扩展到了图像和视频理解任务。无论是回答关于图片的问题,还是分析视频内容,NOWAIT方法都表现出了一致的效果。这表明"过度思考"可能是当前AI系统的一个普遍问题,而不仅仅局限于某个特定领域。

研究团队测试了五个不同的AI模型系列,包括QwQ、Phi4、Qwen3、Kimi-VL和QvQ等,在十个不同的基准测试上验证了他们的方法。这些测试涵盖了从数学推理到视觉理解的各个方面,结果都显示NOWAIT方法能够在保持准确性的同时显著提高效率。

这项研究的另一个重要发现是,不同类型的AI模型对"思考"词汇的依赖程度不同。通过强化学习训练的模型(类似于通过大量练习学会推理的学生)对这些词汇的依赖相对较小,而通过"知识蒸馏"方法训练的模型(类似于通过模仿老师学习的学生)则更加依赖这些"思考"过程。当去掉这些词汇后,后者的表现下降更明显,这揭示了不同训练方法对AI推理模式的深层影响。

一、为什么AI会"说废话":推理模型的思考陷阱

当我们观察现代AI推理模型的工作过程时,会发现一个有趣的现象:它们经常像人类一样"自言自语"。这种现象最初被研究者们视为AI获得高级推理能力的标志,被称为"Aha Moment"(顿悟时刻)现象。

这种现象的产生有其技术根源。现代的大型推理模型通过一种叫做强化学习的方法进行训练,这个过程类似于让学生通过大量练习来掌握解题技巧。在这个过程中,模型学会了模仿人类的思考模式,包括那些看似有用的"思考"表达。当模型遇到复杂问题时,它会自然地生成"Wait"、"Hmm"、"Let me think"这样的表达,然后开始重新审视自己的推理过程。

然而,这种看似合理的行为却带来了严重的效率问题。研究团队将这种现象称为"overthinking"(过度思考)问题。就像一个学生在考试时反复检查同一道题,虽然看起来很认真,但实际上是在浪费时间。AI模型的这种行为表现为生成大量冗余的推理步骤,有时一个简单问题的回答可能包含数千个词汇,其中很大一部分都是重复性的"思考"过程。

更令人意外的是,这些"思考"表达往往并不能真正提高推理质量。研究团队发现,模型在生成这些表达后,往往会进入无谓的验证循环,反复检查已经正确的答案,或者探索明显错误的推理路径。这就像一个人在超市里反复检查购物清单,即使已经确认买齐了所有物品。

这种现象在多模态推理中更为明显。当AI处理图像或视频时,它可能会生成诸如"Let me look at this more carefully"(让我仔细看看)或"Actually, I think..."(实际上,我认为...)这样的表达,然后重新分析已经正确识别的内容。这不仅增加了计算成本,还降低了用户体验。

研究团队通过大量实验发现,这种"思考"行为的频率与模型的训练方式密切相关。通过强化学习训练的模型倾向于产生更多的自我反思,因为这种训练方式鼓励模型探索多种可能性。然而,这种探索往往变成了无意义的重复,就像一个人在做决定时反复权衡已经明确的选项。

二、NOWAIT方法:给AI装上"直奔主题"的过滤器

面对AI模型的"废话连篇"问题,研究团队开发了一个巧妙而简单的解决方案——NOWAIT方法。这个方法的核心思想就像给一个爱绕弯子的朋友装上过滤器,强迫他直接说重点。

NOWAIT方法的工作原理可以用一个简单的比喻来理解:想象你正在和一个总是说"嗯..."、"那个..."、"怎么说呢..."的朋友对话。你决定每当他要说这些词时就轻轻拍他一下,提醒他直接说重点。NOWAIT做的就是类似的事情——它在AI模型生成文本的过程中,主动识别那些表示"思考"的关键词,然后阻止它们的生成。

具体来说,研究团队首先建立了一个"思考"词汇列表,包括"wait"、"alternatively"、"hmm"、"but"、"however"、"check"、"verify"等16个常见的反思性表达。这个列表是通过分析大量AI输出样本得出的,就像统计一个人最常说的口头禅一样。

接下来是技术实现的关键步骤。当AI模型在生成文本时,NOWAIT会实时监控每个即将生成的词汇。如果检测到列表中的任何一个"思考"词汇,系统就会将该词汇的生成概率调整为极低的负值,迫使模型选择其他词汇继续表达。这个过程就像在AI的"嘴边"安装了一个智能过滤器,只允许有用的内容通过。

值得注意的是,这种干预是非常精准的。NOWAIT不会阻止模型的正常推理过程,它只是防止模型生成那些明显的"思考"标记。例如,模型仍然可以说"首先计算..."或"根据给定条件...",但不能说"等等,让我重新想想..."。这就像是在保持对话内容完整的同时,去掉了那些无意义的语气词。

研究团队特别强调,NOWAIT是一个"即插即用"的解决方案,不需要重新训练AI模型。这意味着这个方法可以直接应用到现有的各种AI系统中,就像给现有的软件安装一个插件一样简单。无论是处理文本的语言模型,还是分析图像和视频的多模态模型,都可以立即受益于这种方法。

在实际应用中,NOWAIT的效果立竿见影。研究团队发现,使用这种方法后,AI模型的回答变得更加直接和简洁。原本可能需要2000多个词汇的回答,现在只需要1000个词汇就能完成,而且准确性不仅没有下降,在某些情况下还有所提升。这就像是把一个冗长的演讲压缩成精炼的要点,既节省了时间,又提高了信息传达的效率。

三、实验验证:从数学题到视频理解的全面测试

为了验证NOWAIT方法的有效性,研究团队设计了一系列全面而严格的实验,就像一个医生在开处方前需要进行各种检查一样。这些实验覆盖了AI推理的三个主要领域:文本推理、视觉推理和视频推理,确保NOWAIT方法在各种情况下都能发挥作用。

在文本推理方面,研究团队选择了几个极具挑战性的数学竞赛基准,包括AMC 2023、AIME 2024和AIME 2025。这些测试就像是AI界的"高考数学题",需要复杂的逻辑推理和多步骤计算。结果令人惊喜:使用NOWAIT方法的AI模型在保持甚至提高准确性的同时,生成的文本长度大幅减少。以QwQ-32B模型为例,在AIME 2025测试中,准确率从66.67%提升到68.00%,同时输出长度从15240个词汇减少到10548个,降幅达到31%。这就像是一个学生不仅答题更准确了,而且解题过程也更简洁了。

更令人印象深刻的是不同模型的一致性表现。无论是QwQ-32B、Phi4-Reasoning-Plus,还是Qwen3-32B,所有测试的模型都显示出类似的改进模式。这种一致性表明,过度思考是现代AI推理模型的一个普遍问题,而不是某个特定模型的缺陷。就像发现所有品牌的汽车都有同样的设计缺陷一样,这个发现具有广泛的应用价值。

在视觉推理测试中,NOWAIT方法展现出了更加显著的效果。研究团队使用了MMMU、MMMU-Pro、MathVista和EMMA-mini等多个视觉理解基准。这些测试要求AI同时处理图像和文本信息,就像要求一个人同时看图说话和解决数学问题。结果显示,Kimi-VL-A3B-Thinking模型在应用NOWAIT后,输出长度平均减少了49%,虽然准确率略有下降(约3.42个百分点),但这种轻微的准确率下降相对于巨大的效率提升来说是完全可以接受的。

视频推理测试进一步证实了NOWAIT的有效性。在MMVU和VSI-Bench测试中,QvQ-72B-Preview模型的输出长度减少了27%,而准确率几乎没有变化。这个结果特别重要,因为视频理解通常是AI最具挑战性的任务之一,需要模型在时间维度上跟踪和理解复杂的信息。

研究团队还进行了一个特别有趣的对比实验,将NOWAIT与其他效率优化方法进行比较。他们测试了Token-Budget(词汇预算)和O1-Pruner(O1剪枝器)等现有方法。结果显示,Token-Budget方法虽然在某些简单模型上有效,但对于现代大型推理模型的效果有限。O1-Pruner虽然能够减少输出长度,但会严重损害模型性能。相比之下,NOWAIT在减少输出长度的同时几乎不影响准确性,有时甚至能提高性能。

特别值得注意的是不同训练方法对NOWAIT效果的影响。研究团队发现,通过强化学习训练的模型(如Qwen3-32B)对NOWAIT的适应性更好,而通过知识蒸馏训练的模型(如Qwen3的较小版本)在应用NOWAIT后性能下降更明显。这个发现揭示了AI模型内部工作机制的重要差异,就像发现不同学习方式的学生对教学方法有不同的适应性一样。

四、深入案例分析:AI思考模式的真实对比

为了更直观地展示NOWAIT方法的效果,研究团队提供了详细的案例分析,让我们能够近距离观察AI在应用前后的思考模式变化。这些案例就像是AI思维的"显微镜观察",揭示了那些看似合理的"思考"过程实际上是如何妨碍效率的。

在一个典型的数学推理案例中,原始模型面对一个关于正实数x和y满足两个方程的问题时,产生了极其冗长的推理过程。模型首先写道:"嗯,我需要解决这个问题...",然后开始了第一轮计算。但很快,它又说:"等等,让我重新检查一下...",然后重新进行了几乎相同的计算。接着是"也许我应该尝试另一种方法...",又是一轮重复性的推理。整个过程中,模型进行了5次本质上相同的代数推导,总共使用了6424个词汇才得出答案。

相比之下,应用NOWAIT方法后,同一个模型解决同样问题的过程变得清晰而直接。它直接从方程组开始推导,通过因式分解得到解,然后进行验证,整个过程只用了5560个词汇,减少了13%的长度。更重要的是,这个简化版本实际上更容易理解,推理逻辑更加清晰,就像是把一篇冗长的论文编辑成精炼的摘要。

在视频理解的案例中,对比更加明显。面对一个关于钟摆实验的视频问题,原始模型产生了六次明显的自我反思,包括"等一下,也许我应该考虑..."、"实际上,让我重新思考..."等表达。这些反思并没有带来新的洞察,反而让整个分析过程变得支离破碎,就像一个人在看电影时不断暂停来重新解释已经理解的情节。

应用NOWAIT后,同样的模型对视频的分析变得流畅而系统。它按照时间顺序描述视频内容,使用"开始时"、"接着"、"在视频过程中"、"最后"这样的时间标记来组织思路。这种组织方式不仅更加高效,也更容易跟随,最终得出了同样正确的答案,但用词减少了约27%。

研究团队特别指出,这些案例揭示了一个重要现象:AI的"思考"过程往往是表面的,而非实质性的。当模型说"让我重新考虑这个问题"时,它往往并没有真正改变推理策略,而是重复之前的推理步骤。这就像一个人在做决定时反复说"让我再想想",但实际上只是在重复已经考虑过的因素。

更有趣的是,研究团队发现不同类型的AI模型表现出不同的"思考"模式。强化学习训练的模型倾向于产生更多探索性的思考,经常尝试多种不同的解题路径。而知识蒸馏训练的模型则更倾向于产生验证性的思考,反复检查同一个推理步骤。这种差异反映了不同训练方法对AI认知模式的深层影响。

五、技术机制探秘:NOWAIT如何改变AI的表达方式

NOWAIT方法的核心技术机制虽然概念简单,但在实际实现中涉及了精巧的工程技术。理解这个机制有助于我们更好地认识AI语言生成的工作原理,以及如何通过巧妙的干预来改善AI的行为模式。

从技术角度来看,AI模型生成文本的过程类似于一个复杂的预测游戏。每当模型需要生成下一个词汇时,它会为词汇表中的每个词计算一个概率分数,然后根据这些分数选择最合适的词。NOWAIT的工作原理就是在这个选择过程中进行干预,就像在一场选举中改变某些候选人的得票数一样。

具体的实现过程分为三个关键步骤。首先是建立反思关键词列表,这个过程通过分析QwQ-32B模型在AIME 2025测试中的32次独立运行结果完成。研究团队使用双换行符作为分隔标记,识别出最频繁出现的15个单语词汇,形成了初始的关键词集合。这个过程就像是分析一个人的说话习惯,找出他最常用的口头禅。

第二步是将这些关键词扩展为特定模型的词汇级别列表。因为不同的AI模型可能用不同的方式表示同一个词汇,比如"wait"可能被表示为" wait"、"Wait"、" Wait"、".wait"或"WAIT"等变体。研究团队通过遍历整个模型词汇表,找出所有包含关键词的变体形式。这个过程需要人工筛选,剔除那些可能被误判的词汇,比如"Ohio"虽然包含"oh"但显然不是思考表达。

第三步是在推理过程中实施关键词抑制。当模型生成文本时,NOWAIT使用一个特殊的logit处理器来调整词汇的生成概率。对于任何被标记为反思关键词的词汇,其对应的logit值(决定选择概率的数值)被设置为一个很大的负数。这个操作相当于告诉模型:"这个词汇几乎不可能被选择",从而迫使模型选择其他词汇来继续表达。

这种技术实现的巧妙之处在于它的非侵入性。NOWAIT不需要修改AI模型的内部结构或重新训练,它只是在文本生成的最后阶段进行干预。这就像是在汽车的排气管上安装过滤器,而不需要改造发动机。这种设计使得NOWAIT可以轻松地应用到各种不同的AI模型上,具有很强的通用性。

研究团队还发现,不同模型对关键词抑制的响应模式存在有趣的差异。一些模型在被禁止使用某些思考词汇后,会自然地采用更直接的表达方式。而另一些模型则可能尝试使用近义词来绕过限制,比如用"actually"代替被禁止的"wait"。这种现象揭示了AI模型在语言生成过程中的适应性和创造性。

更深层的分析显示,NOWAIT的有效性可能与AI模型的注意力机制有关。当模型生成思考词汇时,它的注意力往往会转向内部的推理状态,而不是专注于解决实际问题。通过阻止这些词汇的生成,NOWAIT实际上是在引导模型将注意力集中在更有价值的内容生成上,从而提高了整体的推理效率。

六、研究局限与未来展望:完美方案背后的思考

尽管NOWAIT方法展现出了令人印象深刻的效果,但研究团队也坦诚地指出了这项工作的局限性,这种科学的严谨态度让这项研究更加可信。同时,这些局限性也为未来的研究指明了方向。

首先是基准测试的局限性。虽然研究团队测试了十个不同的基准,覆盖了文本、图像和视频三个模态,但现有的基准测试无法完全展现AI模型推理能力的所有方面。就像用几张试卷来评估一个学生的全部能力一样,这种评估方法难免有其盲点。某些需要深度创造性思维或复杂多步推理的任务可能需要更多的"思考"过程,而这些任务在当前的基准测试中可能没有得到充分体现。

第二个局限是关键词识别的主观性。虽然研究团队通过数据分析确定了16个核心反思关键词,但这个列表可能不够全面,也可能包含一些在特定上下文中实际有用的词汇。就像确定哪些话是"废话"一样,这个判断过程难免带有一定的主观色彩。不同的研究团队可能会得出略有差异的关键词列表。

第三个问题是模型适应性的差异。研究显示,通过知识蒸馏训练的模型对NOWAIT方法的适应性较差,在某些困难任务上性能下降较为明显。这表明NOWAIT可能不是一个适用于所有AI模型的通用解决方案,需要根据具体的模型类型和应用场景进行调整。

研究团队还指出,当前的实验主要集中在开源模型上,对于那些商业化的、更大规模的AI系统,NOWAIT的效果可能会有所不同。这些大型模型可能拥有更复杂的推理模式,需要更精细的干预策略。

尽管存在这些局限,NOWAIT方法为AI效率优化开辟了一个全新的研究方向。传统的效率优化方法主要关注模型架构的改进或训练算法的优化,而NOWAIT证明了在推理阶段进行简单干预也能带来显著的效果改进。这种思路可能激发更多创新的优化方法。

未来的研究可能会在几个方向上进一步发展。首先是动态关键词识别,根据具体任务和上下文自动调整需要抑制的词汇列表。其次是更精细的干预策略,不是简单地禁止某些词汇,而是根据推理的进展动态调整干预程度。第三是扩展到更多的AI应用领域,比如代码生成、创意写作等。

研究团队特别提到,NOWAIT方法的成功也提出了一个更深层的问题:我们是否过度神化了AI的"思考"过程?人类的思维确实包含大量的内在反思和自我监控,但这并不意味着AI必须完全模仿这种模式。也许对于AI来说,更直接、更高效的表达方式才是最优的选择。

七、实际应用前景:从实验室到现实世界的转换

NOWAIT方法的成功不仅在学术界引起了关注,更重要的是它为现实世界的AI应用带来了直接的价值。考虑到当前AI服务的高昂计算成本和用户对响应速度的期待,这种效率提升具有巨大的商业价值和社会意义。

在商业AI服务中,计算成本通常是按照生成的词汇数量来计算的,就像出租车按里程计费一样。如果NOWAIT能够将输出长度减少30%到50%,这意味着服务提供商可以将运营成本降低相同的比例,或者在相同成本下为用户提供更多的服务。对于像ChatGPT、Claude这样的大规模AI服务来说,这种成本节约是极其可观的。

从用户体验的角度来看,NOWAIT的价值更加明显。当前的AI助手在回答复杂问题时经常产生冗长的输出,用户需要花费大量时间阅读这些内容来找到真正有用的信息。NOWAIT使AI的回答变得更加简洁和直接,这对于那些需要快速获取信息的用户来说是巨大的改进。就像把一本厚重的百科全书压缩成精炼的知识卡片一样,信息的密度和可用性都得到了提升。

在教育领域,NOWAIT方法可能带来特别显著的好处。当AI作为教学助手时,过于冗长的解释可能会让学生感到困惑或失去耐心。更简洁、更直接的回答能够帮助学生更好地理解概念,提高学习效率。特别是对于那些注意力集中时间有限的年轻学习者,这种改进可能是革命性的。

在专业工作环境中,NOWAIT的应用前景同样广阔。律师使用AI分析法律文件、医生使用AI诊断辅助、工程师使用AI解决技术问题时,都需要快速、准确的答案。减少不必要的"思考"过程能够让这些专业人士更快地获得所需信息,提高工作效率。

然而,NOWAIT的实际部署也面临一些挑战。首先是个性化需求的问题。不同的用户可能对AI回答的详细程度有不同的偏好。一些用户可能确实希望看到AI的"思考"过程,认为这有助于建立信任和理解。因此,理想的解决方案可能是让用户可以选择是否启用NOWAIT模式。

其次是特定领域的适应性问题。在某些需要深度分析的专业领域,完整的推理过程可能确实有价值。比如在学术研究、法律分析或医疗诊断中,用户可能需要了解AI得出结论的完整逻辑链条。在这些情况下,可能需要开发更精细的NOWAIT变体,只去除那些真正冗余的部分,而保留有价值的推理步骤。

第三是技术整合的挑战。虽然NOWAIT是一个"即插即用"的解决方案,但将其整合到现有的大规模AI服务中仍然需要仔细的工程实现。特别是在处理多语言、多模态内容时,关键词识别和抑制机制需要更加复杂的设计。

研究团队建议,NOWAIT的实际部署应该采用渐进式的方法。首先在特定的应用场景中进行小规模测试,收集用户反馈,然后根据实际效果逐步扩展应用范围。这种方法能够最大化收益,同时最小化潜在的风险。

说到底,NOWAIT方法的真正价值在于它证明了一个简单而深刻的观点:有时候,少即是多。在AI技术日益复杂的今天,这种回归简洁和效率的理念可能正是我们所需要的。当AI变得更加高效和直接时,它就能更好地服务于人类的需求,成为真正有用的工具,而不是展示复杂推理过程的表演者。

这项由伦敦大学学院团队完成的研究为我们提供了一个全新的视角来思考AI的发展方向。也许未来最好的AI不是那些能够产生最复杂思考过程的系统,而是那些能够最直接、最高效地解决问题的助手。NOWAIT方法只是这个方向上的第一步,但它已经为我们展示了令人兴奋的可能性。对于那些希望深入了解技术细节的读者,完整的研究论文可以通过arXiv:2506.08343v2获取。

Q&A

Q1:NOWAIT方法是什么?它具体怎么工作? A:NOWAIT是一种让AI推理更高效的方法,它的工作原理很简单:识别AI在回答问题时经常说的"等等"、"嗯"、"让我想想"这类思考词汇,然后在AI生成回答时主动阻止这些词汇出现。就像给爱说废话的人装了个过滤器,强迫他直接说重点。

Q2:使用NOWAIT会不会让AI变笨?准确性会下降吗? A:令人惊讶的是,不会!研究显示,去掉这些"思考"词汇后,AI不仅没有变笨,在某些测试中准确率甚至还略有提升。同时输出长度减少了27%-51%,这意味着AI用更少的话就能给出同样正确的答案。

Q3:为什么AI会产生这些看似无用的"思考"表达? A:这是AI训练过程的副产品。现代AI模型通过模仿人类的思考模式来学习推理,包括那些"嗯"、"等等"的表达。但实际上,这些表达往往只是重复已经考虑过的内容,就像一个人在做决定时反复说"让我再想想",但并没有真正想出新内容。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-