当我们面对复杂问题时,会根据情况选择不同的思考方式——有时需要逐步分析,有时需要跳跃性思维,有时需要类比推理。而现在的大型语言模型虽然很聪明,但在推理时往往依赖人工设计的固定提示词,就像只会按照食谱做菜的厨师,缺乏灵活应变的能力。
这项由大连理工大学的熊涛、浙江大学的张胜誉(通讯作者)以及独立研究者胡泽维、浙江大学的范文燕共同完成的研究,发表于2025年7月1日的arXiv预印本服务器(论文编号:arXiv:2507.00606v1),并将在2025年6月30日至7月3日于芝加哥举行的第48届国际ACM信息检索研究与发展会议(ICMR '25)上正式发表。感兴趣的读者可以通过DOI链接或arXiv平台访问完整论文。
这个研究团队提出了一个名为"推理混合"(Mixture of Reasoning,简称MoR)的全新训练框架,就像给AI装上了一个"思维工具箱",让它能够根据不同问题自主选择最合适的推理策略。这种方法不再需要人工为每种任务精心设计专门的提示词,而是让AI自己学会在面对问题时选择最佳的思考路径。
研究的核心创新在于将多种推理策略直接嵌入到语言模型的参数中,使其具备自主的、任务适应性的推理能力。通过两个关键阶段的训练——思维生成和监督微调数据集构建,研究团队让AI掌握了从多步推演到类比推理再到战略思考等多种思维模式。实验结果显示,他们的最佳模型MoR150在链式思维提示下达到了0.730的性能(比基线提升2.2%),在直接输入输出模式下更是达到了0.734(提升13.5%),证明了这种方法的显著效果。
一、传统推理方法的局限:像被困在固定轨道上的火车
当前的大型语言模型在处理复杂任务时主要依赖几种经典的推理技术。链式思维(Chain-of-Thought, CoT)就像一个严格按照步骤做事的人,会把复杂问题分解成一步步的推理过程。思维树(Tree-of-Thought, ToT)则像一个棋手,会考虑多种可能的走法并探索不同的推理路径。还有思维提示(Prompt-of-Thought, PoT)等方法,都在各自的领域展现出了不错的效果。
然而,这些方法都有一个共同的致命弱点:它们严重依赖人工精心设计的任务特定提示词。这就好比每次烹饪都需要一份详细的食谱,而且不同的菜需要完全不同的食谱。当面对新的任务类型时,研究人员必须重新设计提示词,这个过程既耗时又需要大量的专业知识。更糟糕的是,通用的提示词往往无法在所有任务上都表现出色,就像用做蛋糕的方法去炒菜,效果肯定不理想。
这种局限性在实际应用中造成了严重的瓶颈。每当遇到新的推理任务,工程师们都需要花费大量时间来设计和调试专门的提示词。这不仅增加了开发成本,也限制了AI系统的通用性和适应性。正是在这样的背景下,研究团队开始思考:能否让AI自己学会选择合适的推理方式,而不是总是依赖外部的指导?
二、MoR方法的核心理念:打造AI的"智慧工具箱"
面对传统方法的局限,研究团队提出了一个革命性的想法:与其每次都从外部告诉AI该如何思考,不如直接教会它多种思考方式,让它自己根据问题的特点来选择最合适的推理策略。这就是MoR(Mixture of Reasoning)方法的核心理念。
可以把MoR想象成为AI构建了一个内置的"智慧工具箱"。传统方法就像每次遇到问题都需要别人递工具给AI,而MoR则是让AI自己拥有了一整套工具,并且知道在什么情况下使用哪种工具。当面对数学问题时,它可能会选择逐步推演的方式;当处理创意写作时,它可能会采用类比思维;当解决战略问题时,它会运用更加复杂的多层次分析。
这种方法的巧妙之处在于,它通过监督学习的方式将多种推理策略直接嵌入到模型的参数中。这意味着AI不再需要外部提示就能自主进行复杂推理,就像一个经验丰富的医生,不需要每次都查阅教科书就能根据病症选择合适的诊断方法。
研究团队设计的MoR框架包含两个关键阶段。第一个阶段叫做"思维生成",就像为AI准备各种思考模板。第二个阶段是"监督微调数据集构建",相当于用这些模板和实际问题来训练AI,让它学会在什么情况下应该使用哪种思考方式。
三、思维生成阶段:构建推理策略的宝库
MoR方法的第一个关键阶段是思维生成,这个过程就像为AI建造一个推理策略的图书馆。研究团队意识到,对于参数较小的模型来说,仅仅告诉它"让我们一步步思考"是远远不够的,就像对一个刚学会走路的孩子说"跑马拉松"一样不现实。
为了解决这个问题,研究团队采用了一个聪明的策略:利用GPT-4o这样的先进大模型来生成大量的推理链模板。这个过程类似于请一位经验丰富的老师为学生准备各种解题思路的范例。他们总共生成了四套不同规模的推理链模板集合,分别包含50个、150个、300个和500个推理链,用数学符号表示为T = {t1, t2, ..., tM},其中M代表推理链的总数。
这些推理链模板覆盖了广泛的思维模式。有些模板专门用于多步逻辑推演,就像解数学题时的步骤分解;有些擅长类比推理,能够在不同概念之间建立联系;还有一些专注于战略思考,适合处理需要全局规划的复杂问题。每个模板都是一种特定的思考路径,为AI提供了丰富的推理工具选择。
这种方法的优势在于,它充分利用了现有先进模型的推理能力,将这些能力以模板的形式保存下来,然后传授给较小的模型。这就像将大师的技艺以口诀的形式记录下来,让学徒们能够学习和掌握。通过这种方式,即使是参数相对较少的模型也能获得多样化的推理能力。
四、数据集构建阶段:让AI学会"因地制宜"
有了丰富的推理链模板之后,接下来的挑战是如何让AI学会在合适的时机使用合适的推理策略。这就是MoR方法的第二个关键阶段——监督微调数据集构建,这个过程就像教会一个学生如何根据不同类型的题目选择相应的解题方法。
在这个阶段,研究团队首先精心挑选了几个具有代表性的推理数据集,包括HotpotQA(多跳问答)、StrategyQA(策略问答)、MMLU(大规模多任务语言理解)、BigTom(心理理论推理)和Trivial Creative Writing(创意写作)。这些数据集就像不同类型的考试题目,涵盖了从事实问答到创意思维的广泛范围。
数据集构建的过程相当巧妙。对于每一个训练样本,系统首先从推理链模板库中随机选择5个候选模板,然后利用GPT模型来判断哪个模板最适合解决当前问题。这就像请一位经验丰富的老师来判断,面对某道特定的题目,应该采用哪种解题思路最有效。
一旦确定了最佳的推理链模板,系统就会将这个模板与具体的问题结合起来,生成完整的推理过程。但这里还有一个重要的质量控制步骤:只有那些能够产生正确答案的推理过程才会被纳入最终的训练数据集。这确保了AI学习到的都是有效的推理模式,而不是错误的思考路径。
整个算法的核心逻辑可以用一个简单的流程来理解:拿到一个问题后,先从众多推理模板中挑选几个候选者,然后让"评判员"选择最合适的那个,接着用这个模板来解决问题,最后验证答案的正确性。只有通过验证的问题-推理-答案组合才会成为训练材料。这种严格的筛选机制确保了训练数据的高质量。
五、实验设计:全方位验证MoR的有效性
为了全面验证MoR方法的效果,研究团队设计了一系列细致的实验。他们选择了Qwen2.5-7B-Instruct作为基础模型,这是一个在业界广受认可的中等规模语言模型,具有良好的基础性能和代表性。
实验涵盖了五个不同类型的推理任务,每个任务都代表了推理能力的不同方面。HotpotQA专门测试多跳推理能力,就像解决需要多个步骤才能得出答案的复杂问题;StrategyQA要求模型进行战略性思考,类似于制定解决方案时需要考虑多个因素;MMLU是一个覆盖57个不同知识领域的综合性测试,就像一场跨学科的综合考试;BigTom专门评估模型的心理理论推理能力,即理解他人想法和信念的能力;而Trivial Creative Writing则测试模型在创意写作方面的表现。
研究团队分别训练了四个不同版本的MoR模型,使用的推理链模板数量分别为50个、150个、300个和500个,分别命名为MoR50、MoR150、MoR300和MoR500。这种设计允许他们研究推理链数量对性能的影响,就像测试不同大小的工具箱对工作效率的影响。
在测试阶段,研究团队采用了两种不同的提示策略。一种是链式思维(CoT)提示,相当于告诉模型"让我们一步步思考";另一种是输入输出(IO)提示,即直接要求模型给出答案而不提供额外指导。这种设计帮助研究人员理解MoR方法在不同指导程度下的表现。
六、实验结果:MoR展现出显著优势
实验结果证实了MoR方法的显著效果,就像一个精心训练的多面手在各种挑战中都表现出色。最引人注目的发现是MoR150模型的卓越表现,它在链式思维提示下达到了0.730的整体性能,比基础模型的0.708提升了2.2%。更令人惊喜的是,在直接输入输出模式下,MoR150达到了0.700的性能,而MoR500更是达到了0.734,相比基础模型的0.599有了13.5%的显著提升。
这些数字背后反映了MoR方法的几个重要特点。首先,即使在没有明确推理指导的情况下,经过MoR训练的模型也能自主进行有效推理,这说明推理策略已经成功地内化到了模型参数中。其次,不同规模的推理链模板集合表现出了不同的特点,MoR150在多数情况下表现最佳,这提示存在一个最优的模板数量平衡点。
在具体任务上,MoR方法展现出了明显的任务适应性。在相对简单的HotpotQA任务上,多个模型都达到了接近完美的性能,这表明基础推理能力已经足够应对直接的问答任务。但在更复杂的StrategyQA和MMLU任务上,MoR模型尤其是在使用链式思维提示时,显示出了明显的优势,这证明了结构化推理链对于复杂任务的重要性。
特别值得关注的是BigTom任务的结果,这个任务要求模型理解他人的心理状态和错误信念。在这个具有挑战性的任务上,MoR模型展现出了强大的心理理论推理能力,这对于AI系统理解人类行为和社会交互具有重要意义。
为了进一步验证结果的可靠性,研究团队将测试集从50个样本扩展到200个样本,对基础模型和MoR150进行了更大规模的比较。扩展测试的结果证实了之前的发现,MoR150继续保持着对基础模型的一致优势,证明了这种改进不是偶然现象,而是方法本身的内在优势。
七、深度分析:揭示MoR成功的奥秘
通过对实验结果的深入分析,研究团队发现了几个有趣的现象,这些发现就像解开了一个复杂谜题的关键线索。
首先,推理链模板的数量并不是越多越好。虽然直觉上可能认为更多的推理策略意味着更强的能力,但实验结果显示MoR150往往比MoR300和MoR500表现更好。这种现象类似于工具箱效应——当工具太多时,选择合适工具反而变得困难,而且在训练数据有限的情况下,过多的模板可能导致每种策略都没有得到充分的训练。
其次,链式思维提示和直接输入输出提示在不同情况下各有优势。对于复杂的推理任务,链式思维提示通常能够引导模型产生更好的结果,因为它明确鼓励了step-by-step的思考过程。但有趣的是,经过MoR训练的模型在直接输入输出模式下也表现出色,这说明推理能力已经深度内化,不再严重依赖外部提示。
第三个重要发现涉及任务复杂性的影响。在简单任务如HotpotQA上,大多数模型都能达到很高的性能,这表明基础模型已经具备了处理直接问答的能力。但在需要多步推理和策略思考的复杂任务上,MoR方法的优势就变得非常明显。这说明MoR方法特别适合那些需要深度思考和复杂推理的场景。
研究团队还通过具体案例深入分析了MoR方法的工作机制。在一个BigTom任务的例子中,基础模型在面对关于人物信念推理的问题时,虽然试图采用step-by-step的方法,但最终给出了错误答案。相比之下,MoR150模型采用了更加系统的逻辑分析方法,将复杂情境分解为事件序列,然后基于观察和推理得出正确结论。这个案例生动地展示了MoR方法如何帮助模型选择更有效的推理策略。
八、方法论价值:重新定义AI推理能力的培养方式
MoR方法的价值不仅仅在于性能的提升,更在于它代表了一种全新的AI推理能力培养思路。传统的方法依赖于外部提示工程,就像每次都需要详细的使用说明书才能操作复杂设备。而MoR方法则是将"使用说明书"直接内置到了设备中,让AI系统具备了自主选择最佳操作方式的能力。
这种方法论上的转变具有深远的意义。在实际应用中,用户不再需要为每种任务精心设计专门的提示词,这大大降低了AI系统的使用门槛。同时,由于推理策略已经内化到模型参数中,系统的推理能力变得更加稳定和可靠,不会因为提示词的细微变化而出现性能波动。
从技术发展的角度来看,MoR方法代表了从"外部指导"向"内在能力"的重要转变。这种转变类似于从需要教练在旁边指导的新手司机,成长为能够根据路况自主选择驾驶策略的熟练司机。这种内在化的推理能力是AI系统走向真正智能化的重要标志。
更重要的是,MoR方法提供了一个可扩展的框架。研究团队可以持续添加新的推理策略模板,就像为工具箱添加新工具一样。这种可扩展性确保了方法能够适应未来出现的新任务类型和推理需求。
九、局限性与改进空间:完善这个"智慧工具箱"
尽管MoR方法表现出色,但研究团队也诚实地指出了当前方法的一些局限性,这些局限性就像一个优秀工具仍有改进空间一样。
首先,推理链模板的生成目前主要依赖于GPT-4o等闭源大模型。这种依赖性在一定程度上限制了方法的独立性和可控性。虽然这些先进模型能够生成高质量的推理模板,但这种依赖关系可能在实际应用中造成成本和访问上的限制。
其次,当前的实验主要在中等规模的数据集上进行,每个任务类型只选择了相对较少的样本进行测试。虽然这种设计足以证明方法的有效性,但在更大规模、更多样化的数据集上的表现仍需进一步验证。
第三,推理链模板的选择机制目前相对简单,主要依赖于随机选择和基于问题结构的匹配。未来可能需要开发更加智能的模板选择策略,让AI能够更精准地判断哪种推理策略最适合特定问题。
此外,不同数量推理链模板的最优配置仍需更深入的研究。虽然实验显示MoR150表现最佳,但这个结论可能受到具体任务类型和训练数据规模的影响。在不同应用场景下,最优的模板数量可能有所不同。
十、未来发展方向:构建更强大的AI推理生态
基于MoR方法的成功,研究团队为未来的发展描绘了几个令人兴奋的方向,这些方向就像为已经成功的技术开辟更广阔的应用天地。
首先是推理策略的多样化扩展。目前的推理链模板主要覆盖了逻辑推理、类比推理和战略思考等基础类型,未来可以继续添加更多专门化的推理策略,比如创意思维、批判性思考、科学推理等。这将使AI系统能够处理更加广泛和复杂的任务类型。
其次是与其他先进训练方法的结合。MoR方法可以与强化学习、对比学习等其他训练范式相结合,形成更加强大的综合训练框架。这种组合方法有望进一步提升AI系统的推理能力和适应性。
第三个方向是动态推理策略选择的研究。目前的方法在训练阶段确定推理策略,未来可以研究如何让AI在推理过程中动态调整策略,就像人类在解决复杂问题时会根据中间结果调整思考方法一样。
第四是多模态推理能力的扩展。当前的MoR方法主要针对文本推理,未来可以扩展到图像、音频、视频等多模态信息的推理,构建更加全面的AI推理能力。
最后是个性化推理模式的开发。不同的用户和应用场景可能需要不同风格的推理模式,未来可以研究如何为特定用户或领域定制专门的推理策略集合。
说到底,这项研究为AI推理能力的发展开辟了一条全新的道路。通过将多种推理策略内化到模型参数中,MoR方法让AI系统获得了更加灵活和自主的思考能力。这不仅显著提升了性能,更重要的是降低了使用门槛,让AI技术能够更好地服务于各种实际应用。
从更宏观的角度来看,MoR方法代表了AI发展的一个重要趋势:从依赖外部指导转向内在智能。这种转变让我们看到了通用人工智能的一些雏形——一个能够根据情况自主选择最合适思考方式的智能系统。当然,这只是漫长征程中的一小步,但它为我们指明了正确的方向。
对于普通人来说,这项研究意味着未来的AI助手将变得更加智能和易用。你不再需要学习复杂的提示工程技巧,也不用为不同任务准备不同的指令模板。AI系统将能够像一个经验丰富的助手一样,自动理解你的需求并选择最合适的方式来帮助你解决问题。
这项研究的完整细节和技术实现可以通过arXiv:2507.00606v1获取,感兴趣的读者也可以关注即将在ICMR 2025会议上的正式发表。随着更多研究团队加入这个方向的探索,我们有理由相信,AI推理能力将迎来更加蓬勃的发展。
Q&A
Q1:MoR方法和传统的Chain-of-Thought有什么区别? A:传统CoT需要人工为每种任务设计专门的提示词,就像每次做菜都需要新食谱。而MoR方法是将多种推理策略直接嵌入到AI模型中,让它自己根据问题类型选择最合适的思考方式,不再依赖外部提示。
Q2:MoR150为什么比MoR300和MoR500表现更好? A:这类似于工具箱效应——工具太多反而难以选择。在训练数据有限的情况下,150个推理链模板达到了最佳的平衡点,既提供了足够的多样性,又确保每种策略都得到充分训练。模板过多可能导致训练不充分。
Q3:普通用户什么时候能用上MoR技术? A:目前MoR还处于研究阶段,主要在学术论文中展示效果。要真正应用到消费级产品中,还需要进一步的工程优化和产品化开发。不过考虑到AI技术的快速发展,预计在未来几年内就可能在各种AI助手和工具中看到类似技术。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了SPIRAL框架,通过让AI与自己对弈零和游戏来提升推理能力。实验显示,仅训练AI玩简单扑克游戏就能让其数学推理能力提升8.6%,通用推理提升8.4%,且无需任何数学题目作为训练材料。研究发现游戏中的三种推理模式能成功转移到数学解题中,为AI训练提供了新思路。
同济大学团队开发的GIGA-ToF技术通过融合多帧图像的"图结构"信息,创新性地解决了3D相机噪声问题。该技术利用图像间的不变几何关系,结合深度学习和数学优化方法,在合成数据集上实现37.9%的精度提升,并在真实设备上展现出色泛化能力,为机器人、AR和自动驾驶等领域提供更可靠的3D视觉解决方案。
伊利诺伊大学研究团队通过对比实验发现,经过强化学习训练的视觉语言模型虽然表现出"顿悟时刻"现象,但这些自我纠错行为并不能实际提升推理准确率。研究揭示了AI模型存在"生成-验证差距",即生成答案的能力强于验证答案质量的能力,且模型在自我验证时无法有效利用视觉信息,为AI多模态推理发展提供了重要启示。
MIT等顶尖机构联合提出SparseLoRA技术,通过动态稀疏性实现大语言模型训练加速1.6倍,计算成本降低2.2倍。该方法使用SVD稀疏性估计器智能选择重要计算部分,在保持模型性能的同时显著提升训练效率,已在多个任务上验证有效性。