微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 解锁思维多样性:马里兰大学研究团队提出"混合思维"框架助力LLM更有效进行逻辑推理

解锁思维多样性:马里兰大学研究团队提出"混合思维"框架助力LLM更有效进行逻辑推理

2025-05-27 16:16
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-27 16:16 科技行者

近日,马里兰大学计算机科学系的Tong Zheng、Lichang Chen与Heng Huang,联合耶鲁大学的Simeng Han和R. Thomas McCoy发表了一项开创性研究,探索如何让大语言模型(LLM)像人类一样,通过多种思维方式进行逻辑推理。这篇题为《通过混合思维提升逻辑推理能力》的论文发表于2025年5月21日的arXiv预印本平台(arXiv:2505.15817v1),提出了一种名为"混合思维"(Mixture-of-Thought,简称MoT)的全新框架,旨在帮助语言模型突破单一思维方式的局限。

人类在解决逻辑问题时,会自然地切换不同的思维模式,比如我们可能会用自然语言描述问题,也可能画个流程图,或者列出所有可能的情况来分析。但现有的大语言模型往往只会用一种思维方式——通常是自然语言——来处理问题。这就像一个只会用锤子的工匠,面对各种任务都只能锤打,而无法选择更合适的工具。虽然有些研究尝试在推理时选择或增强某种思维方式,但在训练阶段依然受限于单一模式,大大限制了不同思维方式之间的协同效应。

针对这一问题,研究团队提出的混合思维框架让语言模型能够同时掌握三种互补的思维方式:自然语言推理、代码推理,以及一种新引入的符号推理方式——真值表推理。这种真值表方法能够系统地列举逻辑案例,并部分缓解自然语言推理中的关键失败模式。

想象一下,你在解决一个复杂的数学问题。有时候,你可能会用文字描述你的思考过程;有时候,你会写下公式和符号;还有时候,你可能会画个表格列出所有可能的情况。MoT框架就是让AI也能像这样灵活运用不同的思考方式。

这个框架分为两个关键阶段:首先是"自演化混合思维训练",模型通过学习经过筛选的、自生成的多模态推理过程来提升能力;其次是"混合思维推理",在实际应用中充分利用三种思维方式的协同优势,产生更准确的预测。

研究团队在FOLIO和ProofWriter这两个著名的逻辑推理基准测试上进行了实验,结果表明MoT框架相比单一思维的链式思考方法有显著提升,平均准确率提高了高达11.7个百分点。更令人兴奋的是,即使是9B参数的MoT模型也能在FOLIO测试上与GPT-4加Logic-LM的表现相匹配。

进一步分析发现,MoT框架在训练和推理阶段都展现出了优势,特别是在处理更难的逻辑推理问题时效果更为显著。研究还表明,不同思维方式确实提供了互补的优势,其中真值表推理特别有助于克服自然语言推理中的关键瓶颈。

为了更好地理解这三种思维方式如何协同工作,让我们通过一个简单例子来说明。假设有这样一个问题:"如果索尔开心,彼得·帕克是否会穿制服?"根据给定的前提条件,包括"彼得·帕克要么是超级英雄要么是平民","浩克生气时会醒来"等一系列逻辑关系。

使用自然语言思维时,模型会一步步分析:"如果索尔开心,浩克会生气。如果浩克生气,他会醒来。如果他醒来,他会破坏一座桥..."最终推导出结论。

使用代码思维时,模型会将问题转化为程序代码,定义类和函数,如"class Hulk","class Thor"等,然后通过执行代码逻辑得出结论。

而使用真值表思维时,模型会定义变量(如T=索尔开心,H=浩克生气),列出所有可能的真值组合,然后通过系统分析排除不可能的情况,最终得出结论。

这三种思维方式各有所长:自然语言思维灵活但可能漏掉某些情况;代码思维结构清晰但有时难以处理复杂逻辑;真值表思维系统全面但在变量多时可能变得复杂。MoT框架正是通过结合这三种方式的优势,大大提高了逻辑推理的准确性。

研究团队深入分析了现有语言模型在逻辑推理中的常见错误类型。他们发现,在自然语言推理模式下,约三分之二的错误来自于"无效转换"(错误地将"如果A则B"理解为"如果B则A")和"遗漏分支"(未能穷尽所有可能性)这两类问题。而真值表推理方式恰好能够系统化地解决这些问题,因为它会明确列出所有可能的情况。

MoT框架的训练过程也很有创新性。传统方法可能需要大量带标注的训练数据,而MoT采用了一种"自我进化"的训练方法:模型首先根据少量示例生成各种思维方式的推理过程,然后筛选出高质量的推理路径用于进一步训练,如此循环迭代,不断提升模型在各种思维方式下的推理能力。

在实际应用时,MoT会同时使用三种思维方式进行推理,然后通过投票机制产生最终答案。研究发现,这种方法在推理难度越大的问题上,优势越明显。在深度为5-8的复杂逻辑任务上,MoT平均比单一思维方式提高了9个百分点的准确率。

有趣的是,研究团队还发现,真值表推理模式在处理涉及"传递性推理"(如从A→B和B→C推导出A→C)和包含多个分支情况(如"岩石会飞,或者是鸟,或者不能呼吸")的问题时特别有效。这正好弥补了自然语言推理的短板。

总的来说,这项研究启示我们,让AI像人类一样能够灵活切换不同的思维方式,是提升其逻辑推理能力的重要途径。正如我们在解决复杂问题时会综合运用多种思考方法一样,MoT框架赋予了AI这种认知灵活性。研究团队已将相关代码开源在GitHub上,有兴趣的读者可以通过https://github.com/zhengkid/Truth_Table_Logical_Reasoning访问。

这项研究不仅在技术上取得了显著进步,也给我们提供了一个思考人工智能未来发展方向的新视角:真正强大的AI系统应该能够像人类一样,根据问题的性质灵活选择和组合不同的思维方式,而不是被限制在单一的思考框架中。或许,思维多样性正是通向更强大、更通用人工智能的关键之一。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。

  • 香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。

  • 中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。

  • 字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-