近日,马里兰大学计算机科学系的Tong Zheng、Lichang Chen与Heng Huang,联合耶鲁大学的Simeng Han和R. Thomas McCoy发表了一项开创性研究,探索如何让大语言模型(LLM)像人类一样,通过多种思维方式进行逻辑推理。这篇题为《通过混合思维提升逻辑推理能力》的论文发表于2025年5月21日的arXiv预印本平台(arXiv:2505.15817v1),提出了一种名为"混合思维"(Mixture-of-Thought,简称MoT)的全新框架,旨在帮助语言模型突破单一思维方式的局限。
人类在解决逻辑问题时,会自然地切换不同的思维模式,比如我们可能会用自然语言描述问题,也可能画个流程图,或者列出所有可能的情况来分析。但现有的大语言模型往往只会用一种思维方式——通常是自然语言——来处理问题。这就像一个只会用锤子的工匠,面对各种任务都只能锤打,而无法选择更合适的工具。虽然有些研究尝试在推理时选择或增强某种思维方式,但在训练阶段依然受限于单一模式,大大限制了不同思维方式之间的协同效应。
针对这一问题,研究团队提出的混合思维框架让语言模型能够同时掌握三种互补的思维方式:自然语言推理、代码推理,以及一种新引入的符号推理方式——真值表推理。这种真值表方法能够系统地列举逻辑案例,并部分缓解自然语言推理中的关键失败模式。
想象一下,你在解决一个复杂的数学问题。有时候,你可能会用文字描述你的思考过程;有时候,你会写下公式和符号;还有时候,你可能会画个表格列出所有可能的情况。MoT框架就是让AI也能像这样灵活运用不同的思考方式。
这个框架分为两个关键阶段:首先是"自演化混合思维训练",模型通过学习经过筛选的、自生成的多模态推理过程来提升能力;其次是"混合思维推理",在实际应用中充分利用三种思维方式的协同优势,产生更准确的预测。
研究团队在FOLIO和ProofWriter这两个著名的逻辑推理基准测试上进行了实验,结果表明MoT框架相比单一思维的链式思考方法有显著提升,平均准确率提高了高达11.7个百分点。更令人兴奋的是,即使是9B参数的MoT模型也能在FOLIO测试上与GPT-4加Logic-LM的表现相匹配。
进一步分析发现,MoT框架在训练和推理阶段都展现出了优势,特别是在处理更难的逻辑推理问题时效果更为显著。研究还表明,不同思维方式确实提供了互补的优势,其中真值表推理特别有助于克服自然语言推理中的关键瓶颈。
为了更好地理解这三种思维方式如何协同工作,让我们通过一个简单例子来说明。假设有这样一个问题:"如果索尔开心,彼得·帕克是否会穿制服?"根据给定的前提条件,包括"彼得·帕克要么是超级英雄要么是平民","浩克生气时会醒来"等一系列逻辑关系。
使用自然语言思维时,模型会一步步分析:"如果索尔开心,浩克会生气。如果浩克生气,他会醒来。如果他醒来,他会破坏一座桥..."最终推导出结论。
使用代码思维时,模型会将问题转化为程序代码,定义类和函数,如"class Hulk","class Thor"等,然后通过执行代码逻辑得出结论。
而使用真值表思维时,模型会定义变量(如T=索尔开心,H=浩克生气),列出所有可能的真值组合,然后通过系统分析排除不可能的情况,最终得出结论。
这三种思维方式各有所长:自然语言思维灵活但可能漏掉某些情况;代码思维结构清晰但有时难以处理复杂逻辑;真值表思维系统全面但在变量多时可能变得复杂。MoT框架正是通过结合这三种方式的优势,大大提高了逻辑推理的准确性。
研究团队深入分析了现有语言模型在逻辑推理中的常见错误类型。他们发现,在自然语言推理模式下,约三分之二的错误来自于"无效转换"(错误地将"如果A则B"理解为"如果B则A")和"遗漏分支"(未能穷尽所有可能性)这两类问题。而真值表推理方式恰好能够系统化地解决这些问题,因为它会明确列出所有可能的情况。
MoT框架的训练过程也很有创新性。传统方法可能需要大量带标注的训练数据,而MoT采用了一种"自我进化"的训练方法:模型首先根据少量示例生成各种思维方式的推理过程,然后筛选出高质量的推理路径用于进一步训练,如此循环迭代,不断提升模型在各种思维方式下的推理能力。
在实际应用时,MoT会同时使用三种思维方式进行推理,然后通过投票机制产生最终答案。研究发现,这种方法在推理难度越大的问题上,优势越明显。在深度为5-8的复杂逻辑任务上,MoT平均比单一思维方式提高了9个百分点的准确率。
有趣的是,研究团队还发现,真值表推理模式在处理涉及"传递性推理"(如从A→B和B→C推导出A→C)和包含多个分支情况(如"岩石会飞,或者是鸟,或者不能呼吸")的问题时特别有效。这正好弥补了自然语言推理的短板。
总的来说,这项研究启示我们,让AI像人类一样能够灵活切换不同的思维方式,是提升其逻辑推理能力的重要途径。正如我们在解决复杂问题时会综合运用多种思考方法一样,MoT框架赋予了AI这种认知灵活性。研究团队已将相关代码开源在GitHub上,有兴趣的读者可以通过https://github.com/zhengkid/Truth_Table_Logical_Reasoning访问。
这项研究不仅在技术上取得了显著进步,也给我们提供了一个思考人工智能未来发展方向的新视角:真正强大的AI系统应该能够像人类一样,根据问题的性质灵活选择和组合不同的思维方式,而不是被限制在单一的思考框架中。或许,思维多样性正是通向更强大、更通用人工智能的关键之一。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。