这项由法国里尔大学、法国国家信息与自动化研究所、法国国家科学研究中心以及里尔中央理工学院的研究团队共同完成的研究发表于2025年9月,论文编号为arXiv:2509.18083v1。研究的核心人物包括Valentin Lacombe、Valentin Quesnel和Damien Sileo,有兴趣深入了解的读者可以通过该编号查询完整论文。
当我们看到ChatGPT或其他AI助手解决复杂问题时,可能会好奇:这些AI是如何学会推理的?就像教孩子学数学一样,AI也需要大量的练习题来训练自己的推理能力。但问题来了——现有的练习题要么太少,要么太简单,就像只给孩子做加减法,却期望他们掌握微积分一样。
法国研究团队意识到了这个问题。他们发现,目前训练AI推理能力的环境就像一个资源有限的健身房——器材种类单一,难度调节不够精细,而且很快就会被"练完"。更重要的是,现有的训练内容往往专注于游戏或简单谜题,就像只让未来的工程师玩拼图游戏,却不教他们真正的工程学原理。
为了解决这个问题,研究团队开发了一个名为"推理核心"(Reasoning Core)的全新训练环境。这个环境就像一个永不枯竭的智力训练营,专门设计来培养AI的核心推理能力。与其他训练环境不同,推理核心专注于最基础、最重要的符号推理技能——那些真正构成人类逻辑思维基石的能力。
这个训练营的独特之处在于它能够无限生成新的挑战。就像一个永远不会重复题目的数学老师,推理核心可以源源不断地创造出新颖、有挑战性的问题。更令人印象深刻的是,它还配备了一个精确的"难度调节器"——一个连续的控制旋钮,可以像调节音量一样精细地控制问题的难度水平。
研究团队选择了几个最核心的推理领域作为训练内容。首先是PDDL规划,这就像教AI成为一个优秀的项目经理,学会在复杂的约束条件下制定行动计划。接着是一阶逻辑推理,这相当于教AI掌握严密的逻辑论证技巧。还有上下文无关文法解析,就像教AI理解语言的深层结构。此外还包括因果推理、方程组求解等多个基础领域。
为了确保训练质量,推理核心采用了一个创新的验证机制。就像聘请专业评委来判断比赛结果一样,系统集成了各种专业的外部工具——定理证明器、规划引擎、符号代数系统等——来客观地验证AI给出的答案是否正确。这种做法确保了训练反馈的准确性和权威性。
当研究团队用最先进的GPT-5模型来测试推理核心时,结果既令人鼓舞又证实了这个训练环境的挑战性。即使是目前最强大的AI模型,在面对推理核心的题目时也表现出明显的困难,特别是在高难度设置下。这恰恰说明了推理核心确实触及了AI推理能力的核心挑战。
在AI发展的历程中,让机器学会推理一直是最具挑战性的目标之一。现在的AI训练就像培养一个全能运动员,需要在各种不同的"运动项目"中进行练习。但目前的训练环境存在几个根本性问题。
传统的训练方法主要依赖固定的题库,就像让学生反复做同一套试卷。这种方法的问题显而易见:首先,题目数量有限,AI很快就能"背下"所有答案,而不是真正学会推理;其次,这些固定题目往往无法覆盖真实世界的复杂性和多样性。
更严重的是,现有的程序化生成环境虽然能产生大量题目,但往往专注于游戏、谜题或模板化任务。这就像只让未来的科学家玩数独游戏,虽然有一定的智力训练价值,但无法培养真正的科学思维能力。这些环境测试的往往是在特定规则下的巧思,而不是处理复杂、开放性问题所需的基础认知能力。
推理核心的设计理念完全不同。研究团队认为,真正的推理能力应该建立在几个核心的符号推理领域之上,这些领域具有足够的表达能力来建模现实世界的各种问题。就像学习音乐需要掌握基本的音阶和和弦一样,AI的推理能力也需要在这些基础领域中得到扎实的训练。
这种方法的优势在于其通用性。当AI在形式逻辑中学会了严密的推理过程,这种能力可以迁移到其他需要逻辑思维的领域。当AI掌握了规划算法的本质,它就能应对各种需要制定策略的情况。这种基础能力的培养比专门针对特定任务的训练更有价值。
推理核心的设计遵循三个关键原理,这些原理共同确保了训练环境的有效性和可扩展性。
第一个原理是高度通用性和基础性任务选择。研究团队没有选择那些看起来有趣但实际应用有限的任务,而是专注于那些构成人类认知基础的核心能力。这就像建造房屋时专注于打好地基,而不是急于装饰外墙。
PDDL规划任务教会AI如何在复杂约束下制定行动序列。这不是简单的路径寻找,而是在动态变化的环境中,考虑前提条件、效果和目标的综合规划能力。一阶逻辑任务则培养AI进行严密推理的能力,包括处理量词、等式和复杂的逻辑关系。
上下文无关文法解析任务训练AI理解结构化语言的能力,这对于理解自然语言和编程语言都至关重要。因果推理任务基于随机采样的贝叶斯网络,教会AI区分相关性和因果性,这是科学思维的核心。方程组求解任务则培养AI的代数操作和符号计算能力。
第二个原理是可扩展的生成和精细的难度控制。推理核心的每个任务生成器都配备了一个连续的"难度旋钮",这是一个可以精确调节的浮点数值。这个设计的巧妙之处在于,它可以参数化地调整各种底层因素,比如逻辑推理中的证明深度、方程组中的变量数量、规划任务中的计划长度等。
对于那些本质上是离散的超参数,系统采用基于连续值的随机舍入方法,实现了细粒度的控制。这种设计使得训练过程可以实现真正的自适应课程学习,根据AI模型的表现动态调整难度,而不是依赖预设的固定难度等级。
第三个原理是通过外部工具进行验证。对于复杂的符号推理领域,仅仅依靠内部验证是远远不够的。推理核心集成了各种专业的外部工具,包括用于逻辑推理的定理证明器、用于PDDL的规划引擎、用于方程求解的符号代数系统等。
这种验证机制的重要性不容小觑。它不仅能够提供客观、明确的奖励信号,还能处理复杂结构化输出的细微差别。比如,系统不仅能判断一个规划是否正确,还能评估其是否最优;不仅能验证逻辑推理的结论,还能检查推理过程的每一步是否合理。
推理核心包含了十八个精心设计的任务,每个任务都针对特定的推理能力进行训练。这些任务可以分为几个主要类别,每个类别都有其独特的训练价值。
规划类任务是推理核心的重要组成部分。规划任务要求AI在随机生成的PDDL领域中生成有效的行动序列。与以往使用固定领域(如积木世界或推箱子)的方法不同,这里的领域是完全随机构造的,包括对象、行动、前提条件和效果。AI必须理解状态转换的逻辑,推理出达成目标所需的行动序列。这种训练培养的是通用的规划思维,而不是针对特定场景的记忆。
逻辑推理类任务构成了另一个重要类别。猜想蕴含任务要求AI判断给定的公理子集是否足以证明特定定理。这个任务基于TPTP生态系统,涵盖几何、代数、集合论、拓扑等多个数学领域。AI需要理解逻辑依赖关系,识别证明所需的最小公理集合。
定理前提选择任务则更进一步,要求AI从候选前提池中识别出证明给定定理所需的最小前提子集。这个任务测试AI区分必要逻辑依赖和无关信息的能力。证明重构任务要求AI从打乱顺序的数学子句中重建逻辑证明的依赖图,这培养了AI理解推理结构的能力。
自然语言推理任务将形式逻辑与自然语言相结合。逻辑自然语言推理任务生成基于一阶逻辑的自然语言推理问题,AI需要判断前提是否蕴含、矛盾或与假设无关。证据检索任务要求AI识别前提中支持特定逻辑关系的具体陈述,这培养了精确的逻辑分析能力。
数学计算类任务训练AI的符号操作能力。方程组求解任务不仅要求AI解出有唯一解的方程组,还要正确识别无解或有无穷多解的情况。算术任务使用上下文无关文法生成各种复杂度的算术表达式,测试AI的计算推理能力。
序列归纳任务要求AI从数值序列中推断出递归公式。给定一个序列和其递归度,AI必须推导出定义后续项的数学关系。这个任务培养的是模式识别和公式归纳的能力,这对于科学发现和数学建模都至关重要。
语言结构类任务专注于形式语言的理解。正则表达式跟随任务要求AI生成匹配给定正则表达式的字符串,而正则表达式归纳任务则相反,要求AI从正负例子中推导出正则表达式。这些任务培养AI对模式和结构的理解能力。
语法解析任务评估AI确定字符串是否可被上下文无关文法解析的能力,以及是否存在歧义。解析任务则要求AI生成完整的语法分析树,这对理解自然语言和编程语言都很重要。
因果推理类任务基于随机生成的贝叶斯网络。贝叶斯关联任务要求AI计算给定观察证据下目标变量的后验概率分布。贝叶斯干预任务更进一步,要求AI计算干预操作下的概率分布,这测试AI区分观察和干预的能力,这是因果推理的核心。
集合操作类任务训练基础的符号推理能力。集合相等任务要求AI判断两个列表是否包含相同元素,集合交集任务要求计算两个集合的交集,集合缺失元素任务要求识别连续序列中的缺失元素。这些看似简单的任务实际上是更复杂推理的基础。
推理核心在技术实现上有几个重要创新,这些创新确保了系统的可扩展性和有效性。
基于文法的生成是一个关键创新。对于算术任务、正则表达式跟随任务和语法理解任务,系统使用上下文无关文法来提供简洁、可读的数据生成器表示。这种方法的优势在于它不仅能控制生成内容的最大复杂度,还能控制最小复杂度,从而精确调节问题难度。
系统开发了定制的高效可扩展生成算法,专门针对控制生成深度进行了优化。这些算法确保生成的问题既不会过于简单(深度太浅),也不会过于复杂(深度太深),而是恰好符合当前的难度设置。
高效的数据生产流水线是另一个重要创新。为了支持持续的强化学习训练,推理核心采用了基于搜索的离线并行生成管道。这种架构能够快速产生大量多样化的问题,确保AI模型始终面对新颖的挑战。这种能力对于防止过拟合和培养鲁棒的通用推理技能至关重要。
外部工具集成是推理核心的一个显著特色。系统集成了多种专业工具,包括Vampire定理证明器用于逻辑推理验证,各种规划引擎用于PDDL任务验证,符号代数系统用于方程求解验证。这种集成确保了验证的权威性和准确性。
难度控制机制的实现也很巧妙。每个任务生成器都接受一个连续的难度参数,然后将其映射到具体的生成参数上。对于离散参数,系统使用概率舍入,使得难度控制变得平滑和连续。这种设计使得课程学习变得可能,AI可以从简单问题开始,逐渐过渡到更复杂的挑战。
数据质量保证机制也很重要。系统在生成过程中会自动过滤掉退化或无效的问题实例,确保每个训练样本都有意义。对于数学任务,系统还会控制数值范围,避免数值爆炸或精度问题。
研究团队使用最先进的GPT-5模型对推理核心进行了初步评估,结果既验证了系统的挑战性,也揭示了当前AI模型在基础推理方面的局限性。
评估采用了零样本设置,即GPT-5在没有针对推理核心任务进行专门训练的情况下直接解决问题。测试涵盖了两个难度级别:简单模式(难度旋钮设为0)和困难模式(难度旋钮设为5)。每个任务配置都测试了200个样本,确保结果的统计可靠性。
结果显示,即使是目前最强大的AI模型,在面对推理核心的任务时也表现出明显的困难。在简单模式下,GPT-5在大多数任务上的平均奖励率都低于50%,这表明这些任务确实具有挑战性。在困难模式下,性能进一步下降,证实了难度控制机制的有效性。
特别值得注意的是,不同任务的难度分布很不均匀。一些任务如集合相等和算术计算,GPT-5表现相对较好,这可能是因为这些任务与其训练数据中的内容更相似。但在更复杂的任务如PDDL规划、定理证明和因果推理方面,即使在简单模式下,GPT-5的表现也相当有限。
这些结果有几个重要含义。首先,它们证实了推理核心确实触及了当前AI模型的能力边界,这对于训练更强大的推理模型是必要的。其次,结果显示了不同推理能力之间的发展不平衡,这为未来的研究指明了方向。
难度控制的有效性也得到了验证。在几乎所有任务中,困难模式的表现都明显低于简单模式,这表明难度旋钮确实能够有效调节问题的挑战性。这种能力对于实现自适应课程学习至关重要。
实验还揭示了一些有趣的模式。例如,在需要严格逻辑推理的任务中,GPT-5的表现往往不如在需要模式识别或记忆的任务中的表现。这可能反映了当前大型语言模型在训练过程中更多地学习了统计模式,而不是严格的逻辑推理规则。
推理核心的开发不仅仅是一个新的训练环境,它代表了AI推理能力培养方式的根本性转变。这种转变可能对整个AI领域产生深远影响。
从训练方法的角度来看,推理核心体现了从"数据驱动"向"能力驱动"的转变。传统的AI训练主要依赖大量的现有数据,希望模型能从中学习到有用的模式。但推理核心采用了不同的方法:它专注于培养特定的认知能力,然后通过无限生成的练习来强化这些能力。
这种方法的优势在于其目标导向性。与其让AI在海量数据中盲目寻找模式,不如明确定义我们希望AI掌握的核心能力,然后有针对性地进行训练。这就像教育中从"题海战术"向"能力培养"的转变一样。
推理核心还可能改变我们评估AI能力的方式。传统的评估往往依赖固定的基准测试,但这些测试容易被"刷榜",而且无法真正反映模型的泛化能力。推理核心提供了一种动态评估的可能性:通过调节难度旋钮,我们可以精确测量模型在不同复杂度下的表现,从而更准确地了解其真实能力。
对于AI安全和可解释性,推理核心也有重要意义。当AI的推理能力建立在明确定义的符号推理基础上时,其行为变得更加可预测和可解释。我们可以更好地理解AI是如何得出特定结论的,这对于在关键应用中部署AI系统至关重要。
从更广泛的角度来看,推理核心可能推动AI向更接近人类认知的方向发展。人类的推理能力正是建立在这些基础的符号操作和逻辑推理之上的。通过在这些基础领域训练AI,我们可能能够培养出更加通用、更加可靠的AI系统。
推理核心的开源性质也很重要。研究团队将代码和数据公开发布,这意味着全球的研究者都可以使用和改进这个系统。这种开放性可能加速整个领域的发展,促进更多创新的出现。
虽然推理核心已经展现出巨大的潜力,但仍有许多发展方向和挑战需要解决。
首先是任务覆盖面的扩展。虽然当前的十八个任务已经涵盖了核心的推理能力,但人类认知的复杂性意味着还有更多重要的推理类型需要纳入。例如,时间推理、空间推理、类比推理等都是人类智能的重要组成部分,未来版本的推理核心可能需要包含这些领域。
难度控制机制还有改进空间。虽然当前的连续难度旋钮已经很有效,但它主要基于预定义的难度指标。更理想的情况是开发自适应的难度调节机制,能够根据AI模型的实时表现自动调整难度,实现真正的个性化课程学习。
验证机制的完善也是一个重要方向。虽然外部工具提供了权威的验证,但在某些复杂情况下,可能存在多个正确答案或部分正确的情况。开发更细粒度的评分机制,能够给予部分正确的答案适当的奖励,这对于训练效果可能很重要。
计算效率是另一个需要考虑的因素。随着任务复杂度的增加和生成规模的扩大,系统的计算需求也会快速增长。开发更高效的生成算法和验证方法,确保系统能够支持大规模的训练需求,这是一个技术挑战。
与现有AI训练流水线的集成也很重要。推理核心需要与当前的大型语言模型训练基础设施无缝集成,这可能需要在数据格式、训练协议等方面进行标准化。
最后,如何评估推理核心训练效果的迁移性是一个关键问题。虽然理论上在基础推理能力上的提升应该能够迁移到其他任务,但这种迁移的程度和机制还需要更多的实证研究来验证。
说到底,推理核心代表了AI训练方法的一次重要探索。它不仅提供了一个强大的工具来培养AI的推理能力,更重要的是,它提出了一种新的思路:与其让AI在海量数据中摸索,不如为它提供一个专门设计的训练环境,在其中系统地培养各种核心认知能力。
这种方法的成功可能会启发更多类似的研究,推动整个AI领域向更加科学、更加有针对性的训练方法发展。对于普通人来说,这意味着未来的AI助手可能会具备更强的逻辑推理能力,能够更好地理解和解决复杂问题,从而在教育、科研、决策支持等领域发挥更大的作用。
研究团队的这项工作为AI推理能力的发展开辟了新的道路。随着更多研究者的参与和技术的不断完善,我们有理由期待,基于推理核心训练的AI系统将在不久的将来展现出更加强大和可靠的推理能力,为人类社会带来更多的价值和可能性。
Q&A
Q1:推理核心是什么?它和现有的AI训练方法有什么不同?
A:推理核心是法国研究团队开发的一个专门训练AI推理能力的环境,就像一个永不枯竭的智力训练营。与现有方法不同,它不依赖固定题库或简单游戏,而是专注于培养AI在逻辑推理、规划、因果分析等核心领域的基础能力,能够无限生成新颖的挑战题目。
Q2:推理核心包含哪些训练任务?这些任务有什么特殊之处?
A:推理核心包含18个核心任务,涵盖PDDL规划、一阶逻辑推理、语法解析、因果推理、方程求解等领域。这些任务的特殊之处在于它们都是人类认知的基础能力,具有高度通用性,而且每个任务都配备了连续的难度调节器,可以精确控制挑战程度。
Q3:推理核心对未来AI发展有什么意义?普通人会受到什么影响?
A:推理核心代表了AI训练方法从"数据驱动"向"能力驱动"的转变,可能培养出更可靠、更可解释的AI系统。对普通人来说,这意味着未来的AI助手将具备更强的逻辑推理能力,能够更好地理解和解决复杂问题,在教育、科研、决策支持等领域发挥更大作用。
好文章,需要你的鼓励
Queen's大学研究团队提出结构化智能体软件工程框架SASE,重新定义人机协作模式。该框架将程序员角色从代码编写者转变为AI团队指挥者,建立双向咨询机制和标准化文档系统,解决AI编程中的质量控制难题,为软件工程向智能化协作时代转型提供系统性解决方案。
西北工业大学与中山大学合作开发了首个超声专用AI视觉语言模型EchoVLM,通过收集15家医院20万病例和147万超声图像,采用专家混合架构,实现了比通用AI模型准确率提升10分以上的突破。该系统能自动生成超声报告、进行诊断分析和回答专业问题,为医生提供智能辅助,推动医疗AI向专业化发展。
上海AI实验室团队发现自回归图像生成模型存在局部依赖、语义不一致和空间不变性缺失三大问题,提出ST-AR训练方法。该方法通过掩码注意力、跨步骤对比学习和跨视角对比学习,让AI"先理解再生成"。实验显示,ST-AR将LlamaGen模型的图像理解准确率提升一倍以上,图像生成质量提升42-49%,为构建更智能的多模态AI系统开辟新路径。