这项由中国科学技术大学的张奇凯、胡鹏飞、潘奕诚等研究者,以及科大讯飞研究院的张振荣、马杰峰、张建舒等学者共同完成的突破性研究,发表于2025年1月。完整论文可通过arXiv:2509.13761v1访问。这项研究首次真正解决了大语言模型在精确计算上的根本性弱点,就像给一个聪明但计算能力有限的学生配备了计算器和各种工具。
回到最基本的问题:现在的AI语言模型虽然能进行复杂的对话和推理,但在需要精确计算的数学问题上经常出错。这就好比一个博学的教授,能够滔滔不绝地讲述数学理论,但在计算具体的数值时却会犯低级错误。这种现象的根本原因在于,语言模型本质上是通过预测下一个词来工作的,它们更擅长处理语言和概念,而不是精确的数值运算。
研究团队将这种困境比作让一个文科生去解高难度的数学物理题。虽然这个文科生可能理解题目的含义,甚至知道解题的大致思路,但在具体的计算步骤上却频频出错。为了解决这个问题,最自然的想法就是让这个文科生学会使用计算器、函数表和其他数学工具。同样道理,研究团队开发了THOR系统,教会AI模型在推理过程中调用外部工具来完成精确计算。
THOR的名字来自"Tool-Integrated Hierarchical Optimization via RL"(基于强化学习的工具集成分层优化),这个系统的核心创新在于三个方面的突破。
**一、革命性的数据构建方法:让AI学会"什么时候该用工具"**
传统的方法就像让学生死记硬背什么时候用计算器,效果很差且不够灵活。THOR采用了一种更加智能的方法,叫做TIRGen(工具集成推理数据生成管道)。这个系统就像一个智能的数学老师和助教的组合。
在这个系统中,"演员"(Actor)负责进行数学推理,就像一个学生在解题时的思考过程。而"评论家"(Critic)则像一个经验丰富的助教,能够识别哪些推理步骤可以用代码工具来精确执行。当演员写出"接下来我需要计算这个复杂的积分"时,评论家会说:"等等,这个计算步骤我们可以用Python代码来精确完成。"
这种方法的巧妙之处在于,它不是简单地告诉AI"遇到计算就用工具",而是让AI学会判断:"这个问题的哪个部分真的需要工具辅助,哪个部分我自己的推理就足够了。"就像一个熟练的木工,知道什么时候用手工,什么时候用电动工具。
通过这种方法,研究团队成功生成了高质量的训练数据。对于非推理模型,他们生成了29,217个短推理样本;对于推理模型,则生成了57,598个长推理样本。这些数据的质量远超传统方法,因为它们完全贴合模型的实际能力和思考方式。
**二、分层优化策略:既看全局又抓细节**
THOR的第二个重大创新是采用了分层的强化学习策略。传统的方法就像只看整道题的最终答案对不对,但THOR同时关注整个解题过程和每个具体计算步骤的正确性。
研究团队发现了一个重要规律:如果AI在解题过程中某个工具调用成功了(比如一段代码正确执行并给出了结果),那么这道题最终答对的可能性会大大增加。这个发现就像发现了"如果一个学生的计算步骤都是正确的,那么最终答案正确的概率就很高"一样直观但重要。
基于这个发现,THOR设计了双重奖励机制。在宏观层面,系统会根据最终答案的正确性给出奖励,就像期末考试的总分。在微观层面,系统还会根据每个工具调用是否成功给出即时反馈,就像平时作业的每道小题都有分数。
这种分层优化就像训练一个篮球运动员:既要看他整场比赛的表现,也要分析他每次投篮、每次传球的技术动作。通过这种细致的训练,AI不仅学会了解决复杂问题的整体策略,还掌握了每个具体计算步骤的技巧。
**三、智能自我纠错:从错误中实时学习**
THOR的第三个突破是引入了自我纠错机制。当AI在推理过程中调用工具失败时(比如代码出错),系统不会简单地放弃,而是会智能地回退并尝试其他方法。
这个过程就像一个学生在考试中发现计算错误后的反应。聪明的学生不会整道题重做,而是回到出错的地方,重新思考这一步该怎么算。THOR也是如此:当一段代码执行失败时,它会回到生成这段代码之前的推理步骤,重新思考这个问题,然后生成新的解决方案。
这种机制的巧妙之处在于,它让AI能够从每次错误中学习,而且这种学习是实时的。传统方法中,AI只能从训练数据中学习,但THOR让AI在实际解题过程中也能不断改进自己的方法。
研究团队在多个数学竞赛数据集上测试了THOR的效果,结果令人惊叹。在AIME 2024竞赛中,经过THOR训练的7B参数模型达到了50.0%的正确率,而同等规模的基准模型只有26.7%。在AIME 2025中,THOR达到了33.3%,基准模型只有13.3%。更令人印象深刻的是,在AMC 2023竞赛中,THOR的正确率达到了81.3%,远超基准模型的57.4%。
这些数字背后的意义非常深远。AIME和AMC都是美国高中数学竞赛,题目难度很高,能够在这些竞赛中取得好成绩的学生通常都是数学天才。THOR能够在这些竞赛中达到如此高的正确率,意味着它已经具备了接近顶尖高中生的数学解题能力。
更有趣的是,THOR的提升不仅限于数学领域。研究团队发现,经过THOR训练的模型在代码生成任务上也有显著提升。在HumanEval+编程竞赛中,THOR相比基准模型提升了2.2%;在MBPP+中提升了3.5%;在LiveCodeBench中更是提升了2.4%。这说明学会使用工具的能力是可以迁移的,就像学会使用计算器的学生往往在其他需要精确计算的科目上也会表现更好。
研究团队还进行了详细的分析,发现THOR的成功有几个关键因素。通过统计分析,他们证实了"工具调用成功是最终答案正确的强预测因子"这一假设。具体来说,如果AI在解题过程中的代码都能正确执行,那么最终答案正确的概率会显著增加。这个发现为分层优化策略提供了强有力的理论支撑。
同时,研究团队发现自我纠错机制对性能提升也很关键。当允许AI进行最多4次纠错尝试时,性能会有显著提升。这就像给学生提供了检查和修正错误的机会,最终的答题质量自然会更高。
从技术实现角度看,THOR的设计非常巧妙。它不需要额外的大型外部模型来评估结果质量,而是直接利用工具执行的反馈作为奖励信号。这就像直接用计算器的结果来判断计算是否正确,简单直接且准确可靠。
这种设计还有一个重要优势:它大大降低了推理时的计算成本。传统的方法往往需要生成多个候选答案,然后用复杂的评估模型来选择最佳答案。而THOR通过实时的工具反馈,能够在生成过程中就及时纠正错误,避免了大量无效计算。
研究团队测试发现,THOR在推理过程中的token消耗量实际上比基准模型更少。对于非推理模型,THOR减少了6%的token消耗;对于推理模型,更是减少了13%。这意味着THOR不仅解题更准确,效率也更高。
THOR的成功还体现在它的通用性上。研究团队在多种不同规模的模型上都验证了THOR的有效性,从1.5B参数的轻量级模型到8B参数的大型模型,THOR都能带来显著提升。这说明THOR的方法不是针对特定模型的技巧,而是一种通用的能力提升方案。
特别值得注意的是,THOR在推理模型上的表现尤其出色。推理模型是最新一代的AI模型,它们在内部有一个"思考"过程,然后再给出最终答案。THOR成功地将工具使用能力集成到了这种思考过程中,让AI能够在思考过程中就调用工具来验证和计算。
这种集成就像教会一个学生在做题时边思考边使用工具,而不是思考完了再去用工具。这种方式更加自然和高效,也更接近人类专家解决复杂问题的方式。
从更广阔的视角来看,THOR的成功代表了AI发展的一个重要趋势:从纯粹的语言模型向能够与外部世界交互的智能体发展。传统的语言模型就像一个博学但与世隔绝的学者,只能依靠自己的知识来回答问题。而THOR展示了一种新的可能性:AI可以像人类专家一样,在需要时主动寻求工具的帮助,从而解决更加复杂和精确的问题。
这种能力的重要性不仅体现在数学领域。在科学研究、工程设计、金融分析等需要精确计算的领域,能够智能调用工具的AI将会发挥越来越重要的作用。THOR开创的这种方法,可能会成为未来AI发展的一个重要方向。
说到底,THOR的突破在于它解决了AI领域的一个根本性矛盾:如何让擅长语言理解的AI也能进行精确计算。通过巧妙的训练方法和智能的工具集成,THOR让AI既保持了强大的推理能力,又获得了精确计算的技能。这就像培养出了一个既有文科生的思辨能力,又有理科生计算技能的全才学生。
对于普通人来说,THOR的成功意味着未来的AI助手将能够更好地帮助解决日常生活中的数学问题。无论是帮孩子检查作业,还是协助进行复杂的财务计算,这样的AI将会变得更加可靠和实用。而对于教育工作者来说,THOR提供了一个很好的启示:最好的学习方式不是死记硬背,而是学会在适当的时候使用适当的工具,这种元认知能力可能比具体的知识技能更加重要。
Q&A
Q1:THOR是什么?它能解决什么问题?
A:THOR是中科大和科大讯飞联合开发的AI系统,全名叫"基于强化学习的工具集成分层优化"。它主要解决大语言模型在数学推理中计算不准确的问题,让AI学会在解题时智能地调用计算器、编程工具等外部工具,就像给学生配备了计算工具一样。
Q2:THOR在数学竞赛中表现如何?
A:THOR的表现非常出色。在美国高中数学竞赛AIME 2024中,THOR达到了50.0%的正确率,而同等规模的普通模型只有26.7%。在AMC 2023竞赛中更是达到了81.3%的正确率,远超普通模型的57.4%,基本达到了优秀高中生的水平。
Q3:THOR的技术创新主要体现在哪些方面?
A:THOR有三大创新:首先是TIRGen数据生成方法,让AI学会判断什么时候该用工具;其次是分层优化策略,既关注整体解题效果又重视每个计算步骤的准确性;最后是自我纠错机制,当工具调用失败时能够智能回退并尝试新方法,就像学生发现错误后重新思考一样。
好文章,需要你的鼓励
OpenAI团队的最新研究揭示了大语言模型产生幻觉的根本原因:AI就像面临难题的学生,宁愿猜测也不愿承认无知。研究发现,即使训练数据完全正确,统计学原理也会导致AI产生错误信息。更重要的是,现有评估体系惩罚不确定性表达,鼓励AI进行猜测。研究提出了显式置信度目标等解决方案,通过改革评估标准让AI学会诚实地说"不知道",为构建更可信的AI系统指明方向。
字节跳动AI实验室提出"逆向工程推理"新范式,通过从优质作品反推思考过程的方式训练AI进行创意写作。该方法创建了包含2万个思考轨迹的DeepWriting-20K数据集,训练的DeepWriter-8B模型在多项写作评测中媲美GPT-4o等顶级商业模型,为AI在开放性创意任务上的应用开辟了新道路。
ByteDance Seed团队开发的UI-TARS-2是一个革命性的AI助手,能够通过观看屏幕并用鼠标键盘操作电脑,就像人类一样完成各种任务和游戏。该系统采用创新的"数据飞轮"训练方法,在多项测试中表现出色,游戏水平达到人类的60%左右,在某些电脑操作测试中甚至超越了知名AI产品,展现了AI从对话工具向真正智能助手演进的巨大潜力。