
这项由复旦大学的吕一、王嘉宁、郭林森等研究者与美团技术团队合作完成的研究,发表于2025年1月,论文编号为arXiv:2510.08189v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
当你在解数学题时,如果只需要算一道简单的加法,你可能很轻松就能搞定。但如果要你连续解决十几道相互关联的复杂题目,每一题的答案都是下一题的关键信息,你会发现这变得异常困难。现在的AI大模型也面临着同样的挑战。
最近备受关注的推理模型,比如OpenAI的o1和DeepSeek-R1,它们在单一问题上表现出色,就像是解题高手。但当面对需要多个步骤、环环相扣的复杂任务时,这些"聪明"的AI却会出现令人意想不到的性能下降。这就好比一个在短跑中屡创佳绩的运动员,在马拉松比赛中却力不从心。
研究团队发现了一个有趣的现象:即使是目前最先进的AI推理模型,在处理需要长期推理的任务时,实际表现会远远低于理论预期。比如DeepSeek-R1在处理单个数学问题时能达到87.3%的准确率,但当需要连续解决5个相互依赖的问题时,准确率骤降至24.6%。这种落差就像是一个平时能轻松举起50公斤重物的人,面对5个各重10公斤但需要连续搬运的箱子时却败下阵来。
为了深入研究这个问题,研究团队开发了一个名为R-HORIZON的创新方法。这个方法的核心思想是将原本独立的问题巧妙地串联起来,构建出需要多步骤推理的任务场景。就像是把原本各自独立的拼图块按照特定逻辑连接起来,形成一个需要按顺序完成的大拼图。
一、揭开AI推理能力的真面目
当我们谈论AI的推理能力时,大多数现有的评测方法就像是在考察运动员的单项技能——比如只测试跳高或只测试短跑。但在现实世界中,许多复杂任务更像是十项全能比赛,需要在多个相关领域都表现出色,并且能够将前面的成果有效运用到后续步骤中。
研究团队注意到,目前的AI训练和评估主要集中在"单视野"任务上,也就是每个问题都是独立存在的。但真实世界的许多场景需要AI能够在一系列相互关联的步骤中保持推理的连贯性和准确性。这就像是一个医生不仅要能诊断单一症状,还要能够综合多种症状、病史和检查结果,形成完整的治疗方案。
为了模拟这种现实场景,研究团队设计了一种"问题组合"的方法。他们选取现有的数学、编程和智能代理任务,然后巧妙地在这些任务之间建立依赖关系。比如在数学任务中,第一个问题的答案会成为第二个问题的关键参数,第二个问题的结果又会影响第三个问题的求解,以此类推。这样构建出来的任务链就像多米诺骨牌一样,每一步都至关重要,任何一环出错都会影响整个推理过程。
通过这种方法,研究团队构建了一个全面的评估基准,涵盖了6个代表性数据集,包括MATH500、AIME24、AIME25、AMC23等数学任务,LiveCodeBench编程任务,以及WebShaper智能代理任务。他们对25个主流的大型推理模型进行了全面测试,结果令人震惊。
二、AI模型的"马拉松困境"
测试结果揭示了一个普遍存在但此前被忽视的问题:几乎所有的顶级AI模型在面对需要长期推理的任务时都会出现显著的性能衰退。这种衰退并不是线性的,而是呈现出一种"雪崩式"的下降趋势。
以Qwen3-235B-Thinking模型为例,在处理单个AIME24问题时,它能达到93.7%的准确率,但当需要连续处理5个相关问题时,准确率降至69.2%。而在更具挑战性的AIME25任务中,同样的模型从92.3%的单题准确率跌至仅29.2%的五题连续准确率。这种下降幅度远超研究人员的预期。
更有趣的是,这种性能衰退在不同规模的模型中表现出不同的特征。较大的模型虽然也会出现性能下降,但衰退幅度相对较小,就像是体力更好的马拉松选手能够坚持更长时间。而较小的模型则表现出更剧烈的性能崩塌,比如R1-Qwen-7B模型在处理16个连续问题时,准确率从93.6%直接降至0%。
研究团队发现,这种性能衰退在不同类型的任务中表现出相似的模式。无论是数学推理、代码生成还是智能代理任务,所有模型都显示出随着推理深度增加而准确率下降的趋势。这表明这不是某个特定领域的问题,而是当前AI推理架构的一个根本性挑战。
特别值得注意的是,在编程任务中,性能衰退更为严重。许多7B规模的模型甚至无法完成多个连续的编程问题。而在网络搜索任务中,研究人员发现许多经过推理训练的模型反而失去了调用工具的能力,这是一个意想不到的副作用。
三、深入AI的"思考黑匣子"
为了理解AI模型在长期推理中表现不佳的根本原因,研究团队进行了深入的分析,就像医生为病人做全面体检一样,他们从多个角度解剖了AI的推理过程。
首先,他们发现了AI模型存在"有效推理长度"的限制。每个模型都有一个推理能力的边界,一旦推理过程超过这个边界,性能就会急剧下降。这就像是人的注意力有一个天然的持续时间限制,超过这个时间就容易走神或出错。具体来说,R1-Qwen-7B模型的错误通常出现在4000-6000个词汇标记的位置,而R1-Qwen-32B模型的边界则在8000-10000个标记附近。
其次,研究团队发现AI模型的"反思能力"存在严重的局限性。在分析模型的推理过程时,他们发现大多数AI在犯错后进行的反思都局限在当前正在处理的问题范围内,很难回溯到之前的问题中寻找错误根源。这就像是一个学生在做连环数学题时,如果在第三道题上卡住了,他往往只会反复检查第三道题的计算过程,而不会想到可能是第一道或第二道题的答案就错了。
第三个重要发现是AI模型普遍存在"思考资源分配不均"的问题。研究人员通过分析发现,当面对多个问题时,AI倾向于在早期问题上花费过多的"思考时间"(表现为生成更多的推理文本),而在后续问题上分配的资源越来越少。这种不平衡的资源分配策略导致后面的问题得不到充分的推理,从而影响整体表现。
更令人意外的是,研究团队还发现了一种"异常现象":有时候AI能够在前面问题答错的情况下,仍然得出后续问题的正确答案。按理说,由于问题之间存在依赖关系,前面的错误应该会导致后面的问题无法正确求解。研究人员推测这可能与训练数据中存在的重复内容有关,模型可能"记住"了某些特定问题的答案,而不是真正进行逻辑推理。
四、训练AI的"马拉松耐力"
认识到现有AI模型在长期推理方面的不足后,研究团队开始探索如何改善这种状况。他们的核心思路是:既然AI在处理单个问题时表现出色,为什么不让它在训练时就多练习处理连续的、相互关联的问题呢?这就像是让短跑运动员逐渐增加训练距离,培养长跑耐力一样。
研究团队使用R-HORIZON方法重新构建了训练数据,将原本独立的数学问题组合成需要多步骤推理的问题链。然后他们采用了一种叫做"基于验证奖励的强化学习"(RLVR)的训练方法。这种方法的好处是能够给AI提供明确的反馈:如果它正确解决了所有相关联的问题,就会获得正面奖励;如果任何一个环节出错,就会收到负面反馈。
在具体的训练过程中,研究团队设计了两种不同的奖励策略。第一种是"最终答案奖励",只要AI最终能给出正确的答案就算成功,即使中间步骤有些小错误也不太在意。第二种是"全程正确奖励",要求AI在每一个步骤都必须正确,这种要求更严格但也更能培养AI的精确推理能力。
训练结果令人振奋。经过R-HORIZON方法训练的AI模型在处理多步骤推理任务时表现出明显改善。更重要的是,这种改善不仅体现在多步骤任务上,就连原本的单步骤任务表现也有所提升。比如在AIME2024数据集上,经过新方法训练的模型准确率提高了7.5个百分点。这就像是马拉松训练不仅提高了长跑能力,连短跑成绩也有所改善。
研究团队还发现,使用不同数量的组合问题进行训练会产生不同的效果。训练时使用2个问题组合的效果最为显著,而使用4个问题组合的训练则能让模型在更长的推理链中保持稳定表现。有趣的是,使用"全程正确奖励"策略训练出来的模型在面对多问题场景时表现更好,这证实了严格训练的重要性。
五、AI推理的"体能分析"
通过对比经过传统方法和R-HORIZON方法训练的AI模型,研究团队揭示了一些有趣的"体能"差异。这些差异帮助我们更深入地理解了AI推理能力的本质。
首先是"思考效率"的改善。经过R-HORIZON训练的模型在面对多个问题时,不再像之前那样在每个问题上都"过度思考"。它们学会了更合理地分配思考资源,就像是经验丰富的马拉松选手学会了保存体力和合理配速。具体表现为,这些模型生成的推理文本更加简洁高效,避免了不必要的重复思考。
其次是"反思范围"的扩大。传统训练出来的AI在遇到困难时,往往只能在当前问题的范围内进行反思。而经过新方法训练的AI开始展现出跨问题的反思能力,当后面的问题出现困难时,它们能够回溯到前面的问题中寻找可能的错误源头。这种能力的提升对于解决复杂的连环问题至关重要。
第三个显著改善是"资源分配策略"。研究人员通过分析不同问题上的思考时间分布发现,经过R-HORIZON训练的模型展现出更均衡的资源分配模式。它们不再在第一个问题上花费过多时间,而是根据问题的实际难度来分配思考资源,这种策略显然更适合处理多步骤任务。
最后,训练过程本身也变得更加高效。研究团队发现,使用组合问题进行训练时,模型的学习速度实际上比传统方法更快。这可能是因为组合问题提供了更丰富的学习信号,让AI能够同时学习多个相关技能,形成了类似"一举多得"的效果。
六、现实应用的无限可能
这项研究的意义远远超出了学术范畴,它揭示的问题和提出的解决方案对于AI技术的实际应用具有重要启示。在现实世界中,许多有价值的AI应用都需要进行长期、复杂的推理过程。
在教育领域,一个理想的AI教师不仅需要能够解答单个数学问题,更需要能够引导学生完成整个学习单元,在每个步骤上提供恰当的指导,并根据学生的进展调整教学策略。这种能力正需要R-HORIZON研究中涉及的长期推理能力。
在科学研究中,AI助手需要能够协助科学家完成复杂的实验设计、数据分析和结论推导过程。这个过程往往涉及多个相互关联的步骤,每个步骤的结果都会影响后续的研究方向。传统的AI可能在单个分析任务上表现出色,但在整个研究流程的协调上就会出现问题。
在商业决策领域,企业经常需要AI系统帮助分析复杂的商业场景,这些场景通常涉及市场分析、竞争对手研究、财务预测等多个互相关联的环节。如果AI无法在这些环节之间保持推理的连贯性,就很难提供真正有价值的决策支持。
医疗诊断是另一个需要长期推理的典型场景。一个复杂的医疗案例可能需要综合患者的症状、病史、检查结果、药物反应等多方面信息,每个信息都可能影响最终的诊断结果。R-HORIZON方法训练出来的AI可能在这类应用中表现得更加可靠。
研究团队指出,他们的方法不仅改善了AI的长期推理能力,还展现了良好的可扩展性和可控性。这意味着这种训练方法可以根据具体应用的需求进行调整,比如增加推理链的长度,或者调整不同步骤之间的复杂度关系。
更重要的是,这种改善是在相对较低的成本下实现的。与开发全新的AI架构相比,R-HORIZON方法更像是对现有模型的"体能训练",不需要从头开始构建新的系统,这为其广泛应用提供了现实基础。
七、未来展望与思考
这项研究不仅解决了一个重要的技术问题,更重要的是它改变了我们对AI推理能力的理解方式。传统上,我们习惯于用单一任务的表现来评判AI的智能水平,就像是用百米短跑成绩来评价运动员的整体素质。但这项研究告诉我们,真正的智能可能更多体现在处理复杂、长期任务的能力上。
从更广阔的视角来看,这项研究揭示了当前AI发展中的一个深层问题:我们在追求AI在特定任务上的卓越表现时,可能忽略了智能的另一个重要维度——持续性和连贯性。真正的智能不仅要能够解决复杂问题,还要能够在长期的、多步骤的过程中保持稳定的表现。
研究团队的工作也为未来的AI研究指出了新的方向。他们证明了通过巧妙的训练方法设计,可以在不大幅增加计算成本的情况下显著改善AI的推理能力。这种"训练方法创新"的路径可能比单纯增加模型规模或计算资源更有效,也更具可持续性。
同时,这项研究也提醒我们需要重新思考AI评估的标准。如果我们真的希望AI能够在现实世界中发挥更大作用,就需要建立更全面、更贴近实际应用需求的评估体系。R-HORIZON基准测试为这个方向提供了一个很好的起点。
对于AI技术的用户和开发者来说,这项研究的启示是:在选择或开发AI系统时,不应该只关注其在单一任务上的表现,还要考虑其在复杂、长期任务中的稳定性和可靠性。这种全面的评估视角将有助于开发出更实用、更可靠的AI应用。
说到底,这项研究向我们展示了AI推理能力发展的一个新阶段。就像人类智能不仅体现在解决单个问题的能力上,更体现在长期规划、持续学习和适应变化的能力上一样,AI的真正智能也需要在长期推理和复杂任务处理中得到体现。研究团队通过R-HORIZON方法为这个目标迈出了重要的一步,相信这将为AI技术的未来发展开辟新的道路。
有兴趣深入了解这项研究细节的读者,可以通过论文编号arXiv:2510.08189v1查询完整的技术论文,其中包含了详细的实验数据、方法描述和分析结果。
Q&A
Q1:R-HORIZON方法是什么?它是如何提升AI推理能力的?
A:R-HORIZON是一种创新的AI训练方法,它通过将原本独立的问题巧妙地串联起来,构建需要多步骤推理的任务场景。就像把拼图块按逻辑连接成大拼图一样,让AI在训练时就练习处理相互关联的复杂任务。这种方法配合强化学习训练,能显著改善AI在长期推理任务中的表现,同时也提升了单一任务的准确率。
Q2:为什么现在的AI大模型在处理连续问题时会出现性能下降?
A:研究发现AI模型存在三个主要问题:一是有效推理长度限制,就像人的注意力有持续时间边界;二是反思能力局限,只能在当前问题范围内反思而无法回溯前面的错误;三是思考资源分配不均,倾向于在早期问题上花费过多时间,导致后续问题得不到充分推理。这些问题共同导致了性能的雪崩式下降。
Q3:这项研究对实际AI应用有什么意义?
A:这项研究对需要长期推理的AI应用具有重要价值,比如AI教师需要引导学生完成整个学习单元,医疗AI需要综合多种信息进行诊断,商业AI需要协助复杂决策分析。R-HORIZON方法训练出的AI能够在这些多步骤、相互关联的任务中保持更好的连贯性和准确性,为开发更实用可靠的AI应用奠定了基础。
好文章,需要你的鼓励
过去十年,终端厂商比拼的是“性能”和“参数”,如今,竞争的焦点正转向“智能程度”。
Fractal AI Research实验室开发了Fathom-DeepResearch智能搜索系统,该系统由两个4B参数模型组成,能够进行20多轮深度网络搜索并生成结构化报告。研究团队创新了DUETQA数据集、RAPO训练方法和认知行为奖励机制,解决了AI搜索中的浅层化、重复性和缺乏综合能力等问题,在多项基准测试中显著超越现有开源系统,为AI助手向专业研究工具转变奠定了基础。
快手科技与清华大学合作发现当前AI语言模型训练中存在严重的权重分配不平衡问题,提出了非对称重要性采样策略优化(ASPO)方法。该方法通过翻转正面样本的重要性权重,让模型把更多注意力放在需要改进的部分而非已经表现良好的部分,显著提升了数学推理和编程任务的性能,并改善了训练稳定性。