微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 腾讯AI团队破解多智能体推理难题:机器人团队协作如何超越单打独斗?

腾讯AI团队破解多智能体推理难题:机器人团队协作如何超越单打独斗?

2026-01-22 09:04
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-01-22 09:04 科技行者

这项由腾讯混元团队的刘书林、杜东、杨涛、李阳、邱博雨等研究者共同完成的研究发表于2025年11月,论文编号为arXiv:2511.11373v1。有兴趣深入了解的读者可以通过该编号查询完整论文内容。

近年来,大型语言模型的推理能力有了显著进步,这主要得益于强化学习和测试时扩展等技术的发展。不过,就像一个人的思维深度会受到注意力集中时间的限制一样,当前的语言模型也面临着输出长度的约束,这直接影响了它们在单次推理过程中能够达到的思考深度。

为了突破这个限制,研究者们开始探索多智能体推理系统,这就像组建一个专业团队来解决复杂问题,而不是让一个人独自承担所有任务。在这个团队中,有专门负责提出解决方案的"求解者",有负责检查错误的"验证者",还有负责改进方案的"修正者"。每个成员各司其职,通过反复协作来不断完善最终答案。

这种多智能体方法在顶级的闭源模型中表现出色,比如谷歌的Gemini 2.5 Pro成功解决了2025年国际数学奥林匹克竞赛六道题中的五道。然而,当研究者们尝试将这套系统应用到开源模型时,却发现效果并不理想。问题的根源在于这些开源模型在批评和纠错能力方面还不够成熟,就像一个缺乏经验的团队,虽然每个成员都很努力,但配合不够默契,反而可能越帮越忙。

为了解决这个问题,腾讯混元团队提出了名为MarsRL的创新框架。这个框架的核心思想是通过强化学习来同时训练系统中的所有智能体,让它们学会更好地协作。研究团队在Qwen3-30B-A3B-Thinking-2507模型上应用MarsRL后,在AIME2025数学竞赛中的准确率从86.5%跃升至93.3%,在BeyondAIME测试中从64.9%提高到73.8%,甚至超越了参数量更大的模型。

一、多智能体推理:为什么需要团队作战?

单个语言模型进行推理就像一个人在解决复杂问题,虽然能力很强,但总有力不从心的时候。特别是在处理数学证明或逻辑推理这样需要深度思考的任务时,模型需要生成很长的推理过程,而计算复杂度会随着序列长度呈平方级增长,这就像一个人的大脑在长时间高强度思考后会感到疲惫一样。

多智能体推理系统的出现就像是为解决问题组建了一个专业团队。这个团队通常包含三个关键角色:首先是求解者,它负责根据问题提出初始解决方案,就像团队中的主要攻关手;然后是验证者,它的任务是仔细检查解决方案中可能存在的错误或漏洞,就像质量控制专员;最后是修正者,它根据验证者发现的问题对方案进行改进和完善,就像经验丰富的顾问。

这种分工合作的方式有着显著的优势。当求解者提出一个解决方案后,验证者会从批判性的角度审视这个方案,寻找其中的逻辑漏洞或计算错误。如果发现问题,修正者就会接手,基于验证者的反馈对方案进行针对性的改进。这个过程可以反复进行多轮,每一轮都有机会让解决方案更加完善。

特别值得注意的是,这种方法在解决数学竞赛题目时展现出了惊人的效果。研究者发现,当Gemini 2.5 Pro被限制在单轮求解模式下时,它无法正确解决任何一道国际数学奥林匹克题目。但是当采用多智能体验证修正流程后,同样的模型成功解决了六道题目中的五道,达到了金牌水平。这个对比清楚地展示了团队协作相对于单打独斗的巨大优势。

然而,这种看似完美的系统在应用到开源模型时遭遇了现实的挑战。研究者发现,当他们将这套多智能体系统直接移植到Qwen3-A22B-Thinking-2507或DeepSeek V3.1-Think等开源模型上时,不仅没有带来性能提升,有时甚至出现了性能下降。深入分析后发现,问题的关键在于这些开源模型在担任验证者和修正者角色时能力不足。它们往往无法准确识别解决方案中的错误,或者在尝试修正时反而引入了新的问题。

二、MarsRL框架:让AI团队学会真正的协作

面对开源模型在多智能体协作中的困难,腾讯混元团队意识到,简单地将成功的框架移植过来是不够的,需要通过专门的训练来提升每个智能体的专业能力和团队协作水平。这就是MarsRL框架诞生的背景。

MarsRL的核心理念是通过强化学习同时优化系统中的所有智能体。这种方法的创新之处在于,它不是分别训练每个智能体,而是让它们在相互协作的过程中共同学习和进步。这就像训练一支篮球队,不仅要提升每个球员的个人技能,更重要的是要让他们学会有效的团队配合。

在传统的强化学习方法中,通常会给整个任务轨迹分配一个总体奖励。然而,在多智能体环境中,这种做法会带来严重的噪音问题。举个例子,假设求解者提出了一个正确的解决方案,但验证者错误地认为这个方案有问题,然后修正者对这个本来正确的方案进行了"修正",最终得到的结果恰好也是正确的。在传统的奖励机制下,由于最终结果正确,验证者会因为错误的判断而获得正面奖励,这显然是不合理的。

为了解决这个问题,MarsRL引入了智能体特定的可验证奖励机制。每个智能体都会根据自己的具体表现获得相应的奖励,而不是简单地分享整体结果的奖励。对于求解者和修正者,它们的奖励直接基于其生成的解决方案是否与标准答案一致。对于验证者,其奖励则取决于它是否正确地识别了解决方案的对错。如果验证者错误地将正确答案标记为错误,或者未能发现明显的错误,它都会受到相应的惩罚。

这种精细化的奖励机制确保了每个智能体都能得到准确的反馈,从而更好地改进自己的专业技能。求解者会学习如何提出更准确的初始方案,验证者会提升错误识别的敏感性和准确性,修正者则会掌握更有效的问题解决策略。

除了奖励机制的创新,MarsRL还引入了受流水线并行处理启发的训练策略。在传统方法中,系统需要等待整个推理轨迹完成后才能开始训练,这在处理长序列时会导致效率低下。MarsRL采用了智能体级别的流水线训练方法,当任何一个智能体完成其任务后,其输出立即被加入训练队列,无需等待整个轨迹的完成。这种方法显著减少了轨迹生成和训练之间的延迟,大大提升了训练效率。

三、训练策略的精妙设计:从采样到并行处理

MarsRL的成功不仅仅依赖于创新的奖励机制,还在于其精心设计的训练策略。研究团队深入思考了多智能体系统的特殊需求,并开发了一系列针对性的解决方案。

在多智能体系统中,不同智能体之间的交互模式对整体性能有着至关重要的影响。研究团队发现,智能体之间如何选择和传递信息,会直接影响整个系统的学习效果。为此,他们设计了三种不同的采样策略来探索最优的交互模式。

第一种是随机采样策略,就像在人群中随机挑选意见一样简单直接。每个智能体会从前一个智能体的输出中随机选择两个结果作为输入。这种方法虽然简单,但可能会让智能体接触到各种不同质量的信息,有助于提升其适应性。

第二种是平衡采样策略,这种方法更加注重信息的多样性。智能体会尝试同时选择正确和错误的样本,确保它们能够接触到不同类型的案例。这就像让学生既学习正确的解题方法,也了解常见的错误类型,从而培养更全面的判断能力。

第三种是自适应采样策略,这是三种方法中最为精妙的一种。在这种策略下,验证者会优先选择那些可能包含错误的解决方案进行检查,这符合其质量控制的本职工作。而修正者则会重点关注那些验证者确实发现了问题的案例,专注于改进和完善工作。这种有针对性的选择使得每个智能体都能专注于其最擅长和最需要的任务类型。

通过实验比较,研究团队发现自适应采样策略在多个指标上都表现最优。这种策略不仅提升了整体性能,还显著改善了验证者的错误检测能力。数据显示,采用自适应策略训练的验证者在准确率和召回率方面都明显优于其他两种策略,这解释了为什么这种方法能够取得最好的整体效果。

在技术实现层面,MarsRL还借鉴了流水线并行处理的思想来提升训练效率。传统的训练方法需要等待整个推理序列完成,这在处理最长可达32万个词汇的轨迹时会造成严重的效率瓶颈。研究团队将训练过程分解为智能体级别的流水线,使得每个智能体完成任务后就能立即开始训练,无需等待后续智能体的完成。

这种流水线设计特别适合多智能体场景的特点。在多智能体推理过程中,智能体之间存在天然的依赖关系,后面的智能体需要基于前面智能体的输出来工作。MarsRL巧妙地利用了这种特性,将原本串行的训练过程转变为并行处理,显著提升了训练速度。

为了确保训练样本的质量和可比性,研究团队还引入了分组智能体轮转的概念。在GRPO框架中,同一组内的样本需要基于相同的输入进行解码,以确保相互之间具有可比性。MarsRL在此基础上扩展了这一概念,确保每个智能体处理的样本都按照相同的输入进行分组。这种设计使得模型能够更有效地区分高质量和低质量的回应,从而提升学习效果。

四、实验验证:数据说话的成效展示

为了验证MarsRL框架的有效性,研究团队在Qwen3-30B-A3B-Thinking-2507模型上进行了全面的实验。他们选择了AIME2025和BeyondAIME这两个具有挑战性的数学竞赛数据集作为测试基准,这些数据集中的问题需要深度的数学推理能力,正好适合检验多智能体系统的协作效果。

实验结果令人印象深刻。在应用MarsRL框架前,Qwen3-30B-A3B-Thinking-2507模型在AIME2025上的求解准确率为86.5%,而多智能体推理系统的表现实际上还略低,只有85.6%。这个现象再次证实了直接应用多智能体框架到开源模型上不仅无法带来提升,反而可能造成性能下降。

然而,经过MarsRL训练后,情况发生了根本性的变化。求解者的单独性能从86.5%提升到91.1%,而完整的多智能体推理系统更是达到了93.3%的准确率。在BeyondAIME数据集上,类似的改进同样显著,求解者从64.9%提升到70.2%,推理系统从63.3%跃升至73.8%。这些数字背后反映的是整个系统协作能力的质变。

更令人惊讶的是,经过MarsRL训练的30B参数模型竟然在性能上超越了更大规模的235B参数版本。在AIME2025测试中,MarsRL训练的模型达到93.3%,而235B模型只有92.3%。这个结果有力地证明了有效的训练方法比简单增加模型规模更重要,也展示了MarsRL框架的巨大潜力。

为了深入理解性能提升的来源,研究团队进行了细致的分析实验。他们分别测试了只训练求解者(MarsRL-S)和只训练验证者与修正者(MarsRL-VC)的效果。出人意料的是,MarsRL-VC配置下的求解者性能竟然超过了MarsRL-S配置。这个发现表明,训练验证者和修正者不仅能提升它们自身的能力,还能间接促进求解者的表现。

这种现象的背后有着深层的原因。研究团队发现,开源模型在验证和修正任务上的初始能力相对薄弱,它们的平均输出长度只有5千个词汇,远远低于求解者的19千个词汇。这表明模型在进行验证和修正时缺乏足够的推理深度。通过MarsRL-VC训练后,验证者和修正者的平均输出长度快速增长到30千个词汇,显示出推理深度的显著提升。更重要的是,这种改进似乎传播到了求解者身上,使其输出长度也从19千增长到28千个词汇。

这个现象揭示了一个有趣的学习机制:当模型在验证和修正任务中学会了更深入的推理模式后,这些技能会自然地迁移到求解任务中。这就像一个人在学会了如何仔细检查和改进自己的工作后,在初始创作时也会变得更加谨慎和深入。

五、通用性验证:跨模型的协作能力

MarsRL框架的一个重要优势在于其训练出的验证者和修正者具有良好的通用性。为了验证这一点,研究团队进行了一个有趣的实验:他们将MarsRL训练出的验证者和修正者与不同的开源求解者进行配对,测试这种跨模型协作的效果。

实验结果非常令人鼓舞。当MarsRL训练的验证者和修正者与Qwen3-A3B-Thinking-2507、Qwen3-A22B-Thinking-2507以及DeepSeek V3.1-Think等不同模型配对时,推理系统的性能都得到了显著提升。以Qwen3-A3B-Thinking-2507为例,单独使用时的AIME2025准确率为86.5%,但与MarsRL训练的验证者和修正者配合后,准确率跃升至91.7%。类似的提升在其他模型上也得到了证实。

这种跨模型的通用性特别有价值,因为它意味着一次训练的成果可以广泛应用。就像培养出一批优秀的编辑和顾问后,他们可以与不同的作者合作,帮助每个作者都能产出更高质量的作品。这种通用性大大提升了MarsRL框架的实用价值,使得资源投入能够获得更广泛的回报。

从技术角度来看,这种通用性的实现得益于MarsRL训练过程中对验证和修正技能的系统化培养。验证者学会了识别各种类型的数学错误和逻辑漏洞,修正者则掌握了多种问题解决策略。这些技能具有足够的抽象性和普适性,使得它们能够适应不同求解者的工作风格和输出特点。

研究团队还观察到,不同的求解者虽然在解题风格和思路上存在差异,但它们产生的错误类型往往有着共同的模式。MarsRL训练的验证者正是针对这些常见错误模式进行了专门的学习,因此能够有效地识别和标记问题,无论这些问题来自哪个具体的求解者。同样,修正者学会的改进策略也具有足够的灵活性,能够根据不同类型的错误采取相应的修正措施。

六、深度分析:为什么MarsRL会如此有效?

MarsRL框架的成功并非偶然,其背后有着深层的技术原理和心理学基础。从多个角度分析这个框架的工作机制,我们可以更好地理解为什么它能够取得如此显著的效果。

从认知科学的角度来看,MarsRL实际上模拟了人类专家团队解决复杂问题的协作模式。在现实世界中,当面对具有挑战性的问题时,最有效的方法往往是组建一个包含不同专业技能的团队。每个成员负责自己最擅长的部分,同时通过密切协作来确保整体方案的质量。MarsRL将这种人类智慧数字化,让人工智能系统也能够实现类似的专业化分工。

从机器学习的角度来看,MarsRL解决了传统强化学习在多智能体环境中面临的信用分配问题。在复杂的协作任务中,很难准确判断最终结果是由哪个智能体的贡献造成的。MarsRL通过引入智能体特定的奖励机制,为每个智能体建立了清晰的绩效评估标准。这种精准的反馈使得每个智能体都能够获得准确的学习信号,从而更有效地改进自己的行为策略。

从系统工程的角度来看,MarsRL的流水线并行训练策略充分利用了现代计算资源的优势。传统的序列化训练方法无法有效利用多核处理器和分布式计算环境的并行处理能力。MarsRL通过将训练过程分解为可并行执行的子任务,不仅提升了训练速度,还降低了计算资源的闲置率。

特别值得注意的是,MarsRL在处理长序列时展现出的优势。当推理序列长度达到数万甚至数十万个词汇时,传统方法的计算复杂度会急剧上升,成为实际应用的瓶颈。MarsRL通过智能体级别的分段处理,有效地缓解了这个问题。每个智能体只需要专注于相对较短的输出序列,而整个系统通过协作来实现长距离的推理链条。

从数据效率的角度来看,MarsRL的自适应采样策略确保了训练数据的高质量。通过让每个智能体优先处理其最相关的任务类型,系统能够从有限的训练数据中提取最大的价值。这种有针对性的学习比随机学习更加高效,能够在更短的时间内达到更好的性能水平。

研究团队通过对训练过程的详细分析发现,MarsRL框架还展现出了有趣的涌现性质。随着训练的进行,不同智能体之间开始形成默契的协作模式。验证者学会了重点关注求解者容易出错的环节,修正者则发展出了针对不同错误类型的专门化处理策略。这种自组织的协作模式是事先没有明确设计的,却在训练过程中自然涌现出来。

七、技术细节:实现过程中的关键考量

MarsRL框架的成功实施涉及许多重要的技术细节,这些细节虽然看似微小,但对整体性能有着决定性的影响。理解这些技术选择背后的考量,有助于我们更深入地认识这个框架的精妙之处。

在模型架构设计方面,研究团队选择了共享参数的策略,即所有智能体都基于同一个底层模型。这种设计有多重好处:首先,它大大减少了模型的参数总量,降低了训练和部署的资源需求;其次,它使得不同智能体之间能够共享基础的语言理解和生成能力,形成更好的协同效应;最后,它简化了训练过程,避免了多个独立模型之间的复杂同步问题。

在训练数据的处理上,研究团队采用了分段轮转的策略。考虑到单个样本可能经过多个智能体的处理,总长度可能达到32万个词汇,直接处理如此长的序列在计算上是不现实的。分段策略将长序列分解为多个16千词汇的段落,每个段落可以独立处理。当某个段落完成后,其结果立即进入训练队列,而未完成的部分则继续到下一个段落。这种设计既保持了序列的连续性,又提升了训练效率。

在奖励函数的设计上,研究团队投入了大量精力来确保奖励信号的准确性和及时性。对于求解者和修正者,奖励计算相对直接,主要基于其输出与标准答案的匹配程度。但对于验证者,奖励设计更加复杂。验证者需要判断一个解决方案是否正确,这本身就是一个需要专业知识的任务。研究团队设计了多维度的奖励机制,不仅考虑验证者的判断是否正确,还考虑了其判断的置信度和详细程度。

在超参数调优方面,研究团队发现了一些有趣的规律。学习率的设置需要在不同智能体之间进行平衡,因为它们的学习曲线可能差异很大。验证者由于任务的特殊性,往往需要更长的时间来稳定其判断能力,因此可能需要稍低的学习率。而修正者则需要在保持创造性和遵循约束之间找到平衡,这要求更精细的学习率调度策略。

在模型评估方面,传统的单一指标往往无法全面反映多智能体系统的性能。研究团队开发了一套综合评估体系,包括各个智能体的单独性能指标、智能体间的协作效率指标,以及整个系统的端到端性能指标。这种多维度的评估确保了优化方向的正确性,避免了局部优化导致的整体性能下降。

在实验设计上,研究团队采用了严格的对照实验方法。他们不仅比较了MarsRL与传统方法的性能差异,还通过消融实验分析了框架中每个组件的贡献。这种科学的实验设计方法确保了研究结论的可靠性和说服力。

八、实际应用前景:从实验室走向现实世界

MarsRL框架的成功不仅仅是学术研究上的突破,更重要的是它为人工智能在现实世界中的应用开辟了新的可能性。这项技术的潜在应用领域非常广泛,几乎涵盖了所有需要复杂推理和协作的场景。

在教育领域,MarsRL可以被开发成智能辅导系统。这样的系统可以包含专门负责讲解概念的教师智能体、负责发现学生错误的诊断智能体,以及负责提供个性化改进建议的辅导智能体。通过这种多角度的协作,系统能够为学生提供更全面、更有效的学习支持。特别是在数学和科学教育中,这种能够进行深度推理验证的系统将极大地提升学习效果。

在科学研究领域,MarsRL框架可以辅助研究人员进行假设验证和理论推导。一个科研助手系统可能包含负责生成研究假设的创意智能体、负责检验假设逻辑性的验证智能体,以及负责改进研究方案的优化智能体。这种协作模式特别适合于需要严格逻辑验证的理论研究工作。

在法律咨询领域,多智能体系统可以协助律师进行案件分析。系统可能包含专门负责案件事实梳理的分析智能体、负责寻找法律依据的检索智能体,以及负责构建法律论证的推理智能体。通过这种专业化分工,系统能够提供更准确、更全面的法律建议。

在金融分析领域,MarsRL可以用于构建智能投资顾问系统。这样的系统可能包含负责市场数据分析的研究智能体、负责风险评估的控制智能体,以及负责投资策略优化的决策智能体。通过多角度的分析和验证,系统能够提供更可靠的投资建议。

在软件开发领域,多智能体系统可以协助程序员进行代码开发和调试。系统可能包含负责编写代码的开发智能体、负责发现程序错误的测试智能体,以及负责代码优化的改进智能体。这种协作模式可以显著提升软件开发的质量和效率。

当然,MarsRL框架在实际应用中也面临着一些挑战。首先是计算资源的需求,多智能体系统比单一模型需要更多的计算能力。其次是部署复杂性,需要设计合适的系统架构来支持多个智能体的协调工作。此外,还需要建立有效的质量控制机制,确保系统在各种情况下都能稳定运行。

不过,随着计算技术的不断发展和成本的持续下降,这些挑战正在逐步得到解决。云计算平台的普及使得个人和小型企业也能够负担起运行复杂人工智能系统的成本。同时,容器化和微服务架构的成熟为多智能体系统的部署提供了技术支撑。

从长远来看,MarsRL代表的多智能体协作范式可能会成为人工智能发展的重要方向。随着任务复杂性的不断增加,单一模型的能力终将遇到瓶颈,而协作式的智能系统将展现出更大的潜力。这种发展趋势与人类社会的演进模式高度一致,即通过专业化分工和有效协作来解决日益复杂的挑战。

说到底,MarsRL框架的价值不仅在于它解决了当前多智能体推理系统中的技术难题,更在于它为人工智能的未来发展指明了一个新的方向。通过让人工智能学会真正的团队协作,我们正在向构建更智能、更可靠、更有用的人工智能系统迈出重要一步。这项研究的开源发布也体现了科研社区开放合作的精神,相信会激发更多创新性的后续工作。未来,随着这项技术的不断完善和广泛应用,我们有理由期待人工智能在解决复杂现实问题方面发挥更大的作用。

Q&A

Q1:MarsRL是什么?

A:MarsRL是腾讯混元团队开发的强化学习框架,专门用于训练多智能体推理系统。它通过同时优化求解者、验证者和修正者三个角色,让AI团队学会真正的协作,就像训练一支专业团队一样让每个成员都能发挥专长并有效配合。

Q2:为什么多智能体推理系统比单个AI模型更有效?

A:就像解决复杂问题时组建专业团队比一个人单打独斗更有效一样,多智能体系统通过分工合作能够实现更深度的推理。一个负责提出方案,一个负责检查错误,一个负责改进完善,通过多轮迭代不断提升解决方案的质量,突破了单个模型在输出长度和推理深度方面的限制。

Q3:MarsRL训练的AI系统能在哪些领域应用?

A:MarsRL可以应用于需要复杂推理和协作的多个领域,包括教育辅导系统、科学研究助手、法律咨询顾问、金融投资分析、软件开发调试等。特别是在数学教育和科学研究中,这种能够进行深度推理验证的系统将大大提升工作效果。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-