微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

腾讯推出AT?PO：让AI智能体像人类一样一步步思考和行动

人工智能强化学习智能体训练

腾讯推出AT?PO：让AI智能体像人类一样一步步思考和行动

作者：科技行者

2026-01-12 09:37

分享至：

腾讯联合多所高校推出AT?PO框架，通过熵引导树扩展、逐步奖励分配和专用策略优化三大创新，解决了AI智能体训练中探索不充分、奖励稀疏、学习方式不匹配等关键问题。实验显示该方法在七个基准测试中平均提升1.84个百分点，特别适合多步推理任务，为未来智能助手技术发展奠定重要基础。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-01-12 09:37 • 科技行者

这项由腾讯公司联合中山大学、深圳MSU-BIT大学共同完成的研究成果发表于2025年1月，研究团队提出了一个名为AT?PO（Agentic Turn-based Policy Optimization via Tree Search）的全新框架。有兴趣深入了解的读者可以通过论文编号arXiv:2601.04767v1查询完整论文。

现在的AI智能体就像是一个刚学会使用工具的学徒，它们能够与外界工具互动来解决复杂问题，比如搜索信息、调用计算器或者操作其他软件。但是，就像学徒在学习过程中会遇到各种困难一样，现有的AI智能体在学习如何更好地使用这些工具时也面临着三个关键挑战。

首先是探索不够充分的问题。当前的AI智能体就像一个只会按照固定路线行走的机器人，它们在尝试不同解决方案时往往过于保守，很难发现那些真正有效但不太明显的方法。其次是奖励信号稀疏的问题。AI智能体通常只有在完成整个任务后才能知道自己做得好不好，这就像一个学生只有在期末考试后才知道自己这学期学得怎样，中间的每一步努力都得不到及时的反馈。最后是学习方式不匹配的问题。现有的训练方法把AI智能体的整个思考和行动过程当作一个整体来优化，但实际上智能体是一步一步地思考和行动的，这种不匹配就像用训练跑马拉松的方法来训练跳高运动员一样。

为了解决这些问题，腾讯研究团队开发了AT?PO框架。这个框架包含三个核心组件，它们相互配合就像一个精密的齿轮系统。第一个组件叫做熵引导树扩展，它能够帮助AI智能体更聪明地探索不同的解决方案。第二个组件是逐步奖励分配机制，它为AI智能体的每一步行动提供细致的反馈。第三个组件是专门针对智能体特点设计的策略优化方法，确保训练过程与智能体的实际工作方式完全匹配。

研究团队在七个不同的问答基准测试上验证了AT?PO的效果，结果显示它比现有最好的方法平均提升了1.84个百分点。这看似微小的改进实际上意味着AI智能体在解决复杂问题时能够显著提高成功率，这对于实际应用具有重要意义。

一、探索策略的智能化：熵引导树扩展

在传统的AI训练中，智能体探索新策略的方式就像一个人在黑暗中摸索，基本上是随机尝试或者按照一些简单的规则进行。AT?PO的第一个创新是引入了熵引导树扩展机制，这就像为智能体配备了一个智能的探索指南针。

这个机制的工作原理可以用寻宝游戏来比喻。当智能体面临多个可能的行动选择时，传统方法可能会随机选择或者按照固定顺序尝试。但AT?PO会分析每个选择点的不确定性程度，专门挑选那些最让智能体"犹豫不决"的地方进行深入探索。这种做法的智慧在于，那些让智能体最不确定的地方往往蕴含着最大的学习潜力。

具体来说，AT?PO使用一种叫做熵值的数学指标来衡量智能体在每个决策点的不确定性。熵值高意味着智能体对该选择很不确定，就像站在十字路口不知道该往哪个方向走一样。系统会优先探索这些高熵值的节点，因为这些地方最有可能发现新的有效策略。

这种探索方式的优势是显而易见的。相比于传统的随机探索或启发式探索，熵引导的探索能够在有限的计算资源下发现更多样化、更高质量的解决方案。研究结果显示，这种方法能够生成更多有效的候选方案，为后续的学习提供了更丰富的训练数据。

整个探索过程被组织成树状结构，每个节点代表智能体在某个时刻的状态和行动。AT?PO会从不确定性最高的节点开始扩展新的分支，就像园丁优先给最需要养分的树枝施肥一样。这种有针对性的扩展策略确保了探索的效率和质量。

为了防止过度探索单个节点而忽略其他可能性，AT?PO还引入了分支惩罚机制。当某个节点被探索次数过多时，系统会自动降低其优先级，鼓励探索其他未充分开发的区域。这种平衡机制确保了探索的全面性和多样性。

二、精细化反馈机制：逐步奖励分配

传统的AI智能体训练就像一个学生只能在期末考试后才知道自己整个学期的表现如何，无法了解每堂课、每次作业的具体效果。AT?PO的第二个重要创新是建立了一套精细的逐步奖励分配机制，让智能体能够为自己的每一步行动获得有针对性的反馈。

这个机制利用树状结构的优势，通过一种被称为蒙特卡洛自助采样的方法来计算每个决策节点的价值。这个过程就像评估一棵果树每个分支的价值一样，不仅要看这个分支本身结了多少果子，还要考虑它的所有子分支的收成情况。

具体的计算过程是这样的：对于树上的每个叶子节点（代表任务的最终结果），系统会根据任务完成的好坏给出一个分数。然后，这个分数会向上传播到父节点，每个中间节点的价值由其所有子节点的加权平均值决定。权重的分配基于每个子分支的不确定性程度，那些不确定性更高的分支会获得更大的权重，因为它们通常包含更多有价值的信息。

这种价值计算方法的巧妙之处在于，它能够将稀疏的最终奖励信号分解成密集的中间反馈。原本只有在任务完全结束后才能获得的成功或失败信息，现在被细分到了每个决策步骤上。这样，智能体不仅知道最终结果如何，还能清楚地了解哪些中间步骤做得好，哪些步骤还需要改进。

研究团队测试了多种不同的价值聚合策略，包括简单平均、加权平均和基于叶节点的聚合等。实验结果显示，基于子节点熵值的加权聚合方法表现最佳。这种方法能够更好地捕捉每个决策点的真实价值，为智能体的学习提供更准确的指导信号。

这种细粒度的反馈机制对于多步骤任务尤其重要。在复杂的问题解决过程中，智能体可能需要进行多轮搜索、推理和工具调用。有了逐步奖励分配，智能体能够准确地识别出哪些搜索策略更有效，哪些推理步骤更关键，从而在后续的学习中重点加强这些有益的行为模式。

三、匹配的学习方式：智能体专用策略优化

AT?PO的第三个关键创新是开发了一种专门针对多步骤智能体特点的策略优化方法，叫做ATPO（Agentic Turn-based Policy Optimization）。这就像为智能体量身定制了一套专门的训练方法，完全匹配它们的工作方式。

传统的策略优化方法存在一个根本性的不匹配问题。它们把智能体的整个思考和行动序列当作一个整体来处理，就像把一部电影当作一张静态图片来分析一样。但实际上，智能体是通过多个回合的交互来完成任务的，每个回合都包含内部思考和外部行动两个部分。

ATPO的核心思想是按照回合来组织优化过程。每个回合被视为一个独立的优化单元，有自己的重要性权重和梯度更新规则。这种做法的好处是显而易见的：它能够更精确地控制每个决策步骤的学习强度，避免某些重要步骤被其他步骤的噪声所掩盖。

在技术实现上，ATPO引入了回合级别的重要性采样比率和裁剪机制。重要性采样是一种统计学技术，用于纠正训练数据和实际应用场景之间的分布差异。ATPO在计算这个比率时不仅考虑单个词汇的概率变化，还会考虑整个回合的概率变化，这样能够更准确地评估策略更新的方向和幅度。

裁剪机制则用于防止策略更新过于激进而导致训练不稳定。ATPO的裁剪是在回合级别进行的，这意味着如果某个回合的策略变化过大，整个回合的更新都会被适度调整，而不是只调整其中的部分内容。这种整体性的控制能够保持策略更新的一致性和稳定性。

为了验证ATPO的有效性，研究团队还设计了一个叫做"回合熵"的诊断指标。这个指标衡量的是在一个完整的任务序列中，不同回合之间策略更新幅度的差异程度。实验结果显示，ATPO能够维持适中的回合熵值，既保证了学习的多样性，又避免了更新的不平衡。

ATPO的另一个重要特点是它的通用性。与前面的树搜索机制不同，ATPO可以作为一个独立的组件集成到任何多步骤智能体训练流程中。这意味着即使不使用AT?PO的完整框架，研究者也可以单独采用ATPO来改进现有的智能体训练方法。

四、实验验证：全方位性能提升

为了全面验证AT?PO框架的有效性，研究团队设计了一系列详尽的实验。这些实验就像给新开发的汽车进行全方位的道路测试一样，要在各种不同的路况和环境下检验其性能表现。

实验环境的设计模拟了智能体在现实世界中可能遇到的知识搜索任务。研究团队构建了一个轻量级的搜索引擎，让智能体通过与这个搜索工具的交互来回答各种问题。这种设置的优势在于既能反映真实应用场景的复杂性，又能确保实验结果的可重复性。

测试数据集涵盖了七个广泛使用的问答基准，包括HotpotQA、2WikiMultihopQA、MuSiQue、Bamboogle等多跳问答数据集，以及Natural Questions、TriviaQA、PopQA等单跳问答数据集。多跳问答需要智能体进行多轮搜索和推理才能得出答案，而单跳问答相对更直接。这种设计确保了测试的全面性和代表性。

实验使用了三种不同规模的语言模型作为智能体的基础：Qwen3-4B、Qwen3-8B和Qwen2.5-7B。这种多模型测试策略能够验证AT?PO在不同计算资源条件下的适用性，确保研究结果的广泛适用性。

对比实验包括了多个目前最先进的基线方法，如GRPO、DAPO、GSPO、AEPO和Tree-GRPO等。每种方法都代表了当前智能体训练领域的不同技术路线。通过与这些方法的全面对比，能够准确评估AT?PO的相对优势。

实验结果令人振奋。AT?PO在绝大多数测试场景中都取得了最佳性能，平均性能提升达到1.84个百分点。虽然这个数字看起来不大，但在AI领域，即使是几个百分点的提升也意味着显著的技术进步。更重要的是，AT?PO在多跳问答任务上的优势更加明显，这证明了该方法特别适合处理需要多步推理的复杂任务。

研究团队还深入分析了训练过程中的动态变化。他们发现，传统方法往往会出现"熵崩塌"现象，即智能体在训练初期就过早地收敛到某种固定策略，失去了继续探索的能力。而AT?PO能够在整个训练过程中保持稳定的熵值，确保智能体始终保持适度的探索性。

特别值得注意的是，AT?PO在不同类型任务上表现出了不同的优势模式。在需要多轮交互的复杂任务上，AT?PO的优势更加突出，因为这类任务更能发挥其回合级别优化的特点。而在相对简单的单步任务上，虽然改进幅度较小，但仍然保持了稳定的性能提升。

五、深入解析：模块化贡献分析

为了更好地理解AT?PO各个组件的具体贡献，研究团队进行了详细的消融实验。这种实验就像拆解一台复杂机器，逐个检查每个零件的作用，以确定哪些部分最关键，哪些部分可以进一步优化。

消融实验采用逐步添加组件的方式进行。首先建立一个基础版本，使用传统的GRPO方法配合随机树搜索。然后依次加入ATPO策略优化、熵引导树扩展和逐步奖励分配机制，观察每个组件对性能的具体影响。

实验结果清楚地显示了每个组件的价值。当基础系统加入ATPO优化方法后，在多跳问答任务上的平均性能从45.42%提升到47.75%，这个2.33个百分点的提升证明了回合级别优化的重要性。接着加入熵引导树扩展后，性能进一步提升到48.33%，额外的0.58个百分点改进体现了智能探索策略的价值。最后加入逐步奖励分配机制后，最终性能达到48.81%，又获得了0.48个百分点的提升。

这种渐进式的性能改进表明，AT?PO的三个核心组件确实形成了协同效应。每个组件都在解决特定的技术挑战，它们的结合产生了超越单纯相加的效果。ATPO解决了优化目标与任务结构的匹配问题，熵引导树扩展提高了探索效率，而逐步奖励分配则缓解了稀疏奖励的困扰。

研究团队还深入分析了不同奖励分配策略的效果。他们比较了多种价值聚合方法，包括基于子节点加权、子节点均值、叶节点均值等不同策略。实验发现，直接使用节点价值作为优势信号比复杂的差值计算方法效果更好。这个发现有些出人意料，因为在传统的强化学习中，基于差值的优势估计通常被认为更有效。

进一步的分析显示，在智能体应用场景中，直接的价值信号能够提供更清晰、更稳定的学习指导。这可能是因为智能体任务的层次化结构使得每个节点的绝对价值比相对价值更有意义。这个发现为未来的智能体训练方法设计提供了重要的指导原则。

研究团队还分析了训练稳定性的问题。他们发现，一些现有的方法（如Tree-GRPO）在某些模型上容易出现训练崩塌，主要原因是"重新标记化漂移"问题。当智能体的中间输出需要转换成文本格式以便工具处理，然后再转换回标记序列时，这种转换过程可能引入不一致性，导致训练不稳定。AT?PO通过采用标记级别的处理流程避免了这个问题，确保了训练过程的稳定性。

六、技术深度：算法设计的精妙之处

AT?PO的技术实现展现了研究团队对智能体训练问题的深刻理解。整个框架的设计遵循了模块化和可扩展的原则，每个组件都有明确的职责和接口，这使得系统既强大又灵活。

熵引导树扩展的核心算法基于蒙特卡洛熵估计。对于树中的每个节点，系统会通过采样多个可能的输出序列来估计该节点的决策不确定性。这个过程就像一个智能体在该决策点"思考"多次，然后统计这些思考结果的多样性程度。熵值越高，说明智能体在该点越"纠结"，也就越值得深入探索。

为了平衡探索的广度和深度，算法引入了分支惩罚系数α。当某个节点被扩展过多次时，其选择优先级会相应降低，鼓励系统探索其他区域。这个机制类似于人类学习中的"避免过度专注"策略，确保学习过程的全面性。

逐步奖励分配算法使用递归的方式计算节点价值。对于叶节点，价值直接来自任务的最终奖励；对于内部节点，价值是其所有子节点价值的加权平均，权重基于子节点的熵值。这种设计既考虑了最终结果的重要性，又充分利用了中间过程的信息价值。

ATPO的实现涉及复杂的重要性采样计算。传统方法计算重要性比率时只考虑序列级别的概率变化，而ATPO需要同时考虑回合级别和词汇级别的变化。这需要巧妙的数学设计来确保计算的正确性和效率。研究团队采用了停止梯度操作来分离不同级别的概率计算，避免了梯度传播中的复杂依赖关系。

整个系统的计算复杂度得到了精心控制。虽然树搜索会增加计算开销，但通过合理的参数设置（如M=10个初始分支，L=2轮扩展，K=6个节点选择），系统能够在可接受的计算成本下获得显著的性能提升。研究团队的分析显示，相比于传统的链式生成方法，树搜索方法在相同的计算预算下能够生成更多样化、更高质量的候选方案。

系统还包含了多项工程优化措施。例如，为了避免重新标记化问题，所有的中间结果都以标记ID的形式保存和传递，避免了文本转换带来的不一致性。批处理优化确保了训练过程的高效性，而动态内存管理则保证了系统在处理大规模数据时的稳定性。

七、应用前景：智能体技术的新里程碑

AT?PO的成功不仅仅是一个技术改进，它代表了智能体训练方法学的重要进步。这项研究为未来的智能体系统开发提供了新的设计范式和技术路径。

在实际应用方面，AT?PO特别适合那些需要多步推理和工具使用的任务场景。比如智能客服系统需要理解用户问题、搜索相关信息、综合分析后给出答案；智能助手需要分解复杂任务、调用不同工具、协调多个步骤来完成用户请求；科研助手需要文献搜索、数据分析、结果总结等多环节协作。

框架的模块化设计使得不同组件可以独立使用和改进。ATPO作为一个通用的策略优化方法，可以直接集成到现有的智能体训练流程中，而不需要重新设计整个系统。这种灵活性对于工业界的实际部署具有重要价值。

从研究方向来看，AT?PO开辟了几个有前景的发展路径。首先是在更复杂的工具环境中的应用，比如让智能体学会使用图形界面、操作机器人或者与其他智能体协作。其次是扩展到多模态场景，让智能体能够同时处理文本、图像、音频等不同类型的信息。再者是提高训练效率，通过更好的算法设计减少所需的计算资源。

当前的局限性也为未来改进指明了方向。树搜索的计算开销仍然是一个需要关注的问题，特别是在计算资源有限的环境中。虽然研究团队通过参数优化在一定程度上控制了成本，但进一步的效率提升仍有空间。此外，当前的评估主要集中在问答任务上，在其他类型的智能体任务上的表现还需要更多验证。

技术发展趋势表明，未来的智能体系统将越来越复杂，需要处理的任务也将越来越多样化。AT?PO提供的训练框架为应对这些挑战打下了坚实的基础。特别是其强调结构化学习和细粒度反馈的理念，与智能体技术的发展方向高度契合。

研究团队已经将代码开源，这将加速相关技术的普及和改进。开源不仅让更多研究者能够验证和扩展这项工作，也为工业界的实际应用提供了便利。预期会有更多基于AT?PO的衍生工作和应用案例涌现。

说到底，AT?PO的价值不仅在于它带来的性能提升，更在于它展示了一种新的思考方式：如何让AI智能体的学习过程更好地匹配其实际工作模式。这种"结构化学习"的理念将会影响未来很多智能体技术的发展方向。

对于普通人来说，这项研究意味着未来的AI助手将会更加智能和可靠。当我们向AI提出复杂问题或请求时，它们将能够更好地分解任务、合理使用工具、从经验中学习，从而提供更准确、更有帮助的回答和服务。这不是遥远的未来，而是正在逐步成为现实的技术进步。

Q&A

Q1：AT?PO解决了AI智能体训练中的哪些核心问题？

A：AT?PO主要解决三个问题：首先是探索不充分，传统方法像盲目摸索，而AT?PO能智能地选择最有学习价值的地方进行探索；其次是奖励稀疏，传统方法只有完成整个任务才知道好坏，AT?PO为每一步都提供反馈；最后是学习方式不匹配，传统方法把整个过程当作整体训练，AT?PO按照智能体的实际工作方式进行逐步优化。

Q2：AT?PO的熵引导树扩展是如何工作的？

A：熵引导树扩展就像给AI配备了智能探索指南针。它会分析每个决策点的不确定性程度，专门挑选那些让智能体最"犹豫不决"的地方进行深入探索。这些高不确定性的地方往往蕴含最大的学习潜力，比随机探索更有效率。同时还有分支惩罚机制，防止过度探索单个节点而忽略其他可能性。

Q3：普通人什么时候能用上基于AT?PO技术的AI助手？

A：这项技术已经开源，意味着相关应用的开发和部署会比较快。虽然当前主要在问答场景验证，但其模块化设计使得可以集成到各种智能体系统中。预期在不久的将来，搭载类似技术的AI助手就会出现在智能客服、个人助理、科研工具等实际应用中，为用户提供更智能、更可靠的服务。

人工智能强化学习智能体训练

分享至