
这项由蚂蚁集团的王国庆、中国人民大学的戴孙浩、耶光泽等研究团队共同完成的重要研究,发表于2025年10月的arXiv预印本平台(论文编号:arXiv:2510.14967v1),为训练多轮对话AI智能体提出了一种革命性的新方法。感兴趣的读者可以通过该编号在arXiv平台查询完整论文。
当我们与AI助手对话时,经常会遇到这样的情况:你问一个复杂问题,AI需要通过多次搜索、查阅资料,然后综合信息给出答案。这个过程就像一个学生在图书馆里查资料写作业,需要先找到相关书籍,再仔细阅读,最后整理出答案。但现有的AI训练方法存在一个严重问题,就像只根据学生最终作业的分数来判断整个学习过程的好坏,而完全忽略了学生在查资料过程中的每一个步骤是否正确有效。
这种训练方式带来的问题非常明显。当AI在处理复杂任务时,往往需要进行多轮互动才能找到正确答案,但传统的训练方法只在最后给出奖励信号,这就像老师只看最终成绩,不关心学生学习过程中的进步和问题。结果就是AI很难学会如何在每一步都做出更好的选择,特别是在处理需要多步推理的复杂问题时表现不佳。
研究团队提出的信息增益策略优化方法,简称IGPO,就像给AI配备了一个实时的学习指导老师。这个"老师"不仅关注最终答案是否正确,更重要的是会在AI的每一步操作后立即给出反馈:"这一步让你离正确答案更近了"或者"这一步偏离了正确方向"。通过这种即时反馈机制,AI能够在学习过程中不断调整策略,就像学生在老师的实时指导下逐步改进学习方法。
一、现有训练方法的根本缺陷:为什么传统方法让AI学习效率低下
要理解这项研究的重要性,我们首先需要明白现有AI训练方法的问题所在。当前主流的训练方式叫做群体相对策略优化,这个方法的工作原理就像这样:假设你要训练一个AI来解决数学题,你给它同一道题让它做16次,然后只根据最终答案的对错来判断哪些解题过程是好的,哪些是坏的。
这种方法在处理简单任务时还算有效,但当面对需要多步推理的复杂问题时,就会出现两个严重问题。第一个问题叫做"优势坍塌",简单来说就是当AI面对特别难的问题时,可能16次尝试都得到了错误答案,或者面对特别简单的问题时,16次尝试都得到了正确答案。在这种情况下,AI无法从这些尝试中学到任何有用的信息,就像学生做了16道难题都做错了,但老师只说"都错了",没有指出具体哪一步错了,学生自然无法改进。
第二个问题是缺乏精细化的学分分配。在解决复杂问题的过程中,AI的每一步决策都会影响后续步骤,但传统方法无法识别这种关联性。比如AI在搜索信息时,前面几步找到了很有价值的线索,但最后一步的推理出了问题导致最终答案错误。传统方法会认为整个过程都是失败的,但实际上前面几步的搜索策略是应该被鼓励的。这就像学生在解决数学题时,前面的分析和计算都是正确的,只是最后计算时出了个小错,但老师只看最终答案就判定整个解题过程都是错误的。
研究团队通过实验发现,在使用传统方法训练时,有大量的训练迭代由于这种"优势坍塌"现象而完全无法提供有效的学习信号。特别是对于较小的AI模型,这个问题更加严重,因为它们在处理复杂问题时本就比较困难,如果再得不到有效的指导,学习效率就会极其低下。
二、信息增益的巧妙设计:让AI在每一步都能获得有意义的反馈
面对传统方法的这些缺陷,研究团队提出了一个非常巧妙的解决方案。他们的核心思想是将AI解决问题的过程看作是逐步获取关于正确答案信息的过程,就像侦探破案时逐步收集线索一样。每找到一条有价值的线索,就能让侦探离真相更近一步,即使最终可能因为某个环节的失误而没有成功破案,但那些有价值的线索收集过程仍然应该得到认可。
具体来说,研究团队设计了一个叫做"信息增益"的评估机制。这个机制的工作原理是这样的:在AI进行每一步操作之后,系统会计算AI对正确答案的"信心度"相比上一步有了多大程度的提升。如果某一步操作让AI更接近正确答案,信心度就会增加,这一步就会获得正面的奖励;反之,如果某一步操作让AI偏离了正确方向,信心度就会下降,这一步就会获得负面的反馈。
这种设计的精妙之处在于,它不需要依赖外部的专家系统或者复杂的模拟计算,而是直接从AI自身的"认知状态"中提取反馈信号。就像一个学生在学习过程中能够感知到自己对知识理解程度的变化,当学到新知识时会感到"恍然大悟",当遇到困惑时会感到"云里雾里"。这种内在的认知变化本身就包含了非常有价值的学习信号。
更重要的是,这种方法确保了每一个训练样本都能提供有意义的学习信号。即使AI最终没有得到正确答案,但如果它在某些步骤中确实获得了有价值的信息,这些步骤仍然会获得应有的奖励。这就像学生虽然没有完全解出难题,但老师会对学生解题过程中表现出的正确思路和方法给予肯定,这样学生就能知道哪些方法是值得继续使用的。
为了进一步优化学习效果,研究团队还设计了一个"折扣累积"机制。这个机制考虑到了AI决策的长期影响,即当前步骤的质量不仅会影响当前的效果,还会影响后续步骤的表现。通过这种方式,AI能够学会进行长远的策略规划,而不是只关注眼前的局部最优选择。
三、实验验证:全面超越现有方法的卓越表现
为了验证这种新方法的有效性,研究团队设计了非常全面的实验。他们选择了搜索代理这个典型的应用场景来测试IGPO的效果。搜索代理的工作就像一个专业的信息收集员,当用户提出问题时,它需要通过多次搜索来收集相关信息,然后综合这些信息给出准确的答案。
实验涵盖了七个不同类型的数据集,包括四个领域内数据集和三个领域外数据集。领域内数据集包括自然问题、琐事问答、多跳问答等,这些都是搜索代理经常需要处理的典型任务。领域外数据集则用来测试方法的泛化能力,即在面对训练时没有见过的问题类型时,AI是否仍能保持良好的表现。
实验结果令人印象深刻。IGPO在所有测试的数据集上都取得了最佳的整体表现,平均得分达到58.7分,比之前最好的方法DeepResearcher高出4.8分。这个提升幅度在AI研究领域是相当显著的,特别是考虑到这些基准测试都已经是相当成熟和具有挑战性的评估标准。
更有趣的是,研究团队发现IGPO对于较小规模的AI模型带来的改进更加显著。在3B参数的模型上,IGPO相比传统方法提升了15.3个百分点,而在7B参数的模型上提升了6.8个百分点。这个发现具有重要的实用价值,因为较小的模型在部署时需要更少的计算资源,但训练难度通常更大。IGPO能够显著改善小模型的训练效果,这意味着我们可以用更少的资源获得更好的AI性能。
研究团队还进行了详细的消融实验,分别测试了只使用信息增益奖励、只使用传统结果奖励,以及两者结合的效果。结果显示,最佳效果确实来自于两种奖励机制的结合。单独使用信息增益奖励虽然能够提供密集的学习信号,但缺乏对最终目标的明确导向;而单独使用结果奖励虽然目标明确,但学习信号过于稀疏。只有将两者巧妙结合,才能既保证学习的高效性,又确保最终目标的达成。
四、训练过程的深度解析:为什么IGPO能带来如此显著的改进
通过深入分析训练过程,研究团队揭示了IGPO能够显著改善AI学习效果的深层原因。他们发现,使用IGPO训练的AI在整个学习过程中表现出了更加稳定和高效的改进模式。
首先,从信息熵减少的角度来看,IGPO训练的AI在每一轮互动中都能更有效地减少对正确答案的不确定性。研究团队测量了从初始查询到最后非答案轮次的信息熵变化,发现IGPO始终能够实现比传统方法更大的熵减少。这意味着AI在解决问题的过程中,每一步都能更有效地朝着正确答案的方向前进,而不是在无关的信息中打转。
其次,从训练效率的角度来看,IGPO展现出了更好的样本利用效率。研究团队比较了在相同数量的训练数据下,不同方法能够达到的性能水平。结果显示,IGPO能够用更少的训练样本达到相同的性能水平,或者在相同训练样本下达到更高的性能。这种改进在实际应用中非常有价值,因为高质量的训练数据往往是稀缺和昂贵的资源。
第三,训练曲线分析显示,IGPO不仅能够达到更高的最终性能,而且在训练过程中表现出更好的稳定性。传统方法的训练曲线往往会出现较大的波动,有时甚至会出现性能突然下降的情况。而IGPO的训练曲线则相对平滑,显示出持续稳定的改进趋势。这种稳定性对于实际部署非常重要,因为它意味着模型的性能更加可预测和可靠。
研究团队还通过案例分析展示了IGPO的具体工作机制。在一个典型的案例中,AI需要查找某个历史人物的生日信息。传统方法只会在AI给出最终答案后提供反馈,但IGPO会在AI的每一次搜索后立即给出反馈。当AI第一次搜索得到了人物的基本信息但没有找到生日时,IGPO会给予一定的正面奖励,因为这一步确实获得了有价值的信息。当AI第二次搜索直接查找生日信息并成功找到答案时,IGPO会给予更高的奖励。通过这种方式,AI能够学会逐步细化搜索策略,提高信息获取的效率。
五、理论基础:为什么信息增益方法具有坚实的数学基础
除了实验验证,研究团队还为IGPO提供了严格的理论分析。他们从数学角度证明了为什么最大化信息增益能够有效地减少多轮推理过程中的错误累积,这为方法的有效性提供了理论保障。
研究团队引入了"雪球错误"的概念来描述多轮推理中的错误累积现象。在多轮推理过程中,早期步骤的小错误可能会在后续步骤中被放大,最终导致完全错误的结果。这就像滚雪球一样,开始时可能只是一个小雪团,但随着滚动过程会越来越大,最终变成巨大的雪球。
通过数学推导,研究团队证明了最大化过程奖励(即IGPO的目标)在数学上等价于最小化累积雪球错误的上界。这个理论结果表明,IGPO不仅在经验上有效,而且具有坚实的数学基础。通过提供密集的即时信号来保证推理清晰度,IGPO将难以处理的稀疏奖励长期探索问题转化为一系列可管理的短期子问题,每个子问题都旨在最大化即时信息增益。
这个理论分析解释了为什么IGPO在训练效率和最终性能方面都能带来显著改进。它不仅仅是一个工程技巧,而是一个具有深层数学原理支撑的系统性解决方案。
六、方法的创新点和技术细节:如何实现密集而有效的奖励信号
IGPO的技术实现包含了几个关键的创新点。首先是信息增益的计算方法。研究团队采用了基于对数概率的计算方式,通过比较AI在执行某个操作前后对正确答案的预测概率来量化信息增益。这种计算方式既保证了计算效率,又确保了奖励信号的稳定性。
为了应对不同长度和复杂度的问题,研究团队还设计了一个巧妙的奖励归一化机制。他们将所有训练样本中的奖励信号进行群体归一化,确保不同问题之间的奖励信号具有可比性。这就像考试时不同科目的分数需要进行标准化处理,才能公平地比较学生在不同科目上的表现。
在优势估计方面,IGPO采用了折扣累积的方式来计算每个步骤的长期价值。这种设计考虑到了多轮推理中步骤间的依赖关系,确保AI能够学会进行长远的策略规划。折扣因子的设置需要在即时奖励和长期影响之间找到合适的平衡点,研究团队通过实验确定了最优的参数设置。
在策略优化阶段,IGPO继承了群体相对策略优化的核心框架,但用逐步优势替代了轨迹级优势。这种设计既保持了原有方法的稳定性,又充分利用了新的奖励信号。通过这种方式,AI能够更精确地识别哪些具体的操作是有益的,哪些是有害的,从而更有效地调整其行为策略。
值得注意的是,IGPO的实现相对简单,不需要额外的价值网络或复杂的外部评估模型。这种简洁性使得方法更容易在实际应用中部署和维护,同时也降低了计算开销。
七、广泛的应用前景:从搜索助手到通用AI智能体
虽然这项研究主要在搜索代理的场景下进行了验证,但IGPO的原理可以广泛应用于各种需要多轮推理的AI任务。任何需要AI进行逐步信息收集、分析和决策的场景都可能从这种方法中受益。
在教育领域,IGPO可以用来训练AI导师,让它们能够更好地引导学生逐步解决复杂问题。AI导师需要在学生的学习过程中提供及时的指导和反馈,这与IGPO的核心思想非常吻合。通过在每个学习步骤后评估学生的理解程度变化,AI导师能够更精准地调整教学策略。
在科学研究辅助方面,IGPO可以帮助训练AI研究助手,让它们能够更有效地进行文献搜索、假设生成和实验设计。科学研究本身就是一个多轮迭代的过程,需要不断收集信息、提出假设、验证结果,IGPO的方法能够帮助AI更好地学会这种渐进式的研究方法。
在商业决策支持方面,IGPO可以用来训练AI分析师,让它们能够更好地收集市场信息、分析趋势、提出建议。商业决策往往需要综合多方面的信息,IGPO能够帮助AI学会如何系统地收集和整合这些信息。
研究团队也指出了当前方法的一些限制。IGPO仍然需要获得标准答案才能计算信息增益,这限制了它在完全开放式任务中的应用。不过,研究团队表示他们正在探索如何将这种方法扩展到更广泛的场景中,包括那些没有明确正确答案的创造性任务。
说到底,这项研究为AI训练领域带来了一个重要的启发:与其只关注最终结果,不如同样重视学习过程中的每一个步骤。这种思路不仅适用于AI训练,对人类学习也有借鉴意义。通过为学习过程中的每个进步提供及时的反馈和鼓励,我们能够更有效地引导学习者达到最终目标。
在技术发展日新月异的今天,这种注重过程的训练方法可能会成为AI发展的一个重要方向。随着AI任务变得越来越复杂,需要越来越多的推理步骤,如何有效地训练AI进行多步推理将成为一个核心挑战。IGPO为解决这个挑战提供了一个有前景的方案,相信在未来会有更多类似的方法被开发出来,推动AI能力的进一步提升。
研究团队已经在GitHub上开源了相关代码,为其他研究者和开发者提供了便利的实验和应用平台。感兴趣的读者可以通过论文编号arXiv:2510.14967v1在arXiv平台获取完整的技术细节和实验结果,深入了解这一创新方法的具体实现。
Q&A
Q1:IGPO信息增益策略优化方法与传统AI训练方法有什么本质区别?
A:IGPO的核心区别在于提供实时反馈机制。传统方法只在AI完成整个任务后根据最终答案给出奖励,就像老师只看期末考试成绩。而IGPO会在AI的每一步操作后立即评估这步是否让它更接近正确答案,给出即时反馈,就像配备了实时指导的老师。这样AI能在学习过程中不断调整策略,避免了传统方法中大量训练样本因为"优势坍塌"而无法提供有效学习信号的问题。
Q2:为什么IGPO对小型AI模型的改进效果比大型模型更显著?
A:这是因为小型AI模型在处理复杂问题时本就更加困难,更容易出现所有尝试都失败的情况。在传统训练方法下,这意味着小模型经常得不到有效的学习信号。IGPO通过在每一步都提供反馈,即使最终答案错误,也能识别和奖励过程中的正确步骤。这对于经常"全军覆没"的小模型来说特别宝贵,所以改进效果更明显。实验显示3B模型提升15.3分,而7B模型提升6.8分。
Q3:IGPO方法可以应用到搜索代理以外的其他AI任务吗?
A:可以应用到任何需要多轮推理和逐步信息收集的AI任务中。比如AI教育导师需要逐步引导学生解决问题,科学研究助手需要渐进式地进行文献搜索和假设验证,商业分析AI需要系统地收集市场信息做决策。只要是需要AI进行多步骤思考和行动的场景,都可能从IGPO的即时反馈机制中受益。不过目前方法仍需要标准答案来计算信息增益,在完全开放式创造性任务中的应用还有待进一步研究。
好文章,需要你的鼓励
谷歌DeepMind等顶级机构联合研究揭示,当前12种主流AI安全防护系统在面对专业自适应攻击时几乎全部失效,成功率超过90%。研究团队通过强化学习、搜索算法和人类红队攻击等多种方法,系统性地突破了包括提示工程、对抗训练、输入过滤和秘密检测在内的各类防护技术,暴露了AI安全评估的根本缺陷。
西蒙弗雷泽大学和Adobe研究院联合开发的MultiCOIN技术,能够将两张静态图片转换为高质量的过渡视频。该技术支持轨迹、深度、文本和区域四种控制方式,可单独或组合使用。采用双分支架构和分阶段训练策略,在运动控制精度上比现有技术提升53%以上,为视频制作提供了前所未有的灵活性和精确度。
英国国王学院研究团队开发了潜在精炼解码(LRD)技术,解决了AI文本生成中的速度与准确性平衡难题。该方法通过两阶段设计模仿人类思考过程:先让AI在连续空间中"深思熟虑",保持多种可能性的混合状态,然后"果断行动",逐步确定答案。实验显示,LRD在编程和数学推理任务中准确性提升最高6.3个百分点,生成速度提升最高10.6倍,为AI并行文本生成开辟了新路径。
清华大学团队开发的ViSurf是一种创新的大型视觉语言模型训练方法,巧妙融合了督导式学习和强化学习的优势。该方法通过将标准答案整合到强化学习过程中,让AI既能从正确答案中学习又能保持自主推理能力。实验显示ViSurf在多个视觉任务上显著超越传统方法,特别是在处理模型知识盲区时表现突出,同时有效避免了灾难性遗忘问题,为AI训练提供了更高效稳定的新范式。