微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 人工智能也会被"熵增"困扰?中国人民大学破解大模型智能体的训练难题

人工智能也会被"熵增"困扰?中国人民大学破解大模型智能体的训练难题

2025-11-27 09:58
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-11-27 09:58 科技行者

这项由中国人民大学和快手科技联合开展的研究发表于2026年4月举办的WWW国际万维网大会,论文标题为"Agentic Entropy-Balanced Policy Optimization"。感兴趣的读者可以通过论文编号arXiv:2510.14545查询完整研究内容。

当我们看到ChatGPT能够搜索网页、写代码、分析数据时,可能会觉得这些AI已经非常智能了。但你可能不知道的是,训练这样的AI智能体其实面临着一个非常棘手的问题,就像教一个学生既要有创造性思维,又要保持学习的稳定性一样困难。

现代AI智能体就像一个需要使用各种工具的"数字助手"。当它遇到问题时,需要决定是搜索网页、运行代码还是调用其他工具。这个决策过程充满了不确定性,用科学术语叫做"高熵"状态。就好比一个厨师面对满桌子的食材和调料,每次都不确定该选择哪种搭配一样。

这种不确定性本来是件好事,因为它让AI能够探索不同的解决方案。但问题是,在训练过程中,这种不确定性可能会失控,导致AI要么过度纠结于某种思路而忽略其他可能性,要么学习过程变得极不稳定,就像一个学生反复练习同一道题却忽略了其他重要知识点。

中国人民大学的董冠廷等研究人员深入分析了这个问题,发现了训练智能体时会遇到的两个核心困难。第一个问题可以比作"思维定势陷阱":当AI在某个思路上遇到很多不确定性时,它会过度专注于这条路径,不断尝试各种变化,却忽略了其他可能更有效的解决方案。就像一个人迷路后,不断在同一个街区转圈,而没有想到换条大路可能更快。

第二个问题则像"学习能力退化":在训练过程中,当AI遇到这些充满不确定性的情况时,传统的训练方法会"削弱"它从这些经历中学习的能力。这就好比一个学生在做难题时,老师不但不鼓励他的探索精神,反而削减了他从错误中学习的机会。

为了解决这些问题,研究团队设计了一套名为"智能体熵平衡策略优化"的新方法,简称AEPO。这个方法的核心思想是既要保持AI的探索能力,又要防止探索过程失控。

这套方法包含两个巧妙的设计。第一个设计叫做"动态熵平衡展开机制",就像给AI配备了一个智能的"注意力分配器"。当AI面临复杂问题时,这个机制会先评估问题本身的复杂程度和使用工具可能带来的帮助程度,然后智能地决定该把多少"脑力"用于思考基础问题,多少用于尝试不同工具。

更重要的是,这个机制还会监控AI是否在某条思路上"钻牛角尖"。一旦发现AI连续多次在同一个方向上遇到高不确定性,就会适当"劝阻"它继续在这个方向上投入过多精力,引导它尝试其他可能的解决路径。这就像一个好的学习顾问,既鼓励学生深入思考,又防止他们在某个难点上浪费过多时间。

第二个设计叫做"熵平衡策略优化",专门解决学习过程中的问题。传统训练方法在遇到高不确定性情况时,往往会"切断"AI从这些经历中学习的机会。而新方法采用了一种巧妙的技术,让AI在保持原有推理过程的同时,依然能够从那些充满不确定性的经历中有效学习。

这就像给学生设计了一种特殊的学习方法:当他们遇到特别有挑战性的题目时,不会因为题目太难就放弃从中学习,而是保持学习的积极性,同时调整学习的强度和方式。研究团队还设计了一种"熵感知优势估计"方法,让AI能够更加重视那些充满不确定性但最终获得正确答案的经历,这些经历往往包含最有价值的学习信息。

为了验证这套方法的效果,研究团队在14个不同的测试任务上进行了大量实验。这些任务涵盖了深度信息搜索、知识密集型推理和计算推理等多个方面,就像给AI设计了不同类型的"考试"来全面检验它的能力。

实验结果令人印象深刻。使用新方法训练的Qwen3-14B模型在多个困难任务上表现出色。在GAIA任务上达到了47.6%的准确率,在人类最后考试任务上达到11.2%,在WebWalkerQA任务上达到43.0%。当允许模型进行多次尝试时,效果更加突出:GAIA任务达到65.0%,人类最后考试达到26.0%,WebWalkerQA达到70.0%。

更重要的是,这些结果是仅使用1000个训练样本就达到的,这意味着新方法不仅效果好,而且训练效率很高。相比之下,其他7种主流的强化学习算法在相同条件下的表现都明显逊色。

深入分析发现,AEPO方法的成功主要体现在两个方面。首先,它显著提高了训练过程中的探索多样性。传统方法在处理高不确定性情况时,往往会让AI过度集中在少数几个思路上,而新方法能让AI更均匀地探索各种可能性。研究人员通过可视化分析发现,使用AEPO训练的模型产生的探索轨迹形成了更多不同的聚类中心,说明探索范围更广泛、更均衡。

其次,AEPO方法在训练过程中保持了更稳定的学习动态。传统的优化方法在处理高不确定性时经常出现训练不稳定的问题,表现为学习曲线的剧烈波动。而AEPO方法展现出更平滑、更稳定的训练过程,这对于开发实用的AI系统非常重要。

研究团队还发现,AEPO方法在工具使用效率方面也有显著优势。在深度信息搜索任务中,AEPO只需要约一半的工具调用次数就能达到比其他算法更好的效果。这意味着使用AEPO训练的AI不仅更聪明,而且更节约计算资源,这对于实际应用来说具有重要的经济价值。

这项研究的意义远不止技术创新本身。随着AI智能体在各行各业的应用越来越广泛,如何有效训练这些智能体成为了一个关键挑战。传统方法往往难以平衡探索与稳定性,而AEPO提供了一个系统性的解决方案。

从更广的角度来看,这项研究揭示了一个重要原理:在训练复杂AI系统时,不确定性既是挑战也是机遇。关键在于如何智能地管理和利用这种不确定性,而不是简单地压制或忽视它。这种思路对于未来开发更强大、更可靠的AI系统具有重要指导意义。

特别值得注意的是,这项研究是在相对有限的计算资源下完成的,使用的是相对较小的训练数据集。这表明AEPO方法具有很好的实用性和推广潜力,不需要巨大的计算投入就能获得显著的性能提升。

当然,这项研究也为未来留下了一些有趣的探索方向。比如,如何将AEPO方法扩展到更复杂的多智能体环境,如何进一步优化熵平衡的策略,以及如何将这些技术应用到更广泛的AI应用场景中。

说到底,这项研究告诉我们一个简单而深刻的道理:教会AI既要有探索精神,又要保持学习的稳定性,就像培养一个既有创造力又有专注力的学生一样,需要精心设计的方法和耐心的调教。董冠廷等研究人员的工作为我们提供了一个很好的起点,相信这种平衡探索与稳定的思路会在未来的AI发展中发挥越来越重要的作用。随着这类技术的不断完善,我们有望看到更多既聪明又可靠的AI助手出现在我们的日常生活中,真正实现人工智能的普及应用。

Q&A

Q1:AEPO算法是什么?

A:AEPO是"智能体熵平衡策略优化"算法,由中国人民大学和快手科技联合开发。它专门解决AI智能体训练中的两个关键问题:防止AI在某个思路上过度纠结而忽略其他可能性,以及确保AI能够从充满不确定性的经历中有效学习。

Q2:为什么AI智能体训练会遇到熵增问题?

A:AI智能体在使用工具解决问题时会面临很多不确定性,这种不确定性被称为"高熵"状态。虽然适度的不确定性有助于探索,但过度的不确定性会导致AI要么在某条思路上钻牛角尖,要么学习过程变得不稳定,影响最终的智能化水平。

Q3:AEPO算法的训练效果有多好?

A:在14个测试任务上,AEPO表现优异。仅用1000个训练样本,Qwen3-14B模型在GAIA任务上达到47.6%准确率,在多次尝试情况下更是达到65.0%。相比其他7种主流强化学习算法,AEPO不仅效果更好,而且工具使用效率更高,只需约一半的工具调用次数。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-