微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

人工智能学会了如何在探索与利用之间找平衡：中国人民大学提出的新训练方法让AI更聪明

人工智能强化学习模型训练

人工智能学会了如何在探索与利用之间找平衡：中国人民大学提出的新训练方法让AI更聪明

作者：科技行者

2025-08-18 14:00

分享至：

中国人民大学和字节跳动联合提出Pass@k训练方法，通过给AI模型多次答题机会来平衡探索与利用。该方法不仅提升了模型的多样性表现，还意外改善了单次答题准确率。实验显示，经过训练的7B参数模型在某些任务上超越了GPT-4o等大型商业模型，为AI训练方法论贡献了重要洞察。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-08-18 14:00 • 科技行者

这项由中国人民大学和字节跳动种子实验室共同完成的研究发表于2025年8月，论文题目为《Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models》。该研究由陈志鹏、秦晓博、吴有斌、凌月、叶青昊、赵鑫、石光等研究人员共同完成。感兴趣的读者可以通过arXiv:2508.10751获取完整论文。

当我们训练人工智能模型解决复杂问题时，就像培养一个学生学习解题一样。传统的训练方法就好比只看学生的第一次答题结果，如果答对了就表扬，答错了就批评。这种方法看似直接，但实际上存在一个严重问题：学生可能会变得过于保守，只敢尝试有把握的简单题目，不敢探索更有挑战性的难题。

这种现象在人工智能领域被称为"探索与利用"的平衡问题。探索就像学生尝试新的解题方法，虽然可能失败但能学到新知识；利用则像使用已经掌握的方法去解决熟悉的问题。传统的训练方法过分偏向利用，导致AI模型容易陷入局部最优解，就像学生只会做一类题目却无法应对变化。

研究团队观察到，在评估AI模型能力时，人们经常使用一个叫做Pass@k的指标。这个指标的含义是：给AI模型k次机会来回答同一个问题，只要其中一次答对就算成功。这就像给学生多次考试机会，只要有一次考好就认为他掌握了知识。这种评估方式鼓励学生尝试不同的解题思路，因为多样化的尝试能增加成功的概率。

基于这个洞察，研究团队提出了一个创新想法：既然Pass@k评估鼓励多样性，为什么不用它来训练模型呢？他们开发了Pass@k训练方法，这就像改变评分规则，不再只看学生的第一次答案，而是给学生k次机会，只要其中任何一次答对就给予奖励。

这种训练方法的核心理念可以用一个简单例子来理解。假设你在教一个学生解数学题，传统方法是让他只能提交一个答案，对错立判；而新方法是让他可以提交多个不同的解答思路，只要其中一个正确就给予正面反馈。这样学生就被鼓励去探索多种可能性，而不是死守一种方法。

研究团队在实施这个想法时遇到了技术挑战。最初的实现方法需要大量的计算资源，就像需要为每组学生配备很多老师来评改作业一样。为了解决这个问题，他们开发了两种改进方案。

第一种改进叫做"bootstrap采样"，就像从大量作业中随机抽取一些来组成评分组，这样可以减少工作量但保持评分的公正性。第二种改进更加精妙，他们通过数学推导找到了一个解析解，就像发现了一个万能公式，可以直接计算出最优的训练信号，完全避免了复杂的随机抽样过程。

实验结果令人印象深刻。研究团队在多个任务上测试了他们的方法，包括迷宫寻路、数学推理、逻辑谜题等。结果显示，使用Pass@k训练的模型不仅在Pass@k指标上表现更好，令人惊喜的是，它们在传统的Pass@1指标上也获得了提升。这就好比学生通过多样化练习不仅提高了灵活性，连单次答题的准确率也随之增长。

更有趣的是，研究团队发现经过Pass@k训练的模型展现出了更强的探索能力。他们通过分析模型输出的多样性和策略分布的熵值发现，这些模型在面对不确定的问题时会产生更加多样化的解答尝试，而不是重复生成相似的答案。这种行为模式正是解决复杂问题所需要的。

研究还揭示了一个深刻的认识：探索和利用并不是对立的关系，而是可以相互促进的。Pass@k训练鼓励模型探索多种解题路径，这种探索经验反过来提升了模型选择最佳答案的能力。这就像学生通过尝试多种解题方法，不仅扩大了知识面，还提高了选择最优解法的判断力。

在实际应用中，研究团队展示了Pass@k训练的强大效果。经过训练的70亿参数模型在某些任务上的表现甚至超越了GPT-4o和Claude-3.7这样的大型商业模型。这个结果特别令人振奋，因为它表明通过改进训练方法，相对较小的模型也能达到顶尖水平。

研究团队还进行了深入的理论分析，探讨了为什么Pass@k训练如此有效。他们发现，传统的Pass@1训练倾向于在中等难度的问题上投入最多精力，而Pass@k训练更加关注困难问题的解决。这种差异就像传统教学方法让学生重复练习已经掌握的内容，而新方法鼓励学生挑战更高难度的题目。

通过分析训练过程中的优势函数曲线，研究者发现Pass@k训练有两个关键特征：首先，它将优化重点放在了更困难的问题上；其次，当问题变得容易时，它会自动减少优化强度，避免过度拟合。这种自适应的特性使得模型能够持续学习而不会陷入局部最优。

基于这些理论洞察，研究团队进一步探索了"隐式奖励设计"的概念。他们意识到Pass@k训练本质上是在直接设计优势函数，这为未来的强化学习研究开辟了新的方向。他们尝试了几种变体方法，比如"超越Pass@k训练"和"组合训练"，这些方法在特定场景下展现出了更好的效果。

研究的泛化能力也得到了充分验证。无论是7B还是32B参数的模型，无论是稠密模型还是专家混合模型，无论是纯文本任务还是多模态任务，Pass@k训练都展现出了一致的改进效果。这种广泛的适用性表明该方法捕捉到了强化学习训练的某种本质规律。

特别值得注意的是，研究团队发现Pass@k训练的收益可以有效转移到Pass@1性能上。他们采用了一种"先Pass@k训练，再Pass@1训练"的两阶段策略，结果显示这种组合方法能够显著提升模型的单次答题准确率。这就像学生先通过多样化练习开阔思路，然后再通过精准训练提高一次性答对的能力。

在鲁棒性测试中，研究团队验证了方法对于不同k值的稳定性。他们发现，虽然更大的k值会带来一定的训练效率下降，但这个问题可以通过适当调整学习率来解决。这种灵活性使得研究人员可以根据具体需求选择合适的k值。

研究还将Pass@k训练与其他探索增强方法进行了比较，包括噪声奖励和熵正则化。结果表明，简单地向奖励中添加噪声并不能有效改善探索，而熵正则化虽然有一定效果但容易引入不稳定性。相比之下，Pass@k训练通过结构化的方式鼓励探索，既有效又稳定。

从更广阔的视角看，这项研究为人工智能的训练方法论贡献了重要洞察。它表明，评估指标和训练目标之间的一致性对于获得最佳性能至关重要。如果我们希望模型具备某种能力，最好的方法就是直接针对这种能力进行训练，而不是依赖间接的代理目标。

研究的实践意义也很明显。在当前大语言模型竞争激烈的环境下，如何用更少的资源训练出更强的模型是每个研究团队都关心的问题。Pass@k训练提供了一个简单而有效的解决方案，它不需要复杂的架构改进或大量的额外数据，仅仅通过改变训练策略就能获得显著提升。

说到底，这项研究的核心价值在于重新思考了人工智能学习过程中探索与利用的关系。它告诉我们，鼓励多样性不仅不会损害性能，反而会促进更深层次的理解和更强的问题解决能力。这个理念不仅适用于人工智能，对人类教育也有借鉴意义。归根结底，无论是训练AI还是教育人类，保持探索精神和学习热情都是通往卓越的必由之路。这项研究为我们提供了一个简单而强大的工具，让AI模型能够更好地平衡探索新知识和运用已有知识之间的关系，最终实现更智能、更全面的问题解决能力。

Q&A

Q1：Pass@k训练方法的核心原理是什么？

A：Pass@k训练改变了传统的评估方式，不再只看AI模型的第一次回答，而是给模型k次机会来回答同一个问题，只要其中一次答对就给予奖励。这就像给学生多次考试机会，鼓励他们尝试不同的解题思路，从而提高探索能力和问题解决的多样性。

Q2：这种训练方法会不会影响模型的准确性？

A：实验结果显示恰恰相反，Pass@k训练不仅提升了模型在Pass@k指标上的表现，还意外地改善了传统Pass@1指标的性能。这是因为多样化的探索过程反而提高了模型选择最优答案的能力，探索和利用实现了相互促进。

Q3：Pass@k训练方法适用于哪些类型的AI模型？

A：研究验证了该方法具有广泛的适用性，无论是7B还是32B参数的模型，无论是稠密模型还是专家混合模型，无论是处理纯文本任务还是多模态任务，Pass@k训练都展现出一致的改进效果，表明它捕捉到了强化学习训练的本质规律。

人工智能强化学习模型训练

分享至