这项由中国人民大学和字节跳动种子实验室共同完成的研究发表于2025年8月,论文题目为《Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models》。该研究由陈志鹏、秦晓博、吴有斌、凌月、叶青昊、赵鑫、石光等研究人员共同完成。感兴趣的读者可以通过arXiv:2508.10751获取完整论文。
当我们训练人工智能模型解决复杂问题时,就像培养一个学生学习解题一样。传统的训练方法就好比只看学生的第一次答题结果,如果答对了就表扬,答错了就批评。这种方法看似直接,但实际上存在一个严重问题:学生可能会变得过于保守,只敢尝试有把握的简单题目,不敢探索更有挑战性的难题。
这种现象在人工智能领域被称为"探索与利用"的平衡问题。探索就像学生尝试新的解题方法,虽然可能失败但能学到新知识;利用则像使用已经掌握的方法去解决熟悉的问题。传统的训练方法过分偏向利用,导致AI模型容易陷入局部最优解,就像学生只会做一类题目却无法应对变化。
研究团队观察到,在评估AI模型能力时,人们经常使用一个叫做Pass@k的指标。这个指标的含义是:给AI模型k次机会来回答同一个问题,只要其中一次答对就算成功。这就像给学生多次考试机会,只要有一次考好就认为他掌握了知识。这种评估方式鼓励学生尝试不同的解题思路,因为多样化的尝试能增加成功的概率。
基于这个洞察,研究团队提出了一个创新想法:既然Pass@k评估鼓励多样性,为什么不用它来训练模型呢?他们开发了Pass@k训练方法,这就像改变评分规则,不再只看学生的第一次答案,而是给学生k次机会,只要其中任何一次答对就给予奖励。
这种训练方法的核心理念可以用一个简单例子来理解。假设你在教一个学生解数学题,传统方法是让他只能提交一个答案,对错立判;而新方法是让他可以提交多个不同的解答思路,只要其中一个正确就给予正面反馈。这样学生就被鼓励去探索多种可能性,而不是死守一种方法。
研究团队在实施这个想法时遇到了技术挑战。最初的实现方法需要大量的计算资源,就像需要为每组学生配备很多老师来评改作业一样。为了解决这个问题,他们开发了两种改进方案。
第一种改进叫做"bootstrap采样",就像从大量作业中随机抽取一些来组成评分组,这样可以减少工作量但保持评分的公正性。第二种改进更加精妙,他们通过数学推导找到了一个解析解,就像发现了一个万能公式,可以直接计算出最优的训练信号,完全避免了复杂的随机抽样过程。
实验结果令人印象深刻。研究团队在多个任务上测试了他们的方法,包括迷宫寻路、数学推理、逻辑谜题等。结果显示,使用Pass@k训练的模型不仅在Pass@k指标上表现更好,令人惊喜的是,它们在传统的Pass@1指标上也获得了提升。这就好比学生通过多样化练习不仅提高了灵活性,连单次答题的准确率也随之增长。
更有趣的是,研究团队发现经过Pass@k训练的模型展现出了更强的探索能力。他们通过分析模型输出的多样性和策略分布的熵值发现,这些模型在面对不确定的问题时会产生更加多样化的解答尝试,而不是重复生成相似的答案。这种行为模式正是解决复杂问题所需要的。
研究还揭示了一个深刻的认识:探索和利用并不是对立的关系,而是可以相互促进的。Pass@k训练鼓励模型探索多种解题路径,这种探索经验反过来提升了模型选择最佳答案的能力。这就像学生通过尝试多种解题方法,不仅扩大了知识面,还提高了选择最优解法的判断力。
在实际应用中,研究团队展示了Pass@k训练的强大效果。经过训练的70亿参数模型在某些任务上的表现甚至超越了GPT-4o和Claude-3.7这样的大型商业模型。这个结果特别令人振奋,因为它表明通过改进训练方法,相对较小的模型也能达到顶尖水平。
研究团队还进行了深入的理论分析,探讨了为什么Pass@k训练如此有效。他们发现,传统的Pass@1训练倾向于在中等难度的问题上投入最多精力,而Pass@k训练更加关注困难问题的解决。这种差异就像传统教学方法让学生重复练习已经掌握的内容,而新方法鼓励学生挑战更高难度的题目。
通过分析训练过程中的优势函数曲线,研究者发现Pass@k训练有两个关键特征:首先,它将优化重点放在了更困难的问题上;其次,当问题变得容易时,它会自动减少优化强度,避免过度拟合。这种自适应的特性使得模型能够持续学习而不会陷入局部最优。
基于这些理论洞察,研究团队进一步探索了"隐式奖励设计"的概念。他们意识到Pass@k训练本质上是在直接设计优势函数,这为未来的强化学习研究开辟了新的方向。他们尝试了几种变体方法,比如"超越Pass@k训练"和"组合训练",这些方法在特定场景下展现出了更好的效果。
研究的泛化能力也得到了充分验证。无论是7B还是32B参数的模型,无论是稠密模型还是专家混合模型,无论是纯文本任务还是多模态任务,Pass@k训练都展现出了一致的改进效果。这种广泛的适用性表明该方法捕捉到了强化学习训练的某种本质规律。
特别值得注意的是,研究团队发现Pass@k训练的收益可以有效转移到Pass@1性能上。他们采用了一种"先Pass@k训练,再Pass@1训练"的两阶段策略,结果显示这种组合方法能够显著提升模型的单次答题准确率。这就像学生先通过多样化练习开阔思路,然后再通过精准训练提高一次性答对的能力。
在鲁棒性测试中,研究团队验证了方法对于不同k值的稳定性。他们发现,虽然更大的k值会带来一定的训练效率下降,但这个问题可以通过适当调整学习率来解决。这种灵活性使得研究人员可以根据具体需求选择合适的k值。
研究还将Pass@k训练与其他探索增强方法进行了比较,包括噪声奖励和熵正则化。结果表明,简单地向奖励中添加噪声并不能有效改善探索,而熵正则化虽然有一定效果但容易引入不稳定性。相比之下,Pass@k训练通过结构化的方式鼓励探索,既有效又稳定。
从更广阔的视角看,这项研究为人工智能的训练方法论贡献了重要洞察。它表明,评估指标和训练目标之间的一致性对于获得最佳性能至关重要。如果我们希望模型具备某种能力,最好的方法就是直接针对这种能力进行训练,而不是依赖间接的代理目标。
研究的实践意义也很明显。在当前大语言模型竞争激烈的环境下,如何用更少的资源训练出更强的模型是每个研究团队都关心的问题。Pass@k训练提供了一个简单而有效的解决方案,它不需要复杂的架构改进或大量的额外数据,仅仅通过改变训练策略就能获得显著提升。
说到底,这项研究的核心价值在于重新思考了人工智能学习过程中探索与利用的关系。它告诉我们,鼓励多样性不仅不会损害性能,反而会促进更深层次的理解和更强的问题解决能力。这个理念不仅适用于人工智能,对人类教育也有借鉴意义。归根结底,无论是训练AI还是教育人类,保持探索精神和学习热情都是通往卓越的必由之路。这项研究为我们提供了一个简单而强大的工具,让AI模型能够更好地平衡探索新知识和运用已有知识之间的关系,最终实现更智能、更全面的问题解决能力。
Q&A
Q1:Pass@k训练方法的核心原理是什么?
A:Pass@k训练改变了传统的评估方式,不再只看AI模型的第一次回答,而是给模型k次机会来回答同一个问题,只要其中一次答对就给予奖励。这就像给学生多次考试机会,鼓励他们尝试不同的解题思路,从而提高探索能力和问题解决的多样性。
Q2:这种训练方法会不会影响模型的准确性?
A:实验结果显示恰恰相反,Pass@k训练不仅提升了模型在Pass@k指标上的表现,还意外地改善了传统Pass@1指标的性能。这是因为多样化的探索过程反而提高了模型选择最优答案的能力,探索和利用实现了相互促进。
Q3:Pass@k训练方法适用于哪些类型的AI模型?
A:研究验证了该方法具有广泛的适用性,无论是7B还是32B参数的模型,无论是稠密模型还是专家混合模型,无论是处理纯文本任务还是多模态任务,Pass@k训练都展现出一致的改进效果,表明它捕捉到了强化学习训练的本质规律。
好文章,需要你的鼓励
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。
浙江大学研究团队通过OmniEAR基准测试揭示了当前AI模型在物理世界推理方面的严重缺陷。测试显示,即使最先进的AI在明确指令下能达到85-96%成功率,但面对需要从物理约束推断行动的任务时,成功率骤降至56-85%。研究发现信息过载反而降低AI协作能力,监督学习虽能改善单体任务但对多智能体协作效果甚微,表明当前架构存在根本局限性。
纽约大学和Aimpoint Digital Labs的研究团队首次揭示了Transformer模型训练中"大规模激活"的完整发展轨迹。这些影响力比普通激活大千倍的"超级激活"遵循可预测的数学规律,研究者开发出五参数公式能以98.4%准确率预测其变化。更重要的是,通过调整模型架构参数如注意力密度、宽深比等,可以在训练前就预测和控制这些关键激活的行为,为设计更高效、量化友好的AI模型提供了全新工具。