
这项由北京大学计算机科学学院、PKU-Agibot联合实验室的王弘铖、黄艺诺等研究人员联合电子科技大学和Agibot公司完成的研究发表于2025年1月,论文编号为arXiv:2509.24494v1。研究团队针对当前人工智能推理训练中的关键问题,开发出了一种名为GRPO-MA的新型算法,显著提升了机器学习模型在复杂推理任务中的表现。
近年来,随着ChatGPT等大型语言模型的普及,让AI具备类似人类的推理能力成为了科技界的热门话题。在这个背景下,一种叫做"思维链"(Chain-of-Thought)的技术应运而生。这种技术就像教导学生解数学题时要求他们写出完整的解题步骤一样,让AI在给出答案之前先展示自己的思考过程。
然而,训练具备这种推理能力的AI模型并非易事。目前主流的训练方法GRPO(Group Relative Policy Optimization)虽然效果不错,但就像一个挑剔的老师在批改作业时遇到的问题一样:有时候学生的思考过程很好但答案错了,有时候思考过程有问题但答案对了,这让老师很难准确评判学生的真实水平。
**一、传统方法的三大困扰**
要理解这项研究的价值,我们需要先了解传统GRPO算法面临的挑战。这些挑战就像训练一个学生解题时遇到的三个主要问题。
第一个问题是"思维与答案不匹配"的困扰。设想你是一位数学老师,学生小明在解一道应用题时,思考过程写得很详细很正确,但最后的计算出现了错误,导致答案不对。另一位学生小红的思考过程有些混乱,但因为运气好,最终答案居然是正确的。面对这种情况,你该如何评价这两位学生的数学能力呢?传统的GRPO算法就面临着类似的困扰——它很难准确区分思维过程和最终答案的质量,经常出现奖励分配不当的情况。
第二个问题是"样本稀缺导致的评估困难"。继续用数学教学来类比,假设你想了解学生对某个知识点的掌握程度,但只给了他一道题来测试。如果这道题他碰巧不会做,你可能会错误地认为他完全没有掌握这个知识点。同样,GRPO算法在训练时需要让模型尝试解决很多问题,但由于计算资源限制,每个问题只能尝试有限次数。当问题比较难时,模型可能多次尝试都失败,导致算法无法获得有效的学习信号。
第三个问题是"评估标准不稳定"。这就好比一个老师在批改试卷时,对于同样质量的答题过程,有时给高分,有时给低分,标准不够稳定。传统算法在评估一个思维过程的质量时,往往只基于一个答案的结果,这种单点评估容易受到随机因素影响,导致评估结果不够可靠。
**二、GRPO-MA的创新解决方案**
针对这些问题,研究团队提出了GRPO-MA算法,这个名字中的"MA"代表"Multi-Answer",也就是多答案生成。这个解决方案的核心思想非常直观:既然基于单个答案的评估不够准确,那我们就让模型为每个思维过程生成多个答案,然后基于这些答案的整体表现来评估思维过程的质量。
这种方法就像一个更加公平的考试制度。传统方法相当于让学生针对同一个解题思路只写一个答案,然后基于这个答案来评判整个解题思路的好坏。而GRPO-MA则相当于让学生基于同一个解题思路生成多个答案,然后根据这些答案的平均表现来评判解题思路的质量。这样做的好处是显而易见的:即使某个答案因为小错误而不正确,但如果大部分答案都是对的,我们仍然可以认为这个解题思路是好的。
具体来说,GRPO-MA的工作流程是这样的:首先,模型会针对一个问题生成K个不同的思维过程(就像K种不同的解题思路)。然后,对于每个思维过程,模型会基于该思路生成M个不同的答案。接下来,算法会计算每个思维过程对应的所有答案的平均得分,用这个平均得分来代表该思维过程的质量。最后,算法会根据思维过程的质量和单个答案的质量分别更新模型的参数。
**三、理论基础与数学原理**
为了证明这种方法的有效性,研究团队进行了深入的理论分析。他们使用了一种叫做"多元德尔塔方法"的数学工具来分析算法的稳定性。这个分析过程虽然涉及复杂的数学公式,但其核心结论可以用简单的道理来理解。
研究团队发现了一个重要的数学规律:当我们为每个思维过程生成的答案数量M增加时,对思维过程质量评估的误差会单调递减,并且可以无限接近于零。换句话说,生成的答案越多,我们对思维过程质量的判断就越准确。这就像统计学中的大数定律一样:测试的样本越多,我们对真实情况的估计就越准确。
相比之下,如果我们只是简单地增加思维过程的数量K(相当于增加不同的解题思路),虽然也能提高评估的准确性,但这种提升有一个下限,无法无限接近完美。这个发现为GRPO-MA方法提供了坚实的理论基础。
研究团队还分析了算法中梯度变化的情况。在机器学习中,梯度就像指南针一样,指示模型参数应该如何调整。他们发现,GRPO-MA产生的梯度变化比传统方法更加平稳,出现异常波动的情况明显减少。这意味着训练过程更加稳定,模型的学习效果更加可靠。
**四、广泛的实验验证**
为了验证GRPO-MA算法的有效性,研究团队在多个不同类型的任务上进行了全面的测试。这些任务涵盖了从纯文本推理到复杂的视觉理解,就像对一个学生进行全科目的综合考试一样。
在数学推理任务中,研究团队使用了AIME2024数学竞赛的题目作为测试集。结果显示,使用GRPO-MA训练的模型在解答数学问题时表现明显更好。例如,在生成100个候选答案的情况下,GRPO-MA训练的模型能够在前10个答案中找到正确答案的概率达到14.70%,而传统GRPO方法只有11.78%。
在编程任务中,研究团队使用了LiveBench代码测试集。GRPO-MA同样展现出了优越性能,不仅答案质量更高,而且训练时间也更短。这证明了新方法不仅效果好,效率也更高。
特别值得一提的是在视觉任务上的表现。研究团队测试了多种视觉理解任务,包括物体检测、动作预测、轨迹规划等。在这些任务中,GRPO-MA都显示出了显著的优势。例如,在物体检测任务中,GRPO-MA能够更准确地识别图像中的目标物体,在各种准确率阈值下都超越了传统方法。
最令人印象深刻的是在机器人操作仿真任务中的表现。这个任务要求AI模型观察一个场景图像,然后预测机器人应该在哪个位置进行操作才能成功完成任务。这是一个极其困难的任务,因为成功的操作点非常稀少,大部分尝试都会失败。在这种极具挑战性的环境中,GRPO-MA的表现格外突出:在已见物体上的成功率达到31.40%,在未见物体上的成功率为16.00%,远远超过传统GRPO方法的10.75%和3.94%。
**五、实际应用价值与影响**
这项研究的意义远超学术界。在实际应用中,GRPO-MA算法可以帮助开发更可靠的AI助手。当你向AI询问复杂问题时,经过GRPO-MA训练的模型会进行更加稳定和准确的推理,给出更可靠的答案。
在教育领域,这种技术可以用来开发更好的AI辅导系统。系统能够展示更加清晰和正确的解题过程,帮助学生更好地理解知识点。在科研领域,研究人员可以利用这种技术构建更可靠的AI工具来辅助数据分析和假设验证。
在机器人和自动化领域,GRPO-MA的应用前景特别广阔。无论是工业机器人的精密操作,还是服务机器人的日常任务处理,都需要可靠的决策推理能力。GRPO-MA训练出的模型能够更好地理解复杂场景,做出更准确的操作决策。
研究团队还发现了一个有趣的现象:在某些情况下,使用较少思维过程但配合多答案生成的GRPO-MA(比如4个思维过程,每个生成3个答案)竟然能够超越使用更多单一答案思维过程的传统方法(比如16个思维过程,每个只生成1个答案)。这说明答案多样性比思维过程数量更加重要,为future的研究指明了方向。
**六、技术细节与实现挑战**
从技术实现角度来看,GRPO-MA算法在保持高效性的同时实现了性能提升。研究团队巧妙地设计了训练流程,使得额外的计算开销相对较小。具体来说,生成多个答案的计算成本主要集中在推理阶段,而这部分成本相比生成完整的思维过程要低很多。
算法的另一个优势是其通用性。研究团队证明了GRPO-MA可以很容易地与其他现有的改进方法结合使用,比如DAPO等技术。这意味着研究人员不需要抛弃现有的技术积累,而可以在原有基础上进行升级改进。
在训练稳定性方面,研究团队引入了梯度尖峰评分(Gradient Spike Score)来量化训练过程的稳定性。实验结果显示,GRPO-MA在各种任务中都能显著减少梯度异常波动的次数,使得训练过程更加平稳可控。
**七、案例分析与深度解读**
为了更直观地展示GRPO-MA的优势,研究团队提供了详细的案例分析。在一个物体检测任务中,需要在图像中找到"紫色瓶装饮料"。传统GRPO方法虽然能够识别出目标物体的存在,但推理过程容易被图像中其他显眼物体干扰,导致定位不准确。而GRPO-MA训练的模型能够更好地聚焦于目标物体,提供准确的位置信息。
在轨迹预测任务中,区别更加明显。当要求预测机器人抓取漏勺的运动轨迹时,GRPO-MA训练的模型首先在全局范围内定位目标物体,然后基于空间关系推导出合理的接近路径。相比之下,传统方法的推理过程往往缺乏全局视角,容易产生不合理的轨迹规划。
这些案例充分说明了GRPO-MA不仅在量化指标上表现更好,在推理质量和逻辑性方面也有显著提升。
**八、局限性与future发展方向**
尽管GRPO-MA取得了显著进展,研究团队也诚实地指出了当前方法的局限性。首先,由于计算资源限制,他们的实验主要基于相对较小的模型(30亿参数),在更大规模的模型上的表现还需要进一步验证。
其次,研究中采用的思维过程独立性假设在实际应用中可能并不完全成立。不同的思维过程之间可能存在一定的相关性,这可能会影响理论分析的准确性。
另外,目前的方法主要适用于具有可验证奖励函数的任务。对于那些难以设计明确评判标准的开放性任务,如何应用GRPO-MA还需要进一步研究。
展望future,研究团队认为有几个重要的发展方向。一是将方法扩展到更大规模的模型和更复杂的任务场景;二是研究如何更好地建模思维过程之间的依赖关系;三是探索在开放性任务中的应用可能性。
说到底,这项研究为AI推理能力的提升提供了一个既简单又有效的解决方案。它告诉我们,有时候解决复杂问题的关键不在于使用更复杂的方法,而在于换一个角度思考问题。正如研究团队在论文中所说,通过让AI为每个思维过程生成多个答案,我们不仅提高了推理的准确性,也增强了训练过程的稳定性。
这种方法的影响可能会很深远。随着AI技术在各个领域的广泛应用,对推理能力的要求越来越高。GRPO-MA为构建更可靠、更稳定的AI系统提供了重要的技术支撑。无论是帮助学生解决学习问题,协助科研人员分析数据,还是指导机器人完成复杂操作,这种技术都有着广阔的应用前景。
有兴趣深入了解技术细节的读者可以通过论文编号arXiv:2509.24494v1查阅完整的研究报告。这项work不仅为当前的AI推理训练提供了改进方案,也为future的相关研究奠定了坚实的基础。
Q&A
Q1:GRPO-MA算法与传统GRPO方法相比有什么核心优势?
A:GRPO-MA的核心优势在于为每个思维过程生成多个答案,然后基于这些答案的平均表现来评估思维质量。这就像让学生基于同一解题思路给出多个答案,通过平均分来判断思路好坏,比只看一个答案更准确可靠。实验显示它能显著提升推理准确性,同时让训练过程更稳定,减少梯度异常波动。
Q2:这项研究在哪些具体任务上得到了验证,效果如何?
A:研究团队在数学推理、编程、物体检测、轨迹预测、机器人操作等多种任务上进行了测试。在数学题解答中,准确率从11.78%提升到14.70%;在机器人操作仿真这种极困难的任务中,成功率从10.75%大幅提升到31.40%。特别是在视觉理解和机器人操作等需要复杂推理的任务中表现尤为突出。
Q3:GRPO-MA算法的计算成本会不会很高,实用性如何?
A:GRPO-MA算法设计得相当高效。虽然需要生成更多答案,但这部分额外成本主要在推理阶段,相比生成完整思维过程的成本要低很多。实验显示,它只需约15%的额外训练时间就能获得显著性能提升,甚至在某些情况下用更少的总计算资源就能达到比传统方法更好的效果,实用性很强。
好文章,需要你的鼓励
浙江大学团队提出动态专家搜索方法,让AI能根据不同问题灵活调整内部专家配置。该方法在数学、编程等任务上显著提升推理准确率,且不增加计算成本。研究发现不同类型问题偏爱不同专家配置,为AI推理优化开辟新路径。
清华大学研究团队提出SIRI方法,通过"压缩-扩张"交替训练策略,成功解决了大型推理模型"话多且准确率低"的问题。实验显示,该方法在数学竞赛题上将模型准确率提升43.2%的同时,输出长度减少46.9%,真正实现了效率与性能的双重优化,为AI模型训练提供了新思路。
南洋理工大学与腾讯联合研究团队开发出Rolling Forcing技术,实现AI视频实时流式生成的重大突破。该技术通过滚动窗口联合去噪、注意力锚点机制和高效训练算法三项创新,解决了长视频生成中的错误累积问题,可在单GPU上以16fps速度生成多分钟高质量视频,延迟仅0.76秒,质量漂移指标从传统方法的1.66降至0.01,为交互式媒体和内容创作开辟新可能。
华中科技大学研究团队发现,通过让AI模型学习解决几何问题,能够显著提升其空间理解能力。他们构建了包含约30000个几何题目的Euclid30K数据集,使用强化学习方法训练多个AI模型。实验结果显示,几何训练在四个空间智能测试基准上都带来显著提升,其中最佳模型达到49.6%准确率,超越此前最好成绩。这项研究揭示了基础几何知识对培养AI空间智能的重要价值。