这项由阿里巴巴通义千问团队郑楚杰、刘仕轩、李铭泽等十多位研究者共同完成的突破性研究发表于2025年7月25日,论文详细介绍了一种名为GSPO(Group Sequence Policy Optimization)的全新强化学习算法。有兴趣深入了解的读者可以通过arXiv:2507.18071v1访问完整论文。
这个研究解决的问题其实和我们日常生活中的情况很相似。设想你正在教一个孩子学习写作文,传统的方法是逐字逐句地纠正每个错误,但这往往会让孩子感到困惑和挫败。而GSPO就像是一位更聪明的老师,它不再纠结于每个词语的对错,而是从整篇文章的角度来评判和改进,让学习过程变得更加稳定和高效。
在人工智能领域,大型语言模型需要通过强化学习来提升自己解决复杂问题的能力,比如数学推理和编程任务。然而,现有的训练方法经常会遇到"模型崩盘"的问题,就像一个学生在学习过程中突然完全失去了之前掌握的知识,而且这种崩盘往往是不可逆转的。阿里巴巴的研究团队发现,这个问题的根源在于传统算法对每个词语都过度关注,导致训练过程充满了噪声和不稳定性。
GSPO算法的创新之处在于它改变了评判和优化的基本单位。如果说传统方法是在逐字逐句地挑毛病,GSPO则是从文章的整体质量出发来进行改进。这种方法不仅解决了训练稳定性问题,还显著提高了训练效率,特别是在处理那些采用专家混合架构的大型模型时表现尤为出色。
**一、传统方法的困境:为什么AI训练会"翻车"**
要理解GSPO的价值,我们首先需要了解传统强化学习方法面临的挑战。当前最先进的算法叫做GRPO(Group Relative Policy Optimization),它的工作方式有点像一个过分挑剔的编辑。
设想你正在批改学生的作文,GRPO的做法是这样的:它会仔细检查每一个词语,然后根据这个词语在新版本和旧版本中出现概率的比值来决定是否采纳这个改动。这听起来很合理,但实际上存在一个根本性的问题。
这个问题可以用一个简单的比喻来说明。假设你要估算一家餐厅的平均服务质量,正确的做法是收集很多顾客的评价,然后计算平均分。但GRPO的做法相当于只问一个顾客的意见,然后就根据这个意见来调整整个餐厅的服务策略。这种方法的问题在于,单个样本往往包含很多随机噪声,无法准确反映真实情况。
在AI训练中,这种噪声会随着文本长度的增加而不断积累。每个词语的重要性权重都可能存在偏差,当这些偏差叠加起来时,就会产生灾难性的后果。研究团队发现,这种积累效应在处理长文本时尤其严重,经常导致模型突然崩盘,而且一旦崩盘就很难恢复。
更糟糕的是,GRPO算法中的"截断机制"本来是为了防止训练过程偏离正轨,但它实际上放大了这些噪声的影响。就像一个过敏反应,本来是身体的保护机制,却反而伤害了身体本身。当算法检测到某个词语的重要性权重过高或过低时,它会强制将这个权重限制在一定范围内,但这种粗暴的处理方式往往会引入更多的训练不稳定性。
阿里巴巴的研究团队通过大量实验发现,这种不稳定性在训练大型模型时表现得尤为明显。特别是当模型采用专家混合(MoE)架构时,问题变得更加严重。这种架构就像一个大型企业的多个部门,每个部门都有自己的专长。但在传统的训练方法下,这些部门之间的协调经常出现问题,导致整个系统的崩溃。
**二、GSPO的核心创新:从"逐字批改"到"整体评估"**
面对传统方法的种种问题,阿里巴巴的研究团队提出了一个根本性的解决方案:既然问题出在逐词处理上,那么为什么不直接从整个句子的角度来进行优化呢?
GSPO算法的核心思想可以用一个教学比喻来解释。传统的GRPO就像一个老师在批改作文时,对每个词语都要查字典、考虑语法、分析用词准确性,结果常常迷失在细节中,忘记了文章的整体质量。而GSPO更像一个经验丰富的语文老师,它会先通读整篇文章,从整体的连贯性、逻辑性和表达效果来评判文章质量,然后给出改进建议。
具体来说,GSPO不再计算每个词语的重要性权重,而是计算整个回答的重要性权重。这个权重反映的是整个回答在新模型和旧模型下生成概率的比值。这种做法有着坚实的理论基础,因为它真正符合重要性采样的基本原理。
重要性采样是统计学中的一个重要概念,它的原理就像这样:假设你想了解全国大学生的平均身高,但你只能在某个特定地区采集样本。为了让这个特定地区的样本能够代表全国情况,你需要根据每个样本在全国人口中的代表性来调整它们的权重。重要性采样要求你有足够多的样本来进行这种调整,而不是仅仅基于一个样本就做出判断。
GSPO的序列级重要性权重正是遵循了这个原理。它将整个回答视为一个完整的样本,然后根据这个回答在不同模型下的生成概率来计算权重。这种方法不仅理论上更加合理,而且实际上也更加稳定。
为了控制这个序列级权重的数值范围,研究团队采用了长度归一化的技巧。这就像在比较不同长度文章的质量时,我们不能简单地看总分,而要看平均分一样。通过将概率按照序列长度进行归一化,GSPO确保了不同长度的回答都能在同一个数值范围内进行比较。
GSPO的优化目标也相应地进行了调整。它不再对每个词语单独应用截断机制,而是对整个回答进行截断。这意味着算法会判断整个回答是否偏离了预期的分布,如果偏离过多,就会将这个回答从训练中排除。这种做法就像一个质量检查员,他不会因为产品的某个小细节不完美就将其丢弃,而是从产品的整体质量来做判断。
**三、算法的数学原理:让复杂计算变得直观**
虽然GSPO背后的数学原理相当复杂,但我们可以用一个简单的烘焙比喻来理解它的工作机制。
设想你正在经营一家面包店,你想要改进蛋糕的配方。传统的GRPO方法就像这样工作:你会仔细分析每一种配料(面粉、糖、鸡蛋等)在新配方和旧配方中的用量比例,然后根据每种配料的变化来调整制作过程。但这种方法的问题是,每种配料的最佳用量往往依赖于其他配料,单独优化某一种配料可能会破坏整体的平衡。
GSPO的方法则完全不同。它会制作出完整的蛋糕,然后比较新配方和旧配方制作出的蛋糕的整体质量。具体来说,它会计算新配方制作出某个特定蛋糕的概率与旧配方制作出同样蛋糕的概率之比。这个比值反映了新配方相对于旧配方的"偏好程度"。
在数学上,这个过程可以表示为一个相对简洁的公式。GSPO计算的重要性权重是新模型生成某个回答的概率除以旧模型生成同样回答的概率,然后取这个比值的平方根(长度归一化)。这个权重然后会与回答的"优势值"相乘,优势值反映的是这个回答相比于其他回答的相对质量。
研究团队还提供了GSPO梯度计算的详细分析。梯度就像山坡的坡度,它告诉算法应该向哪个方向调整模型参数才能获得更好的性能。GSPO的梯度计算公式显示,它会根据整个回答的质量来平等地调整回答中每个词语的参数,而不是给不同的词语分配不同的权重。
这种平等对待的方式消除了GRPO中存在的不稳定因素。在GRPO中,不同词语会根据其各自的重要性权重获得不同的"发言权",这些权重可能在0到无穷大之间变动,导致训练过程极不稳定。而GSPO确保所有词语都获得相同的权重,就像一个民主的决策过程,每个成员都有平等的投票权。
**四、灵活变体:适应不同应用场景的GSPO-token**
认识到某些应用场景可能需要更精细的控制,研究团队还开发了GSPO的一个变体,称为GSPO-token。这个变体就像一个可以调节不同区域温度的智能空调系统。
在某些情况下,我们可能希望对回答的不同部分给予不同程度的关注。比如在多轮对话的训练中,对话的后半部分可能比前半部分更重要,因为它们更直接地关系到对话的结果。GSPO-token允许研究者为每个词语设置不同的优势值,从而实现更精细的控制。
但是,GSPO-token的聪明之处在于它如何处理重要性权重。它不像GRPO那样为每个词语计算独立的权重,而是使用一个巧妙的设计:所有词语共享同一个序列级的重要性权重,但每个词语可以有自己的优势值。
这种设计可以用一个团队项目的比喻来理解。在GRPO中,每个团队成员都有自己的"权威度",这个权威度会随着项目进展而剧烈变化,导致团队内部权力失衡。而在GSPO-token中,所有团队成员都有相同的发言权(序列级权重),但他们可以负责不同重要性的任务(不同的优势值)。
从数学角度来看,GSPO-token的梯度计算显示,当所有词语的优势值相同时,它完全等价于原始的GSPO算法。这意味着GSPO-token不仅提供了更大的灵活性,而且在标准情况下保持了GSPO的所有优点。
**五、实验验证:数据说话的真实表现**
为了验证GSPO的有效性,阿里巴巴的研究团队进行了大规模的实验比较。他们使用了一个基于Qwen3-30B-A3B-Base模型微调的冷启动模型,在数学推理(AIME'24)、编程能力(LiveCodeBench)和竞赛编程(CodeForces)等多个具有挑战性的任务上测试了GSPO和GRPO的性能。
实验结果就像一场精彩的马拉松比赛。在这场比赛中,GSPO表现得像一个训练有素的长跑运动员,不仅跑得更快,而且跑得更稳。训练曲线显示,GSPO在整个训练过程中都保持了稳定的性能提升,没有出现传统方法常见的性能波动或突然下降。
更令人印象深刻的是训练效率的提升。在相同的计算资源和训练数据下,GSPO达到了比GRPO更好的性能水平。这就像两个学生用同样的时间学习,但使用更好学习方法的学生取得了更好的成绩。
特别有趣的是一个看似矛盾的发现:GSPO裁剪掉的词语数量比GRPO多了两个数量级,但训练效率反而更高。这个现象可以用餐厅管理来类比:一个严格的餐厅经理可能会拒绝更多的不合格食材,但最终制作出的菜品质量更高,顾客满意度也更好。这个发现进一步证明了GRPO的词语级梯度估计包含了太多噪声,而GSPO的序列级方法提供了更可靠和有效的学习信号。
**六、解决MoE模型训练难题:从复杂到简单**
专家混合(MoE)模型的训练一直是人工智能领域的一个技术难题,而GSPO在这个方面展现出了特别突出的优势。
MoE模型就像一个大型医院的专科体系。这个医院有心脏科、脑科、骨科等多个专科,每个病人会根据具体情况被分配到相应的专科进行治疗。这种设计的好处是可以提供更专业的服务,但挑战在于如何确保各个专科之间的协调配合。
在MoE模型的训练中,传统的GRPO方法面临一个严重问题:专家激活的不稳定性。当模型参数更新后,同一个输入可能会激活完全不同的专家组合。研究团队发现,在48层的Qwen3-30B-A3B-Base模型中,每次参数更新后大约有10%的专家激活模式会发生变化。这种变化就像医院的分诊系统出现混乱,同样的病人在不同时间可能被分配到完全不同的科室。
这种专家激活的变化会导致GRPO的词语级重要性权重剧烈波动,进一步加剧了算法本身就存在的不稳定性问题。为了解决这个问题,研究团队之前不得不采用一种叫做"路由重放"的复杂技术。
路由重放的工作方式就像给医院的分诊系统拍照存档。在计算重要性权重时,系统会强制使用旧模型时的专家激活模式,确保新旧模型使用相同的专家组合来处理同一个输入。虽然这种方法能够稳定训练过程,但它增加了内存和通信开销,而且限制了模型发挥其真正的能力。
GSPO的出现彻底改变了这种局面。由于GSPO只关注整个序列的概率,而不关心具体哪些专家被激活,它天然地避免了专家激活不稳定性的问题。这就像一个更聪明的医院管理系统,它不关心病人具体看了哪些科室,只关心最终的治疗效果如何。
实验结果证明,GSPO完全不需要路由重放技术就能稳定地训练MoE模型,而且性能表现优于使用路由重放的GRPO。这不仅简化了训练流程,还让模型能够充分发挥其设计潜力,不再受到人为约束的限制。
**七、基础设施优化:简化复杂系统**
除了算法层面的优势,GSPO还为强化学习基础设施带来了意想不到的简化效果。
在实际的AI系统部署中,训练引擎和推理引擎通常是分开的,就像工厂的生产线和质检部门使用不同的设备和标准。由于精度差异和实现细节的不同,这两个系统计算出的概率值往往存在微小但重要的差异。
传统的GRPO方法对这种差异极其敏感,因为它需要精确的词语级概率来计算重要性权重。任何微小的计算差异都可能导致权重的显著变化,进而影响训练稳定性。为了解决这个问题,实际系统通常需要用训练引擎重新计算所有采样回答的概率,这增加了系统复杂性和计算成本。
GSPO的序列级方法对这种精度差异具有更好的容忍性。这就像比较两篇文章的整体质量时,我们通常不会因为某个标点符号的微小差异而改变判断,但如果逐字逐句地比较,这些微小差异就可能被放大。因此,GSPO有望直接使用推理引擎返回的概率进行优化,避免了重新计算的需要。
这种简化对于某些高级应用场景特别有价值,比如部分回滚训练和多轮对话训练,以及训练-推理分离的架构。在这些场景中,系统的复杂性往往是限制性能和扩展性的主要瓶颈,而GSPO提供的简化方案可能会带来显著的工程效益。
**八、深入分析:为什么GSPO更有效**
通过对比GSPO和GRPO的梯度计算公式,我们可以更深入地理解GSPO为什么能够取得更好的效果。
在GRPO中,每个词语的梯度会被其对应的重要性权重缩放。这些权重可能在一个很大的范围内变动,对于优势为正的回答,权重范围是(0, 1+ε],对于优势为负的回答,权重范围是[1-ε, +∞)。这种不平等的权重分配会导致某些词语的梯度被过度放大,而另一些词语的梯度被过度抑制。
这种现象就像一个不平衡的团队,某些成员的意见被过分重视,而另一些成员的声音被忽略。随着训练的进行,这种不平衡会逐渐累积,最终可能导致系统的崩溃。
相比之下,GSPO为回答中的所有词语分配相同的权重,消除了这种不稳定因素。这就像一个民主的决策过程,每个参与者都有平等的发言权,避免了权力集中可能带来的问题。
从信息论的角度来看,GSPO的方法也更加合理。序列级的重要性权重反映的是整个回答的信息含量,而词语级的权重往往包含了大量的随机噪声。通过聚焦于信息含量更高的序列级信号,GSPO能够更有效地利用训练数据,提取出更可靠的学习信号。
**九、实际应用和未来展望**
GSPO算法的成功应用已经在阿里巴巴最新的Qwen3模型中得到了验证。这些模型在数学推理、代码生成、复杂问题解决等多个领域都表现出了显著的性能提升,证明了GSPO在大规模实际应用中的有效性。
这种成功不仅仅体现在性能指标上,更重要的是它为大规模强化学习训练提供了一个稳定可靠的算法基础。在GSPO之前,大型模型的强化学习训练经常面临不可预测的崩溃风险,这极大地限制了研究者和工程师探索模型能力边界的努力。
GSPO的出现改变了这种局面。它不仅解决了训练稳定性问题,还提高了训练效率,为持续扩大训练规模提供了可能。这就像为探险队提供了一个更可靠的指南针,让他们能够更安全、更高效地探索未知的领域。
从更广阔的视角来看,GSPO代表了强化学习算法设计思路的一个重要转变:从局部优化转向全局优化,从细节关注转向整体把握。这种思路转变可能会启发更多类似的创新,推动整个人工智能领域的发展。
对于研究社区而言,GSPO提供了一个新的研究方向。研究者可以基于GSPO的核心思想,探索更多的序列级优化方法,或者将这种思路应用到其他类型的学习任务中。同时,GSPO的成功也提示我们,有时候解决复杂问题的最好方法不是增加更多的复杂性,而是回到基本原理,寻找更简洁、更本质的解决方案。
对于工业界而言,GSPO的实用价值是显而易见的。它不仅提高了模型训练的成功率和效率,还简化了系统架构,降低了工程复杂度。这些优势使得更多的组织和团队能够尝试大规模的强化学习项目,推动人工智能技术的普及和应用。
展望未来,随着计算资源的持续增长和模型规模的不断扩大,稳定高效的训练算法将变得越来越重要。GSPO为这个发展趋势提供了一个坚实的算法基础,有望支撑下一代人工智能系统的开发和部署。
归根结底,GSPO的成功告诉我们一个简单而深刻的道理:有时候,最好的解决方案不是最复杂的,而是最合理的。通过回归到重要性采样的基本原理,通过将优化单位与奖励单位对齐,GSPO找到了一条既简洁又有效的路径。这种思路不仅解决了当前的技术问题,更为未来的创新提供了宝贵的启示。
正如阿里巴巴研究团队在论文中所展望的那样,GSPO作为一个稳健可扩展的算法基础,将继续推动大规模强化学习训练的发展,并最终促进人工智能领域的根本性进步。这项研究不仅是技术上的突破,更是科学思维方式的胜利,展示了回归基本原理、追求简洁有效解决方案的重要价值。
Q&A
Q1:GSPO是什么?它解决了什么问题? A:GSPO(Group Sequence Policy Optimization)是阿里巴巴开发的一种新型强化学习算法,专门用于训练大型语言模型。它主要解决了传统训练方法中经常出现的"模型崩盘"问题,让AI模型训练变得更加稳定和高效。
Q2:GSPO相比传统方法有什么优势? A:GSPO的主要优势是从整个回答的角度进行优化,而不是逐个词语地处理。这种方法大大提高了训练稳定性,特别是在处理长文本和复杂模型时表现更好,同时还简化了系统架构,降低了工程复杂度。
Q3:普通人能使用GSPO技术吗? A:GSPO主要是面向AI研究和开发的底层算法技术,普通用户无法直接使用。但这项技术已经应用在阿里巴巴的Qwen3模型中,用户可以通过使用这些经过GSPO训练的模型来间接体验其带来的性能提升。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。