微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 快手科技重磅突破:AI语言模型训练的"权重平衡术"让机器学习更聪明

快手科技重磅突破:AI语言模型训练的"权重平衡术"让机器学习更聪明

2025-11-05 13:56
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-11-05 13:56 科技行者

这项由快手科技的王嘉康、刘润泽等研究人员与清华大学合作完成的研究发表于2025年10月7日,论文标题为《ASPO: 非对称重要性采样策略优化》,感兴趣的读者可以通过arXiv编号2510.06062查询完整论文内容。

在人工智能的世界里,训练一个聪明的语言模型就像教一个学生学习一样。传统的方法就好比老师在批改作业时,对答对题目的学生和答错题目的学生采用了完全相同的评分标准。但快手科技的研究团队发现了一个令人意外的问题:现有的训练方法在处理"正确答案"和"错误答案"时存在严重的不平衡,就像天平的两端重量不一样,导致整个学习过程变得摇摆不定。

研究团队注意到,当前最流行的强化学习训练方法GRPO在处理语言模型时,会给那些已经表现很好的部分分配更多的"关注度",而对那些需要改进的部分却给予较少的"关注度"。这就像一个偏心的老师,总是表扬优等生而忽视需要帮助的学困生,结果导致整个班级的学习效果并不理想。

为了解决这个根本性问题,研究团队提出了一种全新的训练策略,叫做"非对称重要性采样策略优化"(ASPO)。这个方法的核心思想非常简单却极其有效:对于那些模型已经做得很好的部分,适当降低它们在训练中的权重;而对于那些模型还没有掌握好的部分,则给予更多的训练关注。这就像一个好老师会把更多精力放在帮助学困生提高上,同时也不忘记继续鼓励优等生保持水准。

一、发现问题:当前训练方法的"偏心"现象

要理解这个问题,我们可以把语言模型的训练过程想象成教一个学生写作文。在传统的训练方法中,当学生写出一个好句子时,系统会给这个句子很高的"重要性分数",意思是要特别关注和强化这种写法。同样,当学生写出不好的句子时,系统也会给一个分数,但处理方式却截然不同。

研究团队通过大量实验发现,现有的GRPO方法在处理这两种情况时存在严重的不一致性。具体来说,对于写得好的句子,系统会给那些已经很流畅、很自然的部分分配更高的权重,而给那些还需要提升的部分分配较低的权重。这就好比老师在表扬学生时,总是夸奖那些本来就写得很好的词语,而对那些写得一般但有潜力提升的词语视而不见。

这种"偏心"的训练方式会导致模型出现一种叫做"熵崩塌"的现象。简单来说,就是模型变得过于保守和重复,失去了创造性和多样性。就像一个学生因为某种写法得到了老师的大力表扬,于是就反复使用同样的句式和词汇,最终写出来的文章变得单调乏味、缺乏变化。

研究团队通过详细的数据分析发现,这种权重分配的不平衡会在训练过程中逐渐放大。随着训练的进行,模型会越来越偏向于那些已经做得很好的部分,而忽视那些还有改进空间的部分。这种恶性循环最终导致模型的整体性能停滞不前,甚至出现退化。

更令人担忧的是,这种问题在数学推理和编程任务中表现得尤为明显。在这些需要逻辑严密性的任务中,模型往往需要在多个可能的解决方案之间做出选择。如果训练方法存在偏向性,模型就可能过早地锁定某种解题思路,而失去探索更优解的能力。

二、深入分析:重要性采样的"真面目"

为了彻底理解这个问题,研究团队对重要性采样这一核心机制进行了深入剖析。重要性采样本来是为了解决一个很实际的问题:在训练过程中,模型的策略在不断变化,如何确保用旧策略生成的数据仍然对新策略的学习有用呢?

传统观点认为,重要性采样就像一个"翻译器",可以将旧策略下的经验转换为新策略可以理解的形式。但研究团队通过一系列巧妙的实验发现,在当前的语言模型训练场景中,重要性采样的作用已经发生了根本性的变化。

研究团队设计了一个对比实验:他们训练了两个版本的模型,一个使用标准的重要性采样权重,另一个将所有重要性采样权重都设置为1.0(相当于不使用重要性采样)。令人惊讶的是,两个模型的最终性能几乎没有差别,但不使用重要性采样的模型在训练过程中表现得更加稳定,没有出现明显的性能波动。

这个发现颠覆了人们对重要性采样的传统理解。原来,在语言模型的训练中,重要性采样的权重实际上更像是"训练权重"而不是"分布校正器"。也就是说,这些权重决定了每个词语在训练更新中的影响力大小,而不是简单地校正数据分布的差异。

进一步的分析显示,在处理正面样本(即模型表现较好的部分)时,传统方法会给那些概率已经很高的词语分配更大的权重,而给那些概率较低的词语分配较小的权重。这种分配方式与直觉相反:我们更希望给那些还有提升空间的部分更多关注,而不是继续强化已经表现很好的部分。

研究团队通过可视化分析清楚地展示了这种权重分配的问题。他们绘制了一个三维图表,显示了在不同概率条件下重要性采样权重的分布。结果表明,对于负面样本(模型表现不好的部分),权重分配是合理的:概率越高,权重越小,符合我们的期望。但对于正面样本,权重分配却完全相反:概率越高,权重反而越大,这就造成了训练的不平衡。

三、创新解决方案:非对称重要性采样策略

基于对问题的深入理解,研究团队提出了一个既简单又有效的解决方案:非对称重要性采样策略优化(ASPO)。这个方法的核心思想是对正面样本和负面样本采用不同的处理策略,就像一个智慧的老师会根据学生的不同情况采用不同的教学方法。

ASPO方法的实施分为三个关键步骤。第一步是保持传统的词语屏蔽机制,这就像老师会暂时忽略那些明显超出学生当前能力范围的内容,避免给学生造成过大的学习压力。第二步是权重翻转,这是ASPO的核心创新:对于表现良好的部分,系统会将原有的重要性权重进行翻转,使得那些概率较低(还有提升空间)的词语获得更高的权重,而那些概率已经很高的词语获得相对较低的权重。

第三步是双重剪切机制,这是为了防止权重翻转后可能出现的极端情况。就像老师在调整教学重点时也要把握适度原则,不能让任何一部分的训练变得过于激进或过于保守。这种双重剪切采用了"软剪切"的方式,只限制权重的数值大小,但保留梯度信息,确保学习过程的连续性。

从数学角度来看,ASPO方法的关键在于改变了梯度计算的方式。在传统方法中,梯度的大小与当前词语的概率成正比,这意味着高概率的词语会得到更大的更新幅度。而在ASPO中,梯度的大小与概率成反比,使得低概率的词语能够得到更多的关注和改进机会。

这种设计哲学体现了一种更加均衡的学习策略。传统方法就像一个会"嫌贫爱富"的老师,总是给优等生更多关注;而ASPO则像一个真正负责任的老师,会把更多精力投入到帮助那些还有提升潜力的学生身上。

四、实验验证:从理论到实践的完美转化

为了验证ASPO方法的有效性,研究团队进行了大规模的实验验证。他们选择了数学推理和编程任务作为主要测试场景,因为这些任务对模型的逻辑思维能力和精确性要求很高,能够很好地反映训练方法的优劣。

在数学推理方面,研究团队使用了多个具有挑战性的数据集,包括美国数学邀请赛(AIME)的2024年和2025年题目、美国数学竞赛(AMC)2023年题目、MATH-500数据集、Minerva数学题库以及奥林匹克数学竞赛题目。这些测试覆盖了从基础数学概念到高级数学推理的各个层面。

实验结果显示,使用ASPO训练的模型在所有测试中都表现出了显著的性能提升。以AIME 2024为例,ASPO模型的平均得分达到了49.0分,而传统DAPO方法只有42.1分,提升幅度超过16%。更重要的是,ASPO模型在pass@64指标上达到了80.0%,表明其解题的稳定性和可靠性都有明显改善。

在编程任务方面,研究团队使用了LiveCodeBench这一业界认可的编程能力评估平台。测试结果同样令人鼓舞:ASPO模型在LiveCodeBench v5上的平均得分为31.5分,比传统方法提高了约21%;在pass@8指标上达到了47.0%,显示出在代码生成准确性方面的显著优势。

更重要的是,研究团队还深入分析了训练过程中的动态变化。他们发现,使用ASPO方法训练的模型在整个训练过程中表现出更好的稳定性。具体表现为:熵值下降更加平缓,避免了传统方法中常见的急剧下降;重复率增长更加缓慢,保持了输出的多样性;剪切比率变化更加稳定,避免了训练后期的剧烈波动。

这些观察结果证实了ASPO方法不仅能够提升最终性能,还能够改善整个训练过程的质量。传统方法往往在训练后期出现性能退化,而ASPO方法能够保持持续稳定的改进,避免了过拟合和局部最优的问题。

五、技术细节:深入理解ASPO的工作机制

为了让读者更好地理解ASPO方法的技术细节,我们可以通过一个具体的例子来说明其工作原理。假设模型正在学习解决一个数学问题,传统方法和ASPO方法会如何处理同一个训练样本呢?

在传统的GRPO方法中,当模型遇到一个正确的解题步骤时,系统会计算每个词语的重要性权重。对于那些模型已经很擅长的词语(比如"因为"、"所以"这样的逻辑连接词),系统会给予较高的权重,意味着这些词语在这次训练中会得到更多的强化。相反,对于那些模型还不太熟练的词语(比如某个特定的数学概念),系统给予的权重较低,训练效果就相对有限。

而在ASPO方法中,这个过程被彻底改变了。对于同样的正确解题步骤,系统会将重要性权重进行翻转。那些模型已经很熟练的词语会得到较低的权重,避免过度强化;而那些模型还需要改进的词语会得到较高的权重,获得更多的学习机会。这种处理方式确保了训练资源的合理分配,让模型能够更均衡地提升各方面的能力。

从梯度更新的角度来看,ASPO方法的创新在于改变了梯度与概率之间的关系。在传统方法中,某个词语的概率越高,它在训练中获得的梯度更新就越大。这种机制在理论上是为了保持训练的稳定性,但在实践中却导致了"富者更富"的现象:好的部分变得更好,而需要改进的部分却得不到足够的关注。

ASPO通过引入翻转机制,使得梯度更新与概率成反比关系。这意味着那些概率较低、还有提升空间的词语会获得更大的梯度更新,从而得到更多的改进机会。这种设计哲学体现了一种更加公平和有效的学习策略。

为了防止翻转机制可能带来的不稳定性,ASPO还引入了软双重剪切机制。这个机制就像给学习过程加上了"安全阀",确保任何词语的权重都不会变得过于极端。与传统的硬剪切不同,软剪切只限制权重的数值范围,但保留了完整的梯度信息,确保学习过程的连续性和有效性。

六、广泛影响:重新定义AI训练的标准

ASPO方法的提出不仅仅是一个技术改进,更代表了AI训练理念的重要转变。传统的训练方法往往追求快速收敛和高效率,但ASPO证明了"慢即是快"的道理:通过更加均衡和深思熟虑的训练策略,最终能够获得更好的性能和更稳定的表现。

这种理念转变对整个AI行业具有深远的影响。首先,它提醒研究者和开发者要重新审视现有的训练方法,不能简单地追求表面的性能指标,而要深入理解训练过程的内在机制。其次,ASPO方法的成功表明,即使是看似微小的技术改进,如果抓住了问题的本质,也能够产生显著的效果。

从实用性角度来看,ASPO方法具有很强的通用性和易实现性。研究团队已经基于流行的DAPO框架实现了ASPO,并且开源了相关代码和模型。这意味着其他研究者和开发者可以很容易地将ASPO集成到自己的项目中,而不需要重新构建整个训练框架。

ASPO方法的另一个重要贡献是为AI训练的理论研究提供了新的视角。它表明,重要性采样在现代AI训练中的作用可能与传统理论预期的不同,需要重新审视和理解。这种发现可能会推动相关理论的进一步发展,为未来的AI训练方法创新奠定基础。

此外,ASPO方法在数学推理和编程任务上的出色表现,也为这些特定领域的AI应用提供了重要参考。随着AI在教育、科研、软件开发等领域的应用越来越广泛,能够提供更准确、更可靠的推理能力变得至关重要。ASPO方法的成功为这些应用场景的进一步发展提供了技术支撑。

说到底,ASPO方法的核心价值在于它体现了一种更加人性化和智慧化的学习理念。就像一个好老师会根据每个学生的具体情况调整教学策略一样,ASPO让AI训练变得更加个性化和有针对性。这种理念不仅适用于当前的语言模型训练,也可能为未来的AI发展指明方向。

研究团队的工作提醒我们,AI的进步不仅来自于更大的模型和更多的数据,更来自于对学习本质的深入理解和巧妙设计。ASPO方法就是这种智慧的体现:通过深入分析问题的根源,提出简单而有效的解决方案,最终实现了显著的性能提升。这种研究范式值得更多AI研究者学习和借鉴。

Q&A

Q1:ASPO方法和传统的GRPO训练方法有什么根本区别?

A:ASPO的核心区别在于对正面样本的处理方式完全相反。传统GRPO方法会给模型已经掌握得很好的部分更高权重,而ASPO则将这些权重翻转,给那些还有提升空间的部分更多关注,就像老师把更多精力放在帮助学困生而不是继续表扬优等生。

Q2:为什么说重要性采样在现代AI训练中的作用发生了变化?

A:研究团队发现,在语言模型训练中,重要性采样的权重实际上更像是"训练权重"而不是"分布校正器"。通过对比实验,他们发现即使不使用重要性采样,模型性能也几乎没有差别,但训练过程更加稳定,这颠覆了传统理论的预期。

Q3:ASPO方法在哪些任务上表现最好?普通开发者能使用吗?

A:ASPO在数学推理和编程任务上表现出色,在AIME数学竞赛题目上提升超过16%,在编程任务上提升约21%。研究团队已经开源了相关代码和模型,普通开发者可以基于流行的DAPO框架轻松集成ASPO方法到自己的项目中。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-