微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

AI大语言模型训练的"熵值困境"：中科大团队如何让机器学习更稳定

人工智能强化学习优化算法

AI大语言模型训练的"熵值困境"：中科大团队如何让机器学习更稳定

作者：科技行者

2025-10-20 11:47

分享至：

中科大研究团队针对AI大语言模型训练中的"熵值困境"问题，提出了分位数优势估计新方法。该方法通过改进基准线设定策略，有效解决了训练过程中的熵值崩塌和爆炸问题，在数学推理任务上实现了显著性能提升。研究显示，仅需一行代码修改就能获得21.5%的准确率改进，且具有80%样本自动过滤的高效特性，为AI训练稳定性提供了理论保障和实用解决方案。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-10-20 11:47 • 科技行者

这项由中国科学技术大学吴俊康、黄科欣、吴建灿、张安、王祥和何向南等研究者组成的团队开展的研究，发表于2025年1月的arXiv预印本平台，论文编号为arXiv:2509.22611v1。对于想要深入了解技术细节的读者，可以通过该编号在arXiv平台查询完整论文内容。

当我们谈论人工智能的训练过程时，可以把它想象成教一个学生解数学题的过程。学生刚开始时会尝试各种不同的方法，这种"试错"的多样性在AI领域被称为"熵值"。就像学生需要保持足够的好奇心去探索不同解题思路，但又不能毫无章法地胡乱尝试一样，AI系统在学习过程中也面临着一个微妙的平衡问题。

中科大团队发现，现有的AI训练方法存在一个严重问题：要么让AI过早地固定在某种思维模式上（就像学生只会一种解题方法，遇到稍微不同的题目就束手无策），要么让AI的思路过于发散（像一个注意力完全无法集中的学生，什么都想试但什么都做不好）。这种现象在AI训练的专业术语中分别被称为"熵值崩塌"和"熵值爆炸"。

研究团队通过深入分析发现，这个问题的根源在于现有训练方法使用的"基准线"设定方式。这就好比老师在评判学生作业时，总是用班级平均分作为标准。当某个学生表现特别突出时，这个平均分就会被拉高，导致其他原本表现还不错的学生突然被判定为"不及格"，从而打击了他们的学习积极性。

为了解决这个问题，研究团队提出了一种名为"分位数优势估计"（Quantile Advantage Estimation，简称QAE）的新方法。这种方法的核心思想是，不再使用简单的平均分作为评判标准，而是根据题目的难易程度采用不同的评判策略。

具体来说，这种新方法就像一位聪明的老师：当面对特别困难的题目时，只要学生能做出正确答案，哪怕过程不够完美，老师也会给予鼓励和正面反馈；而当面对相对简单的题目时，老师会将注意力集中在那些仍然出错的地方，帮助学生纠正错误。这种差异化的反馈机制确保了学习过程既不会过于保守，也不会过于激进。

研究团队通过数学理论分析证明，这种新方法能够为AI的学习过程提供"双向安全保障"。简单来说，就是为AI的探索行为设置了上下边界：既防止AI过早地停止尝试新方法，也防止AI的尝试过于混乱无序。这就像给一辆汽车安装了既能防止急刹车又能防止油门失控的安全系统。

为了验证这种新方法的效果，研究团队在多个数学推理任务上进行了实验。他们使用了不同规模的AI模型，包括80亿参数、140亿参数和300亿参数的版本，分别在2024年和2025年的美国数学邀请赛（AIME）以及2023年美国数学竞赛（AMC）的题目上进行测试。

实验结果令人振奋。采用新方法训练的AI模型在解题准确率上获得了显著提升。以80亿参数的模型为例，在AIME 2024的测试中，准确率从原来的39.69%提高到48.23%，提升幅度达到21.5%。更重要的是，这种改进不是以牺牲其他性能为代价的——模型在处理多次尝试求解的能力（专业术语称为pass@16）上保持了原有水平。

研究团队还发现了一个有趣的现象：使用新方法训练的AI模型具有天然的"节约"特性。大约80%的训练样本会被自动分配为零优势值，这意味着只有约20%的样本真正参与了模型的参数更新。这种现象类似于帕累托法则（也就是常说的"二八定律"），说明新方法能够自动识别并专注于最有价值的学习样本，从而提高了训练效率。

从技术实现的角度来看，这种新方法的优势在于其简单性和通用性。研究团队只需要对现有训练算法进行一行代码的修改——将计算平均值的函数替换为计算分位数的函数。这种"一行代码解决大问题"的优雅性使得该方法可以很容易地集成到现有的各种AI训练框架中。

研究团队通过详细的分析发现，传统方法在处理训练过程中的"负优势样本"（也就是那些表现不佳的尝试）时存在系统性问题。当模型遇到一些异常出色的表现时，这些表现会拉高整体的期望值，导致许多原本还可以接受的尝试被错误地标记为"失败案例"，从而受到惩罚。这就像一个班级里突然转来了几个学霸，导致原本成绩中等的学生突然被认为是"差生"一样不合理。

新方法通过引入分位数机制有效解决了这个问题。分位数是一种更加稳健的统计量，不容易被极端值影响。举个例子，如果我们要了解一个城市居民的收入水平，使用中位数（50%分位数）比使用平均数更能反映真实情况，因为少数富豪的超高收入不会影响中位数的计算。

在具体的训练动态分析中，研究团队观察到了一个两阶段的学习过程。第一阶段是"协同增长期"，AI模型的探索性（通过观察某些特殊标记词汇的使用频率来衡量）和问题解决能力同时提升。第二阶段是"解耦平台期"，传统方法在这个阶段会出现性能停滞，而新方法则能够继续保持改进。这种现象表明，新方法在训练的后期阶段仍能有效地指导AI进行有价值的学习。

研究团队还进行了细致的消融实验来验证方法中各个组成部分的作用。他们发现，根据不同的训练配置（比如梯度裁剪的强度），新方法会自动调整其行为模式。当训练过程容易出现"熵值爆炸"时，方法会更多地抑制负向更新；当训练过程倾向于"熵值崩塌"时，方法则会更多地促进正向探索。这种自适应性证明了新方法的稳健性。

从计算效率的角度来看，新方法带来的额外计算成本几乎可以忽略不计。计算分位数的复杂度与计算平均值相当，而且由于大约80%的样本被自动过滤掉，实际的参数更新计算量反而减少了。这意味着新方法不仅提高了训练效果，还在一定程度上提高了训练效率。

研究团队特别强调，他们的方法与现有的其他改进技术是兼容的。无论是针对特定token的处理技术，还是序列级别的优化方法，都可以与新方法结合使用，进一步提升训练效果。这种兼容性使得该方法具有很强的实用价值。

在理论分析方面，研究团队提供了严格的数学证明，展示了新方法在"一阶软最大更新"条件下的双向熵值安全性。这个证明表明，在低成功率的情况下，新方法能够将熵值变化限制在最小范围内（防止爆炸）；在高成功率的情况下，新方法能够确保熵值变化达到最大范围（防止崩塌）。这种理论保证为方法的可靠性提供了坚实基础。

值得注意的是，研究团队将其方法的成功归因于"基准线设计"而非传统的"token级别调整"。这一观点为AI训练领域提供了新的研究方向，表明有时候解决复杂问题的关键不在于设计更复杂的机制，而在于重新思考问题的根本假设。

从实际应用的角度来看，这种新方法对于开发更强大的AI数学推理系统具有重要意义。随着AI在教育、科研、工程等领域的应用越来越广泛，提高AI的数学推理能力将直接影响这些应用的效果。新方法的成功实施为这一目标的实现提供了有力工具。

研究团队在论文中也坦诚地讨论了当前工作的局限性和未来发展方向。他们指出，目前的方法使用固定的分位数参数，未来可以考虑根据训练进度动态调整这个参数，或者根据模型的实时状态（如成功率、熵值、梯度方差等）自动选择最优参数。另外，如何将这种思想推广到其他类型的强化学习算法（如PPO）中也是一个值得探索的方向。

说到底，这项研究的核心价值在于它揭示了一个简单而深刻的道理：有时候，最有效的解决方案不是增加系统的复杂性，而是重新审视和改进系统的基础组件。就像建筑师发现，与其设计复杂的支撑结构，不如使用更好的基础材料一样，AI训练领域也可能从重新思考基本假设中获得突破性进展。

这种"化繁为简"的研究思路对整个AI领域都有启发意义。在追求更大模型、更复杂算法的潮流中，有时候一个看似微小的改进可能产生出人意料的巨大效果。对于普通人来说，这项研究的成果可能最终体现在更智能、更稳定的AI助手和教育工具中，让我们在日常生活和工作中能够得到更可靠的AI支持。

未来，随着这种训练方法的推广和进一步完善，我们有理由期待AI系统在数学推理、逻辑分析、问题解决等方面表现出更强的能力，同时保持更好的稳定性和可靠性。这不仅将推动AI技术本身的发展，也将为教育、科研、工程等众多领域带来更强大的智能工具支持。

Q&A

Q1：什么是熵值崩塌和熵值爆炸，为什么这两种现象对AI训练有害？

A：熵值崩塌是指AI过早地固定在某种思维模式上，就像学生只会一种解题方法，遇到新题目就束手无策。熵值爆炸则是AI的思路过于发散，像注意力无法集中的学生什么都想试但什么都做不好。这两种现象都会严重影响AI的学习效果和性能稳定性。

Q2：分位数优势估计方法与传统的平均值方法相比有什么具体优势？

A：分位数方法就像一位聪明的老师，会根据题目难度采用不同的评判策略：对困难题目，只要答对就给鼓励；对简单题目，重点纠正错误。而传统的平均值方法容易被极端情况影响，就像班级平均分被学霸拉高后，原本不错的学生也被误判为差生。

Q3：这种新方法的训练效率如何，是否会增加计算成本？

A：新方法不仅不会增加计算成本，反而在某些方面提高了效率。它具有天然的"节约"特性，约80%的训练样本会被自动过滤，只有20%真正参与参数更新。而且只需要修改一行代码就能实现，计算复杂度与原方法相当。

人工智能强化学习优化算法

分享至