微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

上海交通大学团队发明AI"分配公平"新算法：让机器推理像人类思考一样多样化

强化学习大语言模型新型算法

上海交通大学团队发明AI"分配公平"新算法：让机器推理像人类思考一样多样化

作者：科技行者

2025-10-11 09:50

分享至：

上海交通大学团队开发出FlowRL训练方法，将AI从"奖励最大化"转向"分布匹配"，让AI学会多样化推理而非单一模式。该方法在数学推理上比现有最佳方法提升10%准确率，在编程任务中达到CodeForces前83.3%水平，解题方案多样性提升近一倍，为AI训练提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-10-11 09:50 • 科技行者

这项由上海交通大学朱学凯领衔的研究于2025年9月发表在arXiv预印本平台（论文编号：arXiv:2509.15207v2），研究团队集结了来自上海交通大学、清华大学、微软研究院、斯坦福大学等多个顶尖机构的学者。该研究提出了名为FlowRL的全新训练方法，彻底改变了大语言模型在数学和编程推理方面的学习方式。

要理解这项研究的重要性，我们可以把当前的AI训练想象成一个偏心的老师。传统的训练方法就像这样一位老师，总是只表扬班里考试分数最高的那个学生，结果所有学生都开始模仿这个"学霸"的解题方法。看起来没什么问题，但实际上这样培养出来的学生思维方式单一，遇到新题型就容易卡壳。而FlowRL就像一位更智慧的老师，不仅关注高分学生，还会发现并鼓励各种不同但同样有效的解题思路，让整个班级的思维更加多元化。

这种"分配公平"的训练方式带来了显著效果。在数学推理任务中，FlowRL相比现有最好的方法平均提升了10%的准确率。在编程任务中，使用FlowRL训练的模型在CodeForces竞赛平台上的评分达到1549分，排在前83.3%的位置。更重要的是，研究团队发现，这种新方法训练出的AI模型生成的解题方案多样性比传统方法高出近一倍。

**一、传统AI训练的"偏科"问题**

目前主流的AI训练方法都有一个共同特点：奖励最大化。用最简单的话来说，就是AI在学习过程中总是试图找到能获得最高分数的那种解题方法，然后拼命练习这种方法，直到炉火纯青。这就像一个学生发现老师特别喜欢某种解题格式，于是所有题目都用这种格式来答，结果确实经常得高分。

这种训练策略在短期内看起来很有效，AI确实能在特定类型的问题上表现出色。但问题是，当遇到稍微不同的题目时，AI就显得手足无措了。研究团队通过一个具体的数学题目展示了这个问题。在解决一道关于立体几何的竞赛题时，传统方法训练的AI会反复使用算术-几何均值不等式这一种技术，即使这种方法不适合，它也会执行三次同样的操作，最后还会陷入逻辑循环，得出矛盾的结论。

更糟糕的是，这种训练方式容易导致"模式坍塌"现象。用烹饪来比喻，就像一个厨师发现红烧肉特别受欢迎，于是菜单上全是红烧肉的各种变种，完全忽视了其他同样美味的菜式。AI也是如此，它会过度专注于某几种"高分"的解题策略，而忽略了其他同样有效但可能不那么"显眼"的方法。

这种问题在长篇推理任务中尤其明显。当AI需要进行复杂的数学证明或编写长段代码时，单一的思维模式往往无法应对各种意外情况。就像攀登一座复杂的山峰，如果只会一种攀爬技巧，遇到不同地形时就会进退两难。

**二、FlowRL：让AI学会"兼容并包"**

FlowRL的核心思想可以用一个水流分配系统来理解。传统方法就像把所有水流都导向一个出口，而FlowRL则像一个智能的分水闸系统，能够根据不同路径的价值合理分配水流。

在技术层面，FlowRL做了一个根本性的改变：从"奖励最大化"转向"分布匹配"。用更通俗的话说，传统方法是让AI拼命追求单一的"完美答案"，而FlowRL是让AI学会欣赏和掌握多种"好答案"的分布规律。

这个转变的关键在于引入了一个叫做"配分函数"的数学工具。如果把解题过程比作烹饪，那么配分函数就像一个智能的口味调节器，它能够评估各种不同菜品的受欢迎程度，然后指导厨师不要只做一种菜，而是根据每种菜的受欢迎程度来安排菜单比例。

FlowRL还借鉴了生成流网络（GFlowNets）的思想。这种网络就像城市的交通管理系统，不是简单地让所有车辆都走最短路径（那样会造成拥堵），而是通过智能调度，让车流在各条道路上保持平衡，既提高了整体效率，又避免了某些路线的过度拥挤。

在实际训练过程中，FlowRL通过最小化一种叫做"反向KL散度"的数学量来实现这种平衡。不用被这个专业术语吓到，它的作用就像一个公平的裁判，确保AI不会偏向某种特定的解题方法，而是按照每种方法的实际效果来分配学习精力。

**三、技术挑战与巧妙解决方案**

在开发FlowRL的过程中，研究团队遇到了两个主要挑战，就像建造一座桥梁时遇到的工程难题。

第一个挑战是"梯度爆炸"问题。当AI处理很长的推理链条时（比如包含8000个词的复杂数学证明），传统的训练方法会导致学习信号变得极不稳定，就像一个放大器的音量突然失控，产生刺耳的噪音。这是因为长序列会让梯度（可以理解为学习的方向指示）累积得过大，导致训练过程剧烈震荡。

研究团队通过"长度归一化"技术解决了这个问题。简单来说，就是按照推理链条的长度来调节学习信号的强度，就像根据菜品的分量来调节调料的用量一样。这样，无论是短小精悍的证明还是长篇大论的推导，都能得到适当强度的学习信号。

第二个挑战是"采样不匹配"问题。在实际训练中，为了提高效率，AI通常会重复使用之前生成的一些解题样本，但这些样本可能已经不太适合当前的学习状态了，就像用过时的地图导航一样。

为了解决这个问题，研究团队引入了"重要性采样"技术，这就像给每个旧样本配上一个"时效性权重"。如果一个样本虽然是用旧版本AI生成的，但仍然与当前版本的思路相近，那么它就保持较高的权重；如果差距较大，权重就会降低。这样既能重复利用有价值的历史数据，又能避免被过时信息误导。

这些技术改进使得FlowRL能够稳定地处理长达8000词的复杂推理任务，这在以前是很难想象的。就像给一辆普通汽车装上了更好的减震系统和导航设备，让它能够在崎岖的山路上平稳行驶。

**四、实验验证：数据说话**

研究团队在数学和编程两个领域进行了全面的实验验证，就像新药上市前必须经过严格的临床试验一样。

在数学推理方面，他们选择了六个具有挑战性的测试集，包括美国数学邀请赛（AIME）、美国数学竞赛（AMC）等高难度竞赛题目。这些题目对人类数学家来说都不轻松，更别说AI了。实验结果显示，FlowRL在32B参数的模型上平均准确率达到48.4%，比目前最好的GRPO方法高出10%，比PPO方法高出5.1%。

更令人印象深刻的是在特定难题上的表现。在MATH-500这个测试集上，FlowRL的准确率达到80.75%，而传统最好方法只有61.60%。这相当于在100道题目中多做对19道，这在竞赛数学中是一个巨大的进步。

在编程任务上，FlowRL同样表现出色。在LiveCodeBench这个实时编程挑战平台上，FlowRL达到37.43%的通过率，在CodeForces竞赛平台上获得1549分的评分，位列前83.3%。要知道，CodeForces是全球程序员的竞技场，能达到这个水平说明AI已经具备了相当不错的编程能力。

为了验证FlowRL确实提高了解题思路的多样性，研究团队还进行了专门的多样性分析。他们让GPT-4o来评估不同方法生成的解题方案的多样性，结果显示FlowRL的多样性得分达到2.28，而传统最好方法只有1.31，几乎翻了一倍。这就像一个班级从只会一种解题方法变成掌握了多种不同的解题策略。

**五、深入案例：看看AI是怎么"开窍"的**

为了更直观地展示FlowRL的效果，研究团队提供了一个具体的数学题解答对比。这道题目来自美国数学邀请赛，题目要求找到能包含所有特定立体盒子的最小球体半径。

传统的GRPO方法在解这道题时表现得像一个思维僵化的学生。它一遍遍地尝试使用算术-几何均值不等式，即使这种方法明显不适用，还是坚持用了三次。更糟糕的是，它还陷入了逻辑循环，在相同的推理步骤间反复跳转，最终得出了自相矛盾的结论，比如同时认为三个不同的变量相等。

相比之下，FlowRL训练的AI展现出了更加灵活和多样的思维方式。它首先尝试了对称性假设，设定两个变量相等，然后将原本复杂的三变量问题转化为一个更容易处理的立方方程。接着，它系统地寻找有理根，通过多项式分解找到了正确的解。整个过程逻辑清晰，步骤合理，最终得到了正确答案。

这个对比就像两个学生面对同一道难题时的不同表现。一个学生死记硬背，遇到新情况就慌了手脚，只会重复已知的方法；另一个学生则能灵活变通，根据题目特点选择最合适的解法，展现出真正的数学素养。

研究团队还发现，FlowRL生成的解答不仅正确率更高，而且解题路径更加多样化。在同一道题目上，它可能会提供几种完全不同但都正确的解法，就像一个经验丰富的数学老师能够从多个角度解释同一个概念。

**六、方法对比：为什么FlowRL更胜一筹**

为了全面评估FlowRL的效果，研究团队将其与目前最主流的三种AI训练方法进行了对比：REINFORCE++、PPO和GRPO。

REINFORCE++是最基础的策略梯度方法，就像用最原始的方式训练运动员，简单直接但效果有限。PPO是目前使用最广泛的方法之一，它通过引入价值函数来稳定训练过程，就像给运动员配备了专业教练，能够更稳定地提高成绩。GRPO是最新的简化版本，通过组内比较来训练，省去了复杂的价值函数估计，就像通过小组竞赛来激发学习动力。

在不同的温度参数设置下（温度参数控制AI生成答案的随机性），FlowRL都保持了显著的优势。当温度设为0.6时（相对保守的生成策略），FlowRL在7B模型上达到35.39%的平均准确率，明显超过其他方法。当温度提高到1.0时（更加多样化的生成策略），FlowRL的优势更加明显，达到34.62%的准确率。

这种一致性优势说明FlowRL不是在特定条件下的偶然表现，而是一种根本性的改进。就像一个优秀的运动员不仅在自己擅长的项目上表现出色，在其他相关项目上也能保持高水平。

研究团队还进行了详细的消融研究，验证了每个技术组件的必要性。当去掉重要性采样技术时，FlowRL的平均准确率从35.63%下降到26.71%，说明这个组件对于处理训练数据的时效性至关重要。当调整配分函数的参数时，最优设置β=15能够在奖励信号和探索多样性之间找到最佳平衡点。

**七、理论基础：为什么这样做有效**

FlowRL的成功不是偶然的，它有深厚的理论基础支撑。研究团队证明了一个重要的数学等价性：最小化策略分布与奖励分布之间的KL散度，在梯度层面等价于优化轨迹平衡损失函数。

用更通俗的语言解释，这意味着让AI学会匹配不同解题方法的"受欢迎程度分布"，实际上等同于让AI同时追求高奖励和高多样性。这就像一个优秀的投资组合既要追求收益，又要分散风险，两个目标看似矛盾，但通过合适的策略可以同时实现。

从信息论的角度来看，FlowRL实际上是在最大化一个包含奖励项和熵项的目标函数。奖励项确保AI能够找出好的解答，而熵项则鼓励AI探索各种不同的解题路径。这种组合就像培养一个既有专业能力又有创新思维的人才。

更重要的是，FlowRL与生成流网络（GFlowNets）的理论基础相通。GFlowNets最初是为了在化学分子设计等领域中寻找多样化的高质量方案而开发的，它的核心思想是通过流平衡来确保采样的多样性。FlowRL将这种思想成功地移植到了大语言模型的训练中，这是一个重要的理论创新。

这种理论基础的坚实性意味着FlowRL不仅在当前的实验中表现出色，而且具有良好的可扩展性和适应性。就像一个基于坚实物理原理设计的工程结构，不仅在测试环境中稳定，在实际应用中也能保持可靠的性能。

FlowRL的成功为整个AI训练领域提供了新的思路。它表明，在追求性能提升的同时，不应该忽视多样性和泛化能力的重要性。这种"既要又要"的平衡思维，可能会启发更多创新的训练方法。

说到底，这项研究的意义远不止于提高几个百分点的准确率。它代表了AI训练理念的一次重要转变，从单纯的"追求最优"转向"追求均衡"。这种转变可能会影响未来AI系统的设计思路，让人工智能变得更加智慧和全面。对于普通人来说，这意味着我们将看到更加可靠、更加富有创造性的AI助手，它们不仅能解决问题，还能提供多种不同的解决方案，就像一个真正博学且富有想象力的人类专家。

当然，这项研究也为我们思考人工智能的发展提供了新的视角。在追求AI性能的路上，多样性和创新性同样重要。毕竟，真正的智能不仅仅是找到正确答案，更是在面对未知挑战时能够灵活应对、创新思考的能力。FlowRL在这个方向上迈出了重要的一步，为我们展示了一个更加智慧、更加多元的AI未来。

Q&A

Q1：FlowRL训练方法与传统AI训练方法有什么区别？

A：传统AI训练就像偏心的老师，只表扬最高分的学生，导致所有AI都模仿同一种解题方法。FlowRL则像智慧的老师，会发现并鼓励各种不同但有效的解题思路，让AI的思维更多元化。这种"分配公平"的方式让AI在数学推理上提升了10%的准确率。

Q2：FlowRL是如何解决长篇推理中的技术难题的？

A：FlowRL面临两大挑战：一是处理8000词长推理时的梯度爆炸问题，通过长度归一化技术解决，就像根据菜品分量调节调料用量；二是采样不匹配问题，通过重要性采样技术解决，给每个旧样本配上时效性权重，既能重用有价值数据又避免过时信息误导。

Q3：FlowRL在实际应用中的效果如何？

A：实验显示FlowRL在数学竞赛题上准确率达48.4%，在编程平台CodeForces上评分1549分排前83.3%。更重要的是，它生成解题方案的多样性比传统方法高近一倍，就像一个班级从只会一种解法变成掌握多种策略，面对新题型时更加灵活。

强化学习大语言模型新型算法

分享至