这项由上海AI实验室吕承麒、高松阳等研究人员领导的研究,发表于2025年2月10日的arXiv预印本平台,有兴趣深入了解的读者可以通过arXiv:2502.06781v1访问完整论文。研究团队来自上海AI实验室、上海交通大学、香港中文大学MMLab等多个顶尖科研机构,共同探索了在数学推理任务中使用强化学习的性能极限。
当你看到一个7B参数的AI模型在数学竞赛中击败了参数量是它4倍多的32B模型,甚至超越了OpenAI的o1-mini时,你会不会感到震惊?更令人惊讶的是,这一突破并非来自更大的模型或更多的数据,而是源于一种全新的强化学习训练方法。上海AI实验室的研究团队开发出了一个名为OREAL的算法框架,成功地让一个相对较小的AI模型在数学推理能力上实现了历史性突破。
要理解这项研究的重要性,我们首先需要明白AI数学推理面临的根本挑战。当前最强大的数学推理AI,比如OpenAI的o1系列模型,虽然在数学竞赛中表现出色,但它们的技术细节完全保密。学术界只知道这些模型使用了强化学习和长推理链,但具体怎么做的,没人知道。这就像看到别人做出了美味的菜肴,却不知道配方和烹饪技巧一样令人困惑。
更关键的问题在于,教AI做数学就像教一个学生解题一样困难。在传统的监督学习中,我们可以告诉AI每一步应该怎么做,就像手把手教学生每个步骤。但在强化学习中,我们只能告诉AI最终答案是对是错,就像只告诉学生考试成绩,却不指出哪些步骤做错了。这种"稀疏奖励"的问题在数学推理中特别严重,因为一道数学题的解答过程可能有几千个词,但我们只有一个最终的对错判断。
OREAL算法的核心创新在于解决了这个困难。研究团队发现,在数学推理这个特殊领域,所有正确的解答路径本质上都是等价的。无论你用哪种方法解出了正确答案,这些方法的价值都是相同的。基于这个洞察,他们提出了一个反直觉的观点:只需要从多个尝试中挑选出正确的解答进行学习,就足以获得最优的学习效果。
这个想法的巧妙之处可以这样理解:假设你在学习烹饪,每次尝试后只知道菜好不好吃,不知道具体哪些步骤有问题。传统方法会试图分析每个步骤的贡献,但OREAL发现,在数学这个特殊领域,只要收集足够多的成功菜谱,仔细研究它们的共同特征,就能掌握烹饪的精髓。
不过,仅仅学习正确答案还不够。研究团队进一步发现,失败的尝试同样包含宝贵信息。但这里有个微妙的问题:由于我们从成功样本中学习时改变了原有的数据分布,学习失败样本时也需要相应调整,否则就会出现不一致的学习信号。OREAL通过一个巧妙的"奖励重塑"机制解决了这个问题,确保正确和错误的解答都能为AI提供一致的学习信号。
另一个关键创新是解决长推理链中的信用分配问题。当一道数学题的解答有几千个词时,哪些词对最终答案更重要?OREAL引入了一个轻量级的"词级奖励模型",能够自动识别推理过程中每个词的重要程度。这就像给每个词打分,让AI知道应该重点关注哪些关键步骤。
研究团队的实验结果令人印象深刻。在数学竞赛的标准测试MATH-500上,OREAL训练的7B模型达到了91.0分的pass@1准确率,这是第一次有如此小的模型通过强化学习而非知识蒸馏达到如此高的性能。更令人惊喜的是,当他们将OREAL应用到之前最强的7B模型DeepSeek-R1-Distill-Qwen-7B上时,性能从92.8分提升到了94.0分,达到了与32B模型相媲美的水平。
在32B模型上,OREAL同样创造了新纪录。OREAL-32B在MATH-500上达到了95.0分,在多个数学竞赛测试中都超越了之前的最佳成绩,包括击败了OpenAI的o1-preview和QwQ-32B-Preview等强劲对手。这些结果表明,OREAL不仅在小模型上有效,在大模型上同样能够带来显著提升。
为了验证算法各个组件的有效性,研究团队进行了细致的消融实验。他们发现,每个组件都对最终性能有贡献:奖励重塑机制提升了0.8分,正确样本的行为克隆贡献了1.0分,重要性采样带来了1.4分的提升,而技能增强策略最终贡献了2.0分的提升。这种逐步改进的过程展现了OREAL算法设计的合理性。
训练过程中的一些观察也很有趣。研究团队发现,初始策略模型的质量对最终效果至关重要。一个强大的起点能让强化学习事半功倍,而基础薄弱的模型即使经过强化学习也难以达到顶尖水平。这提醒我们,强化学习并不是万能药,它需要建立在扎实的基础之上。
另一个重要发现是训练数据的质量和多样性同样关键。研究团队特别设计了一个"技能增强"策略,针对模型在训练过程中反复犯错的特定技能点,专门收集相关的训练样本进行强化。这种做法就像针对学生的薄弱环节进行专项训练,效果显著。
OREAL算法的理论基础也很扎实。研究团队从数学角度证明了,在二元反馈环境中,对Best-of-N采样得到的正确轨迹进行行为克隆就足以学习到KL正则化的最优策略。这个理论结果为他们的方法提供了坚实的数学基础,解释了为什么这种看似简单的方法能够取得如此好的效果。
从技术实现的角度,OREAL算法相对简洁优雅。它避免了复杂的价值网络设计,不需要昂贵的人工标注,主要依靠自动化的奖励信号进行学习。这种简洁性使得算法更容易复现和扩展,降低了研究和应用的门槛。
研究团队也诚实地讨论了当前方法的局限性。他们发现,在某些特定类型的数学竞赛(如AIME系列)上,OREAL的表现相对较弱。这可能与训练数据的覆盖范围和质量有关,表明还有进一步优化的空间。
这项研究的意义不仅仅在于刷新了几个测试分数。它提供了一个完整的框架来理解如何在结果奖励环境中进行有效的强化学习。这个框架不仅适用于数学推理,还可能扩展到其他需要复杂推理的任务中。
更重要的是,OREAL的成功表明,学术界完全有能力开发出与商业闭源模型相媲美的技术。这种开放性对于科学进步和技术民主化具有重要意义。研究团队承诺将公开代码、模型和数据,这将进一步加速相关研究的发展。
从更广阔的视角来看,这项研究揭示了AI发展的一个重要趋势:算法创新往往比简单的规模扩张更有价值。OREAL用巧妙的方法设计让小模型展现出大模型的能力,这种效率提升对于资源有限的研究机构和应用场景具有重要价值。
展望未来,OREAL算法还有很大的发展空间。研究团队指出,初始策略模型的质量和训练数据的多样性是影响最终效果的关键因素。随着基础模型和数据质量的不断提升,OREAL的潜力还将进一步释放。
说到底,这项研究最让人兴奋的地方在于它展现的可能性。当我们看到一个相对较小的模型通过巧妙的训练方法就能在数学推理上达到顶尖水平时,我们不禁要问:还有多少看似不可能的突破正在等待着我们?OREAL算法只是一个开始,它打开了强化学习在复杂推理任务中应用的新篇章。对于每一个关注AI发展的人来说,这都是一个值得深入了解的里程碑式成果。
Q&A
Q1:OREAL算法是什么?它是如何让小模型超越大模型的?
A:OREAL是由上海AI实验室开发的强化学习算法,专门用于提升AI的数学推理能力。它的核心创新在于发现在数学推理中,所有正确答案的价值都相同,因此只需要从多次尝试中筛选正确解答进行学习,再通过巧妙的奖励重塑和重要性采样机制,让小模型也能达到大模型的推理水平。
Q2:OREAL算法在数学测试中的具体表现如何?
A:OREAL创造了多项纪录:7B模型在MATH-500测试中达到91.0分,首次让如此小的模型通过强化学习达到这个水平;32B模型更是达到95.0分的新纪录,在多个数学竞赛测试中都超越了OpenAI的o1系列和其他顶尖模型。
Q3:为什么OREAL算法比传统的AI数学训练方法更有效?
A:传统方法面临"稀疏奖励"问题,即只知道最终答案对错,不知道中间步骤的好坏。OREAL通过三个关键创新解决了这个问题:只学习正确解答的行为克隆、针对错误样本的奖励重塑、以及词级重要性评估。这使得AI能够更有效地从成功和失败中学习。
好文章,需要你的鼓励
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。
浙江大学研究团队通过OmniEAR基准测试揭示了当前AI模型在物理世界推理方面的严重缺陷。测试显示,即使最先进的AI在明确指令下能达到85-96%成功率,但面对需要从物理约束推断行动的任务时,成功率骤降至56-85%。研究发现信息过载反而降低AI协作能力,监督学习虽能改善单体任务但对多智能体协作效果甚微,表明当前架构存在根本局限性。
纽约大学和Aimpoint Digital Labs的研究团队首次揭示了Transformer模型训练中"大规模激活"的完整发展轨迹。这些影响力比普通激活大千倍的"超级激活"遵循可预测的数学规律,研究者开发出五参数公式能以98.4%准确率预测其变化。更重要的是,通过调整模型架构参数如注意力密度、宽深比等,可以在训练前就预测和控制这些关键激活的行为,为设计更高效、量化友好的AI模型提供了全新工具。