这项由越南国立大学和新加坡Knovel工程实验室的研究人员Quy-Anh Dang和Chris Ngo共同完成的研究发表于2025年3月,论文题为《Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't》。有兴趣深入了解的读者可以通过arXiv:2503.16219v1访问完整论文。
当我们谈论人工智能的推理能力时,大多数人会想到那些需要巨大计算资源的大型模型,比如GPT-4或Claude。这些模型虽然表现出色,但就像需要整个发电厂供电的超级计算机一样,普通人根本无法负担。而这项研究却告诉我们一个令人兴奋的消息:即使是相对"小巧"的模型,也能通过巧妙的训练方法展现出惊人的推理能力。
研究团队选择了一个只有15亿参数的模型DeepSeek-R1-Distill-Qwen-1.5B作为实验对象。要知道,这个模型的"体型"只有那些明星模型的几十分之一,就像拿一辆小轿车去挑战重型卡车的工作。更有趣的是,他们给自己设定了极其严格的限制条件:只能使用4块NVIDIA A40 GPU(每块48GB显存),而且必须在24小时内完成所有训练工作。这种限制就像要求一个厨师只用家用厨房设备在一天内完成米其林餐厅的菜品制作。
然而,结果却让人刮目相看。经过精心训练的小模型在数学推理任务上的表现令人惊叹:AMC23测试的准确率从63%飙升到80%,AIME24测试更是达到了46.7%的准确率,甚至超过了OpenAI的o1-preview模型(44.6%)。更令人震惊的是,整个训练过程只花费了42美元,而那些基准模型往往需要数千美元的训练成本。这就像用普通家用烤箱烤出了专业面包店水准的面包,成本却只是后者的零头。
研究团队采用了一种名为Group Relative Policy Optimization(GRPO)的强化学习算法。这种方法的巧妙之处在于,它不需要训练额外的"评价模型"来判断答案的好坏,而是通过比较同一组答案中的表现来进行学习。这就像让学生们在班级内部相互比较成绩,而不需要外请专家来逐一评判,既节省了资源又提高了效率。
为了让训练更加高效,研究团队精心准备了一个高质量的数学推理数据集。他们从两个现有数据集s1和DeepScaleR中筛选出39,659个高质量的数学问题。这个筛选过程就像从海量食材中挑选最新鲜、最适合的原料,确保每一道"菜"都能发挥最大的营养价值。
一、小模型的"速成班":快速提升但有隐患
研究团队进行的第一个实验就像给小模型报了一个"数学推理速成班"。他们使用了18,615个高质量数学问题对模型进行训练,每个问题的答案最多允许4096个字符长度。
令人惊喜的是,这个"速成班"的效果立竿见影。在最初的50到100个训练步骤中,模型的表现就出现了显著提升。AMC23测试的准确率从63%跳升到70%,MATH-500测试也从83%提升到84%。这就像一个原本数学成绩平平的学生,经过几天密集训练就开始在考试中表现出色。
然而,好景不长。当训练进行到200步之后,问题开始出现。模型的准确率开始下滑,AMC23测试跌破60%,MATH-500也回落到80%。更奇怪的是,模型开始产生一些难以理解的内容,甚至开始用其他语言回答问题。这种现象就像学生在考试压力过大时开始胡言乱语,完全偏离了正常的答题轨道。
通过仔细分析,研究团队发现了问题的根源。许多复杂的数学问题需要很长的推理过程才能得出答案,但4096字符的限制就像给学生的答题纸张设定了严格的篇幅限制。当遇到特别复杂的问题时,模型往往在还没有完成完整推理就已经"写满"了允许的空间,导致答案被强制截断。
更深层的问题在于,模型在长时间训练过程中开始"钻空子"。为了在有限的字符空间内完成任务,它开始采用一些投机取巧的方式,比如缩短推理过程或者用其他语言来"节省空间"。这种行为就像考试时间不够的学生开始胡乱填写答案,虽然表面上完成了任务,但实际质量大幅下降。
从这个实验中,研究团队得出了第一个重要发现:小模型确实可以在短时间内实现显著的推理能力提升,但在严格的长度限制下进行长时间训练会导致性能退化。这就像短期冲刺训练可能带来快速进步,但过度训练在限制条件下反而会适得其反。
二、难易搭配的"营养餐":稳定性的提升
基于第一个实验的经验,研究团队开始思考一个关键问题:是否可以通过调整训练"食谱"来解决稳定性问题?他们的想法很直观,就像营养师会建议在日常饮食中搭配不同类型的食物一样,也许在训练数据中混合简单和困难的问题能够帮助模型更好地学习。
于是,他们精心配制了一个包含7000个问题的"营养均衡"数据集:3000个来自筛选后的s1数据集(相对较难),3000个来自筛选后的DeepScaleR数据集(中等难度),还有1000个来自原始DeepScaleR数据集的较简单问题。这种搭配就像为学生准备的练习册,既有基础题巩固信心,也有进阶题挑战能力,还有顶级难题拓展思维。
同时,他们还将最大回答长度从4096字符降低到3584字符,并保持了准确性和格式奖励机制。这种调整就像给学生的答题纸稍微缩小一点,迫使他们更加简洁地表达思路。
这次调整带来了显著的改善。模型的初始回答长度降低到约2800字符,这表明它学会了更加简洁地表达推理过程。更重要的是,性能提升幅度更大:AMC23测试从63%跃升到80%,MATH-500测试从83%提升到85%,而且这种提升同样出现在前50到100个训练步骤内。
这种改善的原理很容易理解。简单问题就像热身运动,让模型逐渐适应推理的节奏和格式要求。它们教会模型如何在有限的空间内清晰地表达思路,如何组织逻辑结构。而困难问题则像力量训练,挑战模型处理复杂推理链的能力。中等难度的问题则起到承上启下的作用,帮助模型在不同难度之间平稳过渡。
然而,即使有了这种改进,长期稳定性问题仍然存在。在150到200个训练步骤之后,模型的表现再次开始下滑,KL散度(一个衡量模型行为变化的指标)变得不稳定,多语言输出问题也再次出现。这说明虽然"营养搭配"策略在短期内效果显著,但长期的根本性挑战仍然没有完全解决。
不过,这个实验验证了一个重要假设:在减少长度限制的同时混合不同难度的问题,确实能够提升早期性能并在一定程度上稳定推理行为。这为后续的优化指明了方向。
三、精准控制的"智能教练":长度管理的艺术
面对前两个实验中出现的长度控制问题,研究团队决定采用一种更加精细的方法。他们引入了一种名为"余弦奖励"的机制,这种方法就像一个智能的私人教练,不仅关注学生答题的正确性,还会根据答案的长度给出相应的奖励调整。
余弦奖励的工作原理很巧妙。当模型给出正确答案时,如果答案比较简洁,它会获得更高的奖励;如果答案冗长但正确,奖励会相应减少,但不会完全取消。对于错误答案,如果比较简短,惩罚会相对温和;如果又错又长,惩罚就会比较严重。这种机制就像一个既重视结果又注重效率的老师,鼓励学生用最简洁的方式表达正确的思路。
为了进一步解决多语言输出问题,研究团队还在系统提示中添加了一条明确指令:"仅用英语回答,不要使用其他语言"。虽然这种方法看起来简单,但避免了设计和训练专门的语言奖励系统所需的额外计算资源。
实验结果显示,余弦奖励确实发挥了预期的作用。模型的回答长度被很好地控制在1000到3500字符之间,相比第二个实验的2000到3500字符范围,控制效果明显改善。这种稳定性的提升就像给一辆原本时快时慢的汽车安装了巡航控制系统,让速度保持在合理范围内。
在性能方面,虽然提升幅度相比第二个实验稍有减少,但仍然实现了稳定的改善。AMC23测试从基线的63%提升到72.5%,MATH-500测试从83%提升到84.4%。更重要的是,这种提升在50个训练步骤内就能实现,显示出良好的训练效率。
然而,多语言问题并没有完全消失。在200个训练步骤之后,模型仍然偶尔会产生混合语言的内容。这反映了一个深层次的挑战:DeepSeek-R1-Distill-Qwen-1.5B本身就是一个多语言模型,它的"多语言基因"深深嵌入在模型的参数中,仅通过简单的文字指令很难完全抑制这种倾向。
这个实验让研究团队认识到,余弦奖励在稳定训练过程方面确实有效,能够显著改善训练的一致性。但同时也表明,对于某些极其困难的任务,可能需要放宽长度限制才能让模型有足够的"思考空间"来完成复杂的推理过程。
更深层的启示是,在使用多语言基础模型进行特定任务微调时,需要考虑更加系统性的语言控制策略,或者在任务允许的情况下适当延长回答长度限制,为复杂推理提供足够的表达空间。
四、全面对比:小模型的惊艳表现
完成三个实验后,研究团队从每个实验中选择了表现最佳的检查点,分别命名为Open-RS1(第一个实验的100步检查点)、Open-RS2(第二个实验的50步检查点)和Open-RS3(第三个实验的50步检查点)。这三个模型就像三个不同训练方案培养出的学生,每个都有自己的特色和优势。
为了全面评估这些模型的表现,研究团队选择了五个不同的数学推理测试:AIME24(30道2024年美国数学邀请赛问题)、MATH-500(500道来自各种数学竞赛的问题)、AMC23(40道2023年美国数学竞赛问题)、Minerva(272道本科水平的跨学科科学问题)和OlympiadBench(675道奥林匹克水平的数学和物理问题)。
当这些"小个子"模型与各种"大块头"模型同台竞技时,结果令人刮目相看。Open-RS1获得了53.0%的平均分,Open-RS2达到了55.7%,而Open-RS3更是取得了56.3%的优异成绩。作为对比,一直被视为标杆的DeepScaleR-1.5B-Preview获得了57.0%的平均分。
更令人惊喜的是,在某些特定测试中,这些小模型甚至超越了业界顶尖的大模型。Open-RS3在AIME24测试中获得了46.7%的准确率,不仅超过了OpenAI的o1-preview(44.6%),也超过了DeepScaleR-1.5B-Preview(43.1%)。这就像一个中学生在数学竞赛中击败了大学生,让人不得不重新审视小模型的潜力。
在AMC23测试中,Open-RS2表现最为出色,达到了80.0%的准确率,远超许多7B模型的表现。这种跨越式的成功证明了精心设计的训练策略可以在很大程度上弥补模型规模的不足。
然而,在Minerva测试中,所有Open-RS模型的表现都相对较弱,这反映出小模型在处理跨学科推理任务时仍然存在局限性。这种现象就像专门训练数学的学生在面对需要综合多学科知识的题目时会感到吃力。
从成本效益角度来看,Open-RS系列模型的优势更加明显。整个训练过程使用了7000个样本,每个样本生成6个候选答案,总共42000个训练样本,在4块A40 GPU上用24小时完成训练,总成本约42美元。相比之下,7B模型如Qwen2.5-7B-SimpleRL需要1633美元,Eurus-2-7B-PRIME需要1088美元,而1.5B模型如DeepScaleR-1.5B-Preview更是需要3629美元,Still-3-1.5B-Preview需要2268美元。
这种成本对比就像用经济型轿车的价格买到了豪华车的性能,展现出了小模型经过精心训练后的巨大性价比优势。研究团队用最少的资源实现了接近甚至超越大型模型的性能,这对于资源有限的研究机构和个人开发者来说具有重要意义。
数据效率方面的对比同样令人印象深刻。DeepScaleR-1.5B-Preview使用了40万×16的样本量,Still-3-1.5B-Preview使用了3万×8的样本量,而Open-RS系列仅使用了7000×6的样本量。这种差异就像一个学生只用了其他人十分之一的练习题就达到了同样的成绩,充分说明了高质量数据和优化训练策略的重要性。
五、深度剖析:成功背后的关键因素
通过对三个实验的深入分析,研究团队识别出了几个关键的成功因素,这些发现对于理解小模型推理能力的提升具有重要价值。
首先是数据质量的重要性。研究团队发现,相比于使用海量低质量数据进行训练,精心筛选的高质量数据集能够实现更好的训练效果。他们的39659个数学问题经过了多轮筛选和质量控制,就像厨师会精心挑选食材一样,每一个问题都确保具有足够的挑战性和教学价值。这种做法验证了"质量胜过数量"的训练理念。
其次是训练策略的精细化设计。GRPO算法的选择并非偶然,它避免了训练额外评价模型的需要,从而大大降低了计算成本。这种算法通过组内比较的方式进行学习,就像让学生在小组内相互学习和竞争,既保持了学习的动力,又避免了外部评价系统的复杂性。
奖励机制的设计也体现了精妙的平衡艺术。准确性奖励确保模型关注答案的正确性,格式奖励帮助模型学会规范的表达方式,而余弦奖励则在正确性和简洁性之间找到了平衡点。这三种奖励机制的结合就像一个多维度的评价体系,引导模型朝着理想的方向发展。
训练节奏的控制同样至关重要。研究团队发现,最佳的性能提升往往出现在训练的早期阶段(50-100步),而过度训练反而会导致性能退化。这种现象类似于运动训练中的"过度训练综合征",提醒我们在机器学习中也需要把握适度的训练强度和时长。
难度梯度的设计体现了教育学的智慧。第二个实验中混合不同难度问题的策略,实际上是机器学习版本的"因材施教"。简单问题帮助模型建立信心和基础技能,中等难度问题提供适度挑战,困难问题则推动能力边界的扩展。这种渐进式的学习方式符合认知科学的基本原理。
长度控制的重要性在所有实验中都得到了体现。过短的回答限制会截断复杂推理过程,而过长的限制又可能导致模型产生冗余内容。找到合适的长度平衡点就像调节乐器的音调,需要在限制和自由之间找到最佳的平衡。
最后,基础模型的选择也影响了最终效果。DeepSeek-R1-Distill-Qwen-1.5B作为一个多语言模型,虽然带来了语言漂移的挑战,但也为模型提供了丰富的语言理解能力基础。这种选择体现了在机器学习中经常需要面对的权衡:更强的基础能力往往伴随着更复杂的控制挑战。
六、挑战与局限:真实世界的复杂性
尽管Open-RS系列模型取得了令人瞩目的成果,但研究团队也诚实地指出了实验过程中遇到的各种挑战和局限性,这些发现对于理解小模型推理能力提升的边界同样具有重要价值。
最明显的限制来自于计算资源的约束。24小时的训练时间窗口就像给马拉松运动员设定了严格的完赛时间,虽然增加了挑战的紧迫感,但也限制了深度探索的可能性。在第一个实验中,理论上完整的一个训练周期需要1500个全局步骤,但资源限制只允许完成500步。这种情况就像一个学生只完成了三分之一的课程就要参加期末考试,虽然取得了不错的成绩,但我们无法知道完整训练会带来怎样的效果。
长度限制问题在所有实验中都表现得很突出。4096字符(第一个实验)或3584字符(后两个实验)的回答长度对于某些复杂数学问题来说确实不够用。这就像要求学生用固定长度的答题纸解决所有问题,简单题目绰绰有余,但复杂题目可能需要更多空间来展开完整的推理过程。研究团队观察到,当模型遇到特别困难的问题时,往往在还没完成完整推理就已经达到了长度限制,导致答案被强制截断。
多语言漂移问题反映了使用预训练多语言模型的固有挑战。DeepSeek-R1-Distill-Qwen-1.5B在预训练阶段接触了大量不同语言的文本,这种"多语言记忆"就像一个从小生活在多语言环境中的孩子,即使试图只用一种语言表达,也会不自觉地混入其他语言的词汇和表达方式。研究团队尝试通过文字指令来约束这种行为,但效果有限,说明深层的模型行为很难通过简单的表面指令完全改变。
优化稳定性是另一个持续性挑战。在所有三个实验中,模型在150-200个训练步骤后都会出现性能退化现象,KL散度变得不稳定,输出质量下降。这种现象类似于学生学习过程中的"学习高原期"或"倦怠期",表明当前的训练策略在长期稳定性方面还有改进空间。
评估范围的局限性也不容忽视。研究团队的评估主要集中在数学推理领域,虽然数学推理确实是衡量模型逻辑思维能力的重要指标,但我们还不知道这些训练策略在其他领域(如科学推理、常识推理、创意写作等)的效果如何。这就像只在一个科目上取得好成绩,还不能完全证明学习方法在所有科目上都有效。
硬件限制也带来了一些意想不到的约束。4块A40 GPU的配置限制了并行采样的数量(每步只能生成6个候选答案),这可能影响了模型探索不同解题策略的能力。更强的硬件配置可能允许更大的批处理大小和更多的候选答案生成,从而带来更好的训练效果。
数据集的特异性也是一个需要考虑的因素。虽然研究团队精心筛选了39659个高质量数学问题,但这些问题主要来自特定的竞赛和学术环境,可能与实际应用场景中遇到的问题存在差异。模型在标准化测试中的优异表现能否转化为解决真实世界问题的能力,还需要进一步验证。
最后,可重现性方面也存在一些挑战。虽然研究团队承诺开源代码和数据集,但整个训练过程涉及多个随机因素,包括模型初始化、数据抽样顺序、硬件特性等,这些因素都可能影响最终结果的重现性。
七、未来展望:小模型的无限可能
基于这项研究的发现,我们可以展望小模型在推理能力提升方面的广阔前景,同时也能识别出一些亟待解决的重要研究方向。
从技术发展的角度来看,这项研究开启了一个令人兴奋的可能性:也许我们不需要总是追求更大、更复杂的模型来获得更好的推理能力。通过精心设计的训练策略和高质量的数据,相对小型的模型也能在特定任务上达到甚至超越大型模型的表现。这种发现就像证明了小型精品咖啡店可以制作出比大型连锁店更好的咖啡一样,关键在于专注和精细化。
在实际应用层面,小模型的成功意味着更多组织和个人能够负担得起高质量的AI推理能力。一个只需要42美元训练成本的模型,相比需要数千美元的替代方案,大大降低了技术门槛。这种成本优势可能会促进AI技术的民主化,让更多中小企业、研究机构甚至个人开发者能够开发和部署自己的推理系统。
数据效率的提升也带来了重要启示。传统观念认为,更好的AI性能需要更多的数据,但这项研究证明了"数据质量胜过数量"的理念。7000个精心筛选的高质量样本能够实现比数十万低质量样本更好的效果,这为数据稀缺领域的AI应用提供了新的思路。
训练策略的创新展现了巨大的潜力空间。GRPO算法避免了额外评价模型的需要,而余弦奖励机制在正确性和简洁性之间找到了巧妙平衡。这些创新只是冰山一角,未来可能还有更多创新的训练方法等待发现,进一步提升小模型的性能。
然而,一些关键挑战仍需要系统性的解决方案。长度控制问题提示我们需要开发更加灵活的训练框架,能够根据问题的复杂程度动态调整回答长度限制。多语言漂移问题则需要更加精细的语言控制技术,可能需要在模型架构层面进行创新。
优化稳定性的挑战指向了一个更深层的问题:如何在长期训练中保持性能的持续改进而不出现退化。这可能需要借鉴其他机器学习领域的经验,比如课程学习、元学习或者持续学习等技术。
跨领域泛化能力是另一个重要的研究方向。虽然当前研究主要关注数学推理,但相同的方法是否能够应用到科学推理、常识推理、创意生成等其他领域,还需要大量的实验验证。如果能够证明这些方法的通用性,将大大扩展小模型的应用范围。
个性化和定制化也是一个有前景的方向。小模型的训练成本相对较低,这使得为特定用户或应用场景定制专门的推理模型变得可能。企业可以根据自己的具体需求训练专门的模型,而不需要依赖通用的大型模型。
从更宏观的角度来看,这项研究可能会影响整个AI行业的发展方向。如果小模型能够在越来越多的任务上与大模型匹敌,这可能会推动研究重心从"更大"向"更智能"转移,促进更多创新性算法和训练方法的出现。
环境影响方面,小模型的成功也具有重要意义。大型模型的训练和运行消耗大量电力,对环境造成不小的负担。如果小模型能够在保持性能的同时大幅降低能耗,这将有助于AI技术的可持续发展。
最终,这项研究向我们展示了一个重要道理:在人工智能领域,创新往往比简单的规模扩展更重要。通过巧妙的方法设计、精心的数据准备和细致的训练策略,我们可以用有限的资源实现令人惊喜的效果。这种思路不仅适用于学术研究,也为产业应用提供了新的可能性。
说到底,这项研究告诉我们,在人工智能的世界里,"小而美"同样可以是一种成功的策略。就像精品手工制作的产品往往比大规模工业生产的产品更受欢迎一样,经过精心训练的小模型也能在特定任务上展现出超越大模型的能力。这种发现不仅为资源有限的研究者和开发者带来了希望,也为整个AI行业指明了一个更加多元化和可持续的发展方向。
研究团队已经将他们的代码和数据集开源,任何对此感兴趣的读者都可以通过GitHub(https://github.com/knoveleng/open-rs)获取完整的实现细节,这种开放的态度进一步推动了知识的传播和技术的民主化。相信随着更多研究者的参与和改进,小模型的推理能力还会有更大的突破空间。
Q&A
Q1:Open-RS模型是什么?它有什么特别之处? A:Open-RS是研究团队基于15亿参数的DeepSeek-R1-Distill-Qwen-1.5B模型,通过强化学习训练出的推理模型。它的特别之处在于用极低成本(42美元)和很少数据(7000个样本)就实现了媲美甚至超越大型模型的数学推理能力,在AIME24测试中甚至超过了OpenAI的o1-preview模型。
Q2:为什么小模型能够击败大模型?训练有什么秘诀? A:关键在于精心设计的训练策略,而不是模型规模。研究团队使用了高质量的数据筛选、巧妙的GRPO强化学习算法、合理的奖励机制设计,以及难易题目的合理搭配。就像精品店的个性化服务可以超越大型商场一样,专门化的训练方法能让小模型在特定任务上表现出色。
Q3:普通人或小企业能使用这种技术吗?门槛高不高? A:门槛相对较低。整个训练只需要4块A40 GPU和24小时时间,成本约42美元,相比传统方法需要数千美元大大降低了门槛。研究团队已经开源了所有代码和数据,任何有基本技术能力的个人或小企业都可以尝试复现和改进这个方法。
好文章,需要你的鼓励
这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题:如何让AI既能写出高质量内容,又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法,他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感,最终训练出的模型在保持顶级质量的同时,创作多样性接近人类水平,为AI创意写作开辟了新方向。
上海AI实验室联合多所高校开发出VisualPRM系统,这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程,显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准,实现了在七个推理基准上的全面性能提升,即使是最先进的大型模型也获得了5.9个百分点的改进。
上海AI实验室团队通过LEGO积木设计了创新评测基准LEGO-Puzzles,系统测试了20个先进多模态大语言模型的空间推理能力。研究发现即使最强AI模型准确率仅57.7%,远低于人类93.6%的表现,揭示了当前AI在三维空间理解和多步序列推理方面的重大不足,为机器人、自动驾驶等应用发展提供重要参考。
字节跳动团队突破了AI图像生成领域的三大难题:身份识别不准确、文字理解偏差和图片质量不佳。他们开发的InfiniteYou技术采用创新的InfuseNet架构和多阶段训练策略,能够根据用户照片和文字描述生成高质量个性化图像。实验显示该技术在身份相似度、文本匹配度和图像质量方面均超越现有最佳方案,并具备出色的兼容性,为个性化内容创作开辟了新道路。