微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

AI新手也能玩转超强推理：这个2.75B的小模型居然超越了8B大模型！

人工智能强化学习开源模型

AI新手也能玩转超强推理：这个2.75B的小模型居然超越了8B大模型！

作者：科技行者

2025-06-23 11:46

分享至：

Inclusion AI的Ring团队开发了Ring-lite，一个仅有2.75亿活跃参数却能匹敌8亿参数模型的推理AI。该模型采用专家混合架构和创新的C3PO训练方法，在数学竞赛、编程竞赛和科学推理等任务上表现优异，完全开源可免费使用。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-23 11:46 • 科技行者

这项由Inclusion AI的Ring团队开发的研究发表于2025年6月的arXiv预印本平台（论文编号：arXiv:2506.14731v1），有兴趣深入了解的读者可以通过https://github.com/inclusionAI/Ring访问完整论文和代码。研究团队包括众多来自不同背景的研究者，共同致力于让AI推理能力更加高效和易用。

在人工智能快速发展的今天，大模型的推理能力一直是个让人头疼的问题。大家都知道，要让AI像人类一样思考和解决复杂问题，往往需要投入巨大的计算资源。就像要烤出完美的蛋糕，传统做法是准备一个巨大的烤箱，消耗大量电力。但如果有一种神奇的烘焙技术，能让小烤箱做出比大烤箱更棒的蛋糕，那该多好啊！

Ring团队就是在这样的想法下，开发了一个名为Ring-lite的AI模型。这个模型最令人惊叹的地方在于，它只有2.75亿个活跃参数（想象成烤箱里真正工作的加热元件数量），但却能在数学、编程和科学推理任务上匹敌甚至超越那些拥有8亿参数的大模型。这就好比一个小巧的家用烤箱，居然能做出五星级酒店那种大型烤箱才能制作的精美糕点。

更让人兴奋的是，这项研究完全开源，意味着任何对AI感兴趣的人都可以免费获取模型、数据集和训练代码。这就像一位顶级糕点师不仅公开了自己的独门秘方，还手把手教你如何使用这些技巧。对于AI研究领域来说，这种开放性极大地降低了入门门槛，让更多人能够参与到这个激动人心的领域中来。

Ring-lite的核心创新在于采用了一种叫做"专家混合"（MoE）的架构，配合全新的强化学习训练方法。如果把传统的AI模型比作一个全能厨师，那么MoE架构就像是一个专业化的厨师团队——有专门做甜品的、有专门做主菜的、有专门做汤的。当面对具体任务时，只需要调动相关的专家厨师，而不是让全能厨师事无巨细地处理每一个细节。这样既提高了效率，又保证了质量。

一、破解AI训练中的"情绪波动"难题

在训练AI模型的过程中，研究团队发现了一个有趣而棘手的现象，他们称之为"奖励崩溃"。这就像教一个孩子学习，开始时孩子表现很好，但突然某一天开始变得消极怠工，之前学会的技能也开始退化。这种现象在AI训练中非常常见，特别是当使用传统的强化学习方法时。

传统的训练方法存在两个主要问题。第一个问题是"长度偏见"，就像评价学生作文时，如果只看字数而不看质量，短文章的每个字会被过度重视，而长文章的每个字则被低估。在AI训练中，这会导致模型倾向于生成过短或过长的回答，而不是最合适的回答。

第二个问题是"训练不稳定"，就像开车时油门忽轻忽重，导致车子一会儿加速一会儿减速，无法平稳行驶。在AI训练中，这表现为模型的表现忽好忽坏，很难达到稳定的高水平。

为了解决这些问题，研究团队开发了一种名为C3PO（Constrained Contextual Computation Policy Optimization）的新方法。这个名字听起来很复杂，但其实核心思想很简单：就像制定严格的烘焙时间表一样，给AI训练设定固定的"计算预算"。

具体来说，C3PO方法就像是给烤箱设定了固定的烘焙时间。无论是制作简单的饼干还是复杂的多层蛋糕，每次烘焙都使用相同的时间额度。这样做的好处是，烤箱的温度和能耗变得可以预测，不会出现忽高忽低的情况。对应到AI训练中，就是每次训练步骤都使用相同数量的计算资源，让整个训练过程变得稳定可控。

研究团队通过大量实验证明，使用C3PO方法训练的模型不仅更加稳定，而且训练效率也显著提高。这就像找到了完美的烘焙温度和时间组合，不仅能确保每次都能做出高质量的糕点，而且还能节省时间和能源。

另外，研究团队还发现了一个有趣的现象：选择合适的起始模型对最终效果至关重要。他们发现，那些在预训练阶段保持较高"熵值"（可以理解为保持一定随机性和探索能力）的模型，在后续的强化学习训练中表现更好。这就像选择烘焙材料时，新鲜而有活力的酵母比那些已经"死气沉沉"的酵母能制作出更好的面包。

二、解决多领域学习中的"打架"问题

在现实应用中，我们希望AI能够在多个领域都表现出色，比如既能解数学题，又能写代码，还能回答科学问题。但研究团队发现，当试图让一个模型同时学习多个领域的知识时，经常会出现"领域冲突"的问题。

这种现象就像让一个人同时学习中文、英文和法文。如果同时学习，可能会出现语言混淆的情况，说中文时蹦出英文单词，说英文时又混入法文语法。在AI训练中，这表现为模型在数学任务上表现好时，编程能力可能会下降；提升了编程能力后，科学推理能力又可能受影响。

研究团队通过仔细的实验分析发现，简单地把不同领域的训练数据混合在一起并不是最佳方案。相反，他们开发了一种"分阶段训练"的策略，就像学习语言时先专注掌握一门语言的基础，再逐步添加其他语言的学习。

具体来说，他们首先让模型专注学习数学推理任务，等这部分能力稳固之后，再加入编程和科学领域的训练内容。这种方法类似于建造房子时先打好地基，再逐层建设的过程。实验结果显示，这种分阶段的训练方法不仅避免了不同领域知识之间的相互干扰，还让模型在各个领域都达到了更高的水平。

更有趣的是，研究团队发现数学训练似乎为其他领域的学习提供了很好的基础。那些先接受数学训练的模型，在后续学习编程和科学推理时表现得更好。这就像数学为其他学科提供了思维基础一样，让模型的整体推理能力得到了提升。

为了进一步优化多领域学习效果，研究团队还对训练数据的比例进行了精心调配。他们发现，当增加编程和科学领域的训练数据量时，模型的综合表现还能再上一个台阶。最终，他们找到了一个最佳的数据配比，让模型在保持数学和科学推理能力的同时，编程能力也得到了显著提升。

三、构建高质量的训练"食材"库

就像顶级厨师需要精选最优质的食材一样，训练出色的AI模型也需要高质量的数据。Ring团队在数据准备方面投入了大量精力，建立了一套严格的"食材筛选"流程。

他们的训练数据分为两个主要部分。第一部分是"长链条思维"监督训练数据，就像是基础的烹饪教程，教会模型如何进行系统性的思考。这些数据主要来源于开源资源和大语言模型生成的内容，但经过了严格的筛选和清洗。研究团队建立了一套迭代优化的流程，结合自动化模型生成、专家人工标注和筛选机制，确保每一条训练数据都是高质量的。

第二部分是强化学习训练数据，这更像是实战演练的题库。在数学领域，他们从多个开源数据集中精选问题，包括BigMath、DeepScaleR等知名数据集，还从AoPS（Art of Problem Solving）网站爬取了大量数学竞赛题目，并收集了各种学校考试和数学竞赛的真题。经过严格的筛选和清洗，最终形成了超过7.3万个高质量数学问题。

在编程领域，他们从CodeContest、TACO和APPS等编程竞赛资源中筛选题目，还包括QOJ在线评判平台的问题。为了确保数据质量，他们建立了多阶段的过滤流程。首先移除格式不一致的测试用例，如错误的换行符或多余空格，以及被省略号标记的不完整内容。然后，所有"通过"的解决方案都在代码沙盒环境中进行严格验证，剔除那些有外部依赖问题或在扩展测试用例中失败的提交。最终，他们精选了约1.4万个编程样本，每个都配有经过验证的可执行解决方案。

在科学领域，他们采用了三阶段演进策略。最初使用Nemotron-CrossThink和SCP-116K等开源数据集建立基线。随着模型能力提升，他们使用SHARP合成管道生成更具挑战性的可验证问题。但考虑到合成数据的局限性，他们最终采用了第三阶段数据集：来自高级自然科学领域的高难度人工标注科学问题，包括奥林匹克竞赛和研究生水平考试题目。经过严格筛选，最终得到3833个高质量科学问题。

为了确保训练数据的纯净度，研究团队开发了一套全面的数据处理流程。他们首先剔除包含无效字符、图像、多子问题或缺乏有效答案的问题，进行严格的字符级和语义级去重和去污染处理。他们还移除那些无法唯一求解或容易猜测的问题，如多选题和是非题。

在答案验证方面，他们采用了多种方法来确保正确性。使用不同规模的大语言模型生成多个解决方案，基于强化学习训练中使用的验证器计算通过率。同时，他们还邀请人类专家进行人工标注。那些无法通过任何验证方法的问题都被排除在数据集之外。

四、巧妙的奖励机制设计

在强化学习训练中，奖励机制就像是老师给学生的评分标准。Ring团队为不同类型的任务设计了相应的评价体系，确保模型能够准确理解什么样的回答是好的。

对于数学和科学任务，他们采用了基于规则的可验证奖励系统。具体做法是在每个输入问题后添加简短的指导提示："请逐步推理，并将最终答案放在\\boxed{}中。" 然后使用外部验证工具Math-Verify来评估模型回答的正确性。如果答案正确匹配标准答案，就给予1分的奖励；如果错误，则给予0分。由于Math-Verify提供了强大的解析能力，能够很好地处理各种数学符号和表达式，所以他们没有在训练框架中包含任何明确的格式相关奖励。

对于编程任务，他们构建了一个代码沙盒来进行奖励验证。这个沙盒支持多种编程语言的代码执行和在线评判任务，包括Python、C++、Java等。它提供多种执行模式（函数调用、在线评判、单元测试）和交互方式（用于训练的实时SDK/API、用于数据清理的离线批处理），实现了8K/s的吞吐量和亚秒级延迟。

在代码任务的奖励设计上，他们采用了稀疏结果奖励，具体定义为：只有当代码成功通过所有测试用例时才给予1分奖励，否则给予0分。这种方法与那些为不完整或部分正确的解决方案提供部分分数的增量奖励系统形成鲜明对比。通过采用这种策略，他们确保模型被激励去全面理解问题，而不是专注于表面的测试用例。这防止了模型简单地重复公开测试用例的答案或过度拟合琐碎的边缘情况，鼓励了更稳健和全面的问题解决方法。

五、完整的训练流水线

Ring-lite的训练过程就像制作一道复杂菜肴的完整流程，需要经过四个精心设计的阶段。每个阶段都有其特定的目标和作用，最终合力打造出这个高性能的推理模型。

第一个阶段是长链条思维监督微调，就像是教学生基本的解题思路和方法。在这个阶段，他们使用精心构建的长链条思维数据集对基础模型进行训练，目标是直接将大型教师模型的推理能力传授给小规模的基础模型。研究团队发现，通过这种精心策划的推理数据训练，蒸馏模型的推理能力可以得到进一步增强。

第二和第三阶段是分两步进行的强化学习训练。研究团队发现，直接在混合推理数据上应用强化学习容易出现领域冲突，导致性能下降。因此，他们提出采用两阶段强化学习训练流程：首先在数学数据集上运行强化学习训练，然后在后续的强化学习训练中加入编程和科学数据集。这种方法在实验中证明能够有效保持各个不同领域的推理能力。

第四个阶段是通用监督微调，目的是增强模型在各种通用任务中的能力，如指令遵循、创意写作、安全性等。由于长链条思维监督微调和两阶段强化学习训练都专注于提高推理任务的性能，因此他们额外包含了通用监督微调阶段来增强模型在各种一般任务中的能力。

在训练设置方面，他们采用了AdamW优化器，权重衰减为0.1，学习率为3e-4，遵循余弦衰减调度，包含1%的线性预热。训练配置包括256的批大小，进行3个轮次的训练。为了促进长上下文推理，他们将模型的上下文窗口设置为32,768个token，并将RoPE基础调整为600,000以提高稳定性。

在强化学习训练中，他们使用C3PO方法，批大小L为512，每个提示采样K=16个响应，采用学习率为3e-6的AdamW优化器。token预算参数设置为409600。最大总长度配置为24576，在编程和科学训练的第二阶段扩展到32768。他们设置了各种损失系数：熵损失系数为5e-4、负载平衡损失系数为1e-5、路由器z损失系数为1e-7、KL损失系数为1e-3。所有实验都在256块NVIDIA H800 GPU上进行。

六、令人瞩目的实验成果

Ring-lite在各种推理基准测试中的表现令人印象深刻，充分证明了这个小而精的模型的强大能力。研究团队选择了多个具有挑战性的评估维度来全面测试模型的能力。

在数学推理方面，他们使用了MATH-500、AIME 2024、AIME 2025、CNMO 2024、LiveMathBench和MinervaMath等基准测试。这些测试涵盖了从基础数学到竞赛级别的各种难度层次。在编程能力方面，他们采用了LiveCodeBench和Codeforces等编程竞赛平台的题目进行评估。在科学推理方面，他们使用了GPQA Diamond和OlympiadBench等高难度科学问题集。

实验结果令人振奋。Ring-lite在AIME2024和AIME2025这两个极具挑战性的数学竞赛基准上分别取得了76.61%和69.11%的优异成绩。在编程任务上，它在LiveCodeBench和Codeforces上分别达到了60.66%和86.45%的成绩。在科学推理方面，它在GPQA-diamond这个研究生级别的科学问答基准上取得了61.05%的分数。

更令人惊讶的是，Ring-lite仅使用2.75亿个活跃参数就达到了这样的性能水平，这意味着它能够匹配或超越那些需要三倍参数量的可比模型。与最近的竞争性推理模型相比，Ring-lite在约10亿参数的模型中建立了新的性能标杆，甚至在某些任务上超越了Qwen3-8B-Thinking这样的8亿参数强基线模型。

特别值得注意的是，Ring-lite相比于之前发布的蒸馏MoE模型Ring-lite-distill-preview，在所有基准测试上都显著提高了推理性能，进一步证明了他们训练流程的优越性。这种性能提升不是通过简单增加模型大小实现的，而是通过更智能的训练方法和更好的数据利用实现的。

七、深入的训练过程洞察

研究团队通过大量实验深入分析了训练过程中的各种现象，获得了许多有价值的洞察。这些发现不仅对理解Ring-lite的成功至关重要，也为未来的研究提供了重要指导。

关于训练稳定性，他们发现在蒸馏模型的强化学习训练中，奖励轨迹会在几个训练步骤后出现急剧下降，无法恢复到基线水平，最终导致完全的训练崩溃。通过严格的实验诊断，他们识别出影响强化学习训练稳定性的两个关键因素：模型熵（量化蒸馏模型中的策略退化）和响应长度波动（衡量序列生成不稳定性的指标）。

他们发现，监督微调训练轮次的数量与强化学习训练中的奖励崩溃之间存在系统性依赖关系：训练轮次更多的模型会更早经历崩溃。这种趋势伴随着熵损失的同步降低，揭示了熵损失幅度与强化学习训练稳定性之间的强反向相关性。这些结果表明，监督微调期间较低的熵损失对应于后续强化学习阶段更高的奖励崩溃倾向，暗示这些变量之间存在统计学显著的反向关系。

在响应长度波动方面，他们观察到生成长度在训练步骤中表现出很大的可变性，导致训练token大小的显著波动。这些不稳定的token训练大小极大地影响了优化稳定性，表现为梯度范数的明显增加和偶尔的尖峰，最终导致灾难性的奖励崩溃。

关于蒸馏与强化学习之间的token效率权衡，他们发现虽然蒸馏是有效的，但它需要比强化学习多得多的训练token才能达到可比的性能。根据经验，在他们的强化学习训练设置中，选择熵损失在0.3-0.5范围内的检查点能够产生最佳结果。低于此阈值的熵损失限制了模型探索，减少了学习解决更具挑战性问题的机会；而过高的熵损失则导致收敛较慢和模型性能降低。

在多领域学习方面，他们发现将来自数学和编程领域的推理数据集简单结合并不能带来跨不同领域的性能提升。相反，混合数据集无法超越专门在数学或编程数据集上训练的模型。值得注意的是，仅在数学上训练的实验结果显示，无论模型架构配置如何，数学专用训练在编程基准测试上的表现都优于编程专用训练。然而，这一观察并不适用于DeepSeek衍生模型，表明强化学习训练的性能可能受到监督微调期间长链条思维数据的强烈影响。

为了解决这些域间冲突，他们开发了两阶段训练策略。首先仅使用数学数据集进行强化学习实验，然后应用科学和编程数据集的强化学习。实验结果表明，这种两阶段训练策略显著提高了AIME25和LiveCodeBench等具有挑战性推理基准的下游性能。通过将编程和科学训练数据量增加一倍，他们在数学和科学基准测试上都实现了平均1%的性能提升。

总的来说，Ring-lite的成功不仅在于其优异的性能表现，更在于研究团队对训练过程的深入理解和系统性优化。他们不仅解决了传统强化学习训练中的稳定性问题，还找到了在有限计算资源下实现最佳性能的方法。这种"小而精"的设计理念为未来的AI模型开发指明了一个新的方向，证明了通过智能的设计和训练方法，完全可以用更少的资源实现更好的效果。

Ring-lite的开源发布更是为整个AI研究社区带来了宝贵的资源。无论是学术研究者还是工业界的开发者，都可以基于这个模型和相关技术继续探索和创新。这种开放共享的精神不仅推动了技术进步，也体现了AI研究应该服务于更广泛群体的理念。

说到底，Ring-lite的意义远不止于一个性能优异的AI模型。它代表了一种新的思路：在追求更强AI能力的路上，我们不一定要走"越大越好"的路线，而是可以通过更聪明的方法实现更好的效果。这就像烹饪艺术一样，最好的菜肴往往不是用最贵的食材，而是通过精湛的技艺将普通食材变成美味佳肴。Ring-lite正是这样一个例子，它用更少的参数和更智能的训练方法，为我们展示了AI发展的另一种可能性。

Q&A

Q1：Ring-lite是什么？它和其他AI模型有什么不同？ A：Ring-lite是一个专门用于推理任务的AI模型，采用了"专家混合"架构。它的特别之处在于只用2.75亿个活跃参数就能达到甚至超越8亿参数模型的性能，就像小烤箱做出大烤箱的效果。而且完全开源，任何人都可以免费使用。

Q2：C3PO训练方法解决了什么问题？ A：C3PO主要解决了AI训练中的"情绪波动"问题。传统方法训练时模型表现忽好忽坏，还容易出现"奖励崩溃"。C3PO通过设定固定的计算预算，就像给烤箱设定固定烘焙时间一样，让训练过程变得稳定可控，大大提高了训练效率和模型性能。

Q3：普通人能使用Ring-lite吗？有什么实际应用？ A：可以！Ring-lite完全开源，代码和模型都可以在GitHub上免费获取。它特别擅长数学推理、编程和科学问题解答，可以用于教育辅助、代码生成、科研助手等场景。由于参数量小，对硬件要求也相对较低，更容易部署和使用。

人工智能强化学习开源模型

分享至