微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 Inclusion AI推出万亿参数思维模型Ring-1T:首个开源的超大规模推理引擎如何重塑AI思考边界

Inclusion AI推出万亿参数思维模型Ring-1T:首个开源的超大规模推理引擎如何重塑AI思考边界

2025-12-12 10:06
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-12-12 10:06 科技行者

这项由Inclusion AI团队完成的突破性研究发表于2025年1月,论文编号arXiv:2510.18855v1。该研究首次向全世界公开了一个拥有万亿参数的开源"思维模型"Ring-1T,标志着人工智能推理能力迈入了全新的历史阶段。

要理解这项研究的重大意义,我们需要先明白什么是"思维模型"。传统的AI就像一个反应迅速但思考浅显的学生,遇到问题时会立即给出答案,但这个答案往往缺乏深度思考。而思维模型更像一个深思熟虑的学者,它会在内心进行详细的推理过程,一步步分析问题,权衡各种可能性,然后才给出最终答案。这种"内在思考"的过程被称为Chain-of-Thought,就像我们人类解决复杂问题时的思维链条。

Ring-1T的"万亿参数"规模听起来很抽象,但我们可以这样理解:如果把AI模型比作一个巨大的图书馆,那么参数就像是图书馆里的书籍数量。Ring-1T相当于拥有一万亿本书的超级图书馆,是目前同类开源模型中规模最大的。更令人惊讶的是,虽然它有万亿参数的总容量,但在处理每个问题时只需要"翻阅"其中的500亿本书,这就像一个智能的图书管理员能够迅速找到最相关的资料,既保证了答案质量又提高了效率。

这个模型在各种高难度测试中表现出色得令人惊叹。在2025年美国数学邀请赛(AIME-2025)中获得93.4分,在哈佛-麻省理工数学竞赛(HMMT-2025)中得到86.72分,在编程竞赛CodeForces中达到2088分的高分,在抽象推理挑战ARC-AGI-v1中获得55.94分。最引人注目的是,它在2025年国际数学奥林匹克竞赛(IMO-2025)中达到了银牌水平,这相当于在全球最顶尖的数学竞赛中获得了世界前列的成绩。

Ring-1T的训练过程就像培养一个天才学生。研究团队首先给它进行了"长链条思维"的监督学习,就像教一个学生如何进行详细的解题步骤。这个阶段使用了大量涵盖数学、编程、科学等领域的高质量训练数据,其中数学占46%,STEM科学占26%,编程占20%,其他领域占8%。

接下来进入了更加关键的强化学习阶段,这就像让学生通过不断练习和反馈来提升自己。研究团队设计了两个阶段的强化学习:第一阶段专注于推理能力,使用可验证的数学、编程、科学和逻辑问题进行训练;第二阶段则注重综合能力,包括人类偏好对齐、指令遵循、创意写作、安全性等方面。

一、突破万亿参数训练的三大核心技术创新

在万亿参数模型的训练过程中,研究团队遇到了前所未有的技术挑战,就像要建造一座比珠穆朗玛峰还高的摩天大楼。为了解决这些挑战,他们开发了三项interconnected innovations:IcePop、C3PO++和ASystem框架。

IcePop技术解决的是训练过程中的"失调"问题。在强化学习过程中,负责训练的"引擎"和负责推理的"引擎"往往会产生微妙的差异,就像两个厨师用同样的食谱做菜,但最终味道却略有不同。这种看似微小的差异在万亿参数的复杂模型中会被无限放大,最终导致训练过程变得极不稳定,就像多米诺骨牌效应一样。

研究团队通过数学分析发现,这种差异会随着训练步骤呈指数级增长。他们提出的定理表明,如果用δt表示第t步时的差异程度,那么δt+1 ≥ (1 + η/2 μ) δt,其中η和μ是相关的常数。这意味着即使很小的初始差异也会快速积累成为严重问题。

IcePop的解决方案类似于一个精明的质量检查员。它会检查每个训练更新中的"token"(可以理解为文本的最小单位),如果发现某个token的概率差异过大,就会将其"冷冻"起来,不让它参与这次的训练更新。具体来说,IcePop设定了一个接受范围[α, β],通常α=0.5,β=5。只有那些概率比值在这个范围内的token才被允许参与训练,其他的都被"丢弃"或"弹出"(这也是"Pop"名称的由来)。

在实际训练中,IcePop通常只需要"冷冻"1-2‰的token,就能有效稳定整个训练过程。被冷冻的这些token往往具有更高的信息熵,说明它们确实是那些可能引起不稳定的"问题分子"。通过这种精确的筛选,整个训练过程变得稳如磐石。

C3PO++技术则解决了长序列生成时的效率瓶颈。思维模型需要生成很长的"思考过程",有些可能达到几万个字符。传统的训练方法就像一个效率低下的工厂流水线,必须等一个产品完全制造完成才能开始下一个,这导致大量计算资源闲置。

C3PO++引入了"动态预算分配"的概念,就像一个智能的项目经理。它设定了一个"token预算"(比如说每次训练使用100万个token),然后可以灵活地分配这些预算。如果某个序列生成时间过长,系统不会傻等,而是会暂停这个序列,把计算资源分配给其他序列。当新的训练轮次开始时,之前暂停的序列会被恢复并继续生成。

这种方法的巧妙之处在于它实现了"跨版本缓存"。即使模型参数在训练过程中发生了更新,那些未完成的序列仍然可以被新版本的模型继续处理。实验结果显示,C3PO++将序列生成阶段的效率提升了2.5倍,整体训练效率提升了1.5倍。

ASystem框架是支撑整个万亿参数训练的基础设施,就像建造摩天大楼需要强大的地基和钢筋框架。它采用了"单控制器+SPMD"的架构设计,SPMD指的是Single Program Multiple Data,即同一个程序在多个处理器上同时运行不同的数据。

ASystem包含四个核心组件。Hybrid Runtime是一个统一的训练-推理执行环境,让训练和推理可以在同一套系统中无缝切换。AMem是专门为强化学习设计的GPU内存管理库,能够动态释放和恢复训练状态,支持更大的批次处理。AState是高性能的权重同步框架,使用零冗余的点对点传输机制,能够在10秒内完成万亿参数模型的权重同步。ASandbox是一个无服务器的沙箱环境,提供毫秒级的快速启动和高吞吐量的隔离执行。

二、从基础训练到思维能力的完整培养流程

Ring-1T的训练过程就像培养一个从小学生成长为博士的完整教育体系,分为三个递进的阶段:长链条思维监督学习、推理导向强化学习和通用强化学习。

长链条思维监督学习阶段就像给学生打基础。研究团队精心收集了大量展现详细推理过程的训练数据,这些数据覆盖了数学、STEM科学、编程等多个领域。数据的质量控制极其严格,需要经过四个连续步骤:首先进行去重处理,清除重复样本;然后过滤有害内容;接着进行数据去污染处理,确保训练数据与测试基准没有重叠;最后过滤低质量样本,清除各种噪音和无关字符。

这个阶段的训练数据主要包含四个领域:数学占46%,主要是来自权威来源的严格数学问题,确保完整性、高复杂性和可验证的解答;STEM科学占26%,包括物理、化学、生物等高难度问题;编程占20%,包含经过验证的正确解答和精心测试的案例;其他领域占8%,涵盖逻辑推理、常识等。

在这个基础上,模型学会了如何进行详细的步骤展开,就像学生学会了如何写出完整的解题过程。训练使用了64k长度的序列,学习率为2×10^-4,使用余弦衰减调度器,训练了3个epochs。

推理导向强化学习阶段是关键的能力提升期,就像学生从做习题转向解决真实问题。这个阶段使用了精心构建的多领域数据集,涵盖五个核心区域。

数学领域扩展了之前的数据集,加入了更多来自权威来源的数学竞赛题目,确保问题的完整性、高复杂性和可验证性。编程领域则开发了多阶段的工作流程,包括问题合成、验证、质量评分和筛选,确保每个编程问题都配备足够数量的高质量测试用例。

科学领域通过众包方式开发了覆盖物理、化学、生物的高难度问题数据集。为了确保强化学习的复杂性,所有选择题都被重新格式化为开放式问题。对于有机化学,研究团队还建立了专门的图像语义化管道,将分子结构等视觉信息转换为结构化的文本描述。

逻辑推理领域涵盖五个子域:视觉模式归纳、网格谜题(如数独)、路径寻找(如迷宫)、算术推理(如24点游戏)和命题逻辑(如骑士和无赖问题)。研究团队通过整合公共资源并结合内部游戏生成器,实现了可扩展和可控的问题创建。

通用数据领域则构建了包含公共资源和真实用户交互的综合数据集。公共资源包括Magpie、WMT、RLVR-IFEval、AutoIF等已建立的通用数据集。为了增强实际对齐性,还整合了arena-human-preference-100k和arena-human-preference-140k等真实用户偏好数据,以及来自知乎、StackOverflow等社交媒体平台的问题。

这个阶段使用了IcePop算法进行训练,配置为α=0.5,β=5,学习率2×10^-6,KL系数0.0,采样温度1.0。每个训练步骤使用480个独特提示,每个提示采样8个rollout,最大长度65536个token。

通用强化学习阶段则像是让学生学会与人交流和适应社会。在大规模推理强化学习基础上,这个阶段专注于通用任务,使用RLHF(人类反馈强化学习)来重新校准模型的能力分布,在保持核心推理能力的同时增强人类对齐、指令遵循、创意写作、安全性和整体可用性。

这个阶段使用GRPO算法,学习率3×10^-6,KL系数0.0,采样温度1.0。每个步骤包含80个独特问题,每个问题8个输出,最大长度32768个token。

三、在顶级竞赛中展现的卓越推理能力

Ring-1T在各种高难度基准测试中展现出了令人瞩目的表现,就像一个全才学生在各个学科竞赛中都能获得优异成绩。这些成绩不仅证明了模型的强大能力,更重要的是展现了它在复杂推理任务中的稳定性和可靠性。

在数学推理方面,Ring-1T的表现堪称惊艳。在2025年美国数学邀请赛(AIME-2025)中获得93.40%的成绩,在哈佛-麻省理工数学竞赛(HMMT-2025)中达到86.72%,这些都是奥林匹克级别的数学竞赛。值得强调的是,Ring-1T完全依靠自然语言推理获得这些成绩,没有使用任何代码生成或外部符号求解器。

在Omni-MATH基准上,Ring-1T获得82.63%的分数,在CNMO 2024中国数学奥林匹克竞赛中得到88.54%。这些结果突出显示了模型在复杂奥林匹克式问题解决方面的特殊熟练程度。

Ring-1T在2025年国际数学奥林匹克竞赛(IMO-2025)中的表现更是令人印象深刻。它被集成到多智能体框架AWorld中,仅通过纯自然语言推理就成功解决了第1、3、4、5题,达到了IMO银牌水平。在第三次尝试中,它为第2题生成了几乎完整的几何证明。对于最具挑战性的第6题,虽然没有AI参与者能正确解决,但Ring-1T与Gemini 2.5 Pro一样收敛到了相同的错误答案4048(正确答案是2112)。

在编程能力方面,Ring-1T在需要迭代优化和深度逻辑推理的编程任务中表现卓越。在LiveCodeBench-v6 (2408-2505)基准上获得78.30%的最高分,超过DeepSeek-V3.1 2.97个百分点,超过Qwen3-235B-A22B-Thinking-2507 2.58个百分点。在CodeForces编程竞赛中,Ring-1T获得2088分,这是所有模型中的最高分,超过了开源竞争对手和封闭源API的表现。

在逻辑推理任务中,Ring-1T同样表现出色。在极具挑战性的ARC-AGI-1基准上获得55.94%的分数,排名第二,仅落后于GPT-5-Thinking的65.70%,但比DeepSeek-V3.1的40.62%高出15.32个百分点,比Qwen3-235B-A22B-Thinking-2507的48.12%高出7.82个百分点。

在人类对齐方面,Ring-1T在复杂场景中实现了与人类偏好的强对齐。在ArenaHard v2基准上获得81.59%的胜率,排名第二,仅落后GPT-5-Thinking 1.32个百分点,同时以84.52的Elo评分领先所有模型。在Creative Writing v3中,Ring-1T获得85.40%的分数,与领先的开源模型性能相差仅0.1个百分点。

在医疗保健能力方面,Ring-1T在HealthBench上获得57.93%的分数,排名第二,在开源模型中领先。这一表现表明了熟练的临床知识整合能力,并暗示该模型在复杂医疗保健任务中的可行性。

四、技术架构的精妙设计与系统工程突破

Ring-1T的技术架构就像一座精心设计的现代化城市,每个组件都有其特定功能,同时又能完美协调运作。整个系统建立在Ling 2.0架构基础上,这是一个Mixture-of-Experts(MoE)模型,总共拥有1万亿参数,但每次处理时只激活约500亿参数。

这种MoE架构的巧妙之处就像一个拥有众多专家的咨询公司。当遇到数学问题时,系统会自动调用数学专家;遇到编程问题时,会调用编程专家;遇到文学创作时,会调用语言专家。这种动态路由机制确保了在保持强大能力的同时,计算效率得到了最大化。

ASystem框架的设计哲学是"统一而不失灵活"。Hybrid Runtime组件实现了训练和推理的无缝集成,就像一个既能进行科学研究又能教学授课的教授,在两种模式间切换时毫无阻碍。这种设计消除了传统系统中训练和推理分离所带来的数据传输开销,确保了数千个GPU的高效利用。

AMem内存管理库解决了万亿参数模型训练中的关键内存瓶颈,就像一个极其高效的图书管理员。它通过三个关键机制优化内存使用:内存切换机制可以透明地释放和恢复训练状态,包括NCCL通信和CUDA图;分布式多路径传输技术聚合多个通道的带宽;统一内存池实现跨GPU和节点的动态分配。这些技术使得模型能够支持更大的批次大小,减少内存不足错误,加速系统启动。

AState权重同步框架采用了零冗余的点对点传输机制,就像一个高效的快递网络,只传输必要的权重分片,在推理引擎上实现原地更新,避免了昂贵的数据复制。它还采用硬件-软件协同设计,通过NUMA拓扑和CPU-GPU亲和性感知优化数据移动,以及多传输通信层(集成RDMA、NCCL和共享内存),根据数据大小和硬件拓扑动态选择最优协议。因此,AState实现了亚秒级的参数更新,确保推理rollout使用最新模型,维持训练-推理对齐的关键要求。

ASandbox无服务器沙箱引擎为强化学习提供了快速、隔离的环境,支持代码执行和终端模拟等任务。它与Kubernetes集成,可部署为独立的FaaS集群,通过函数调用执行RL任务。为了确保RL训练所需的一致、稳定反馈,它具备多重保障:通过安全容器提供内核级隔离;自动节点故障检测和隔离确保可用性;通过图像缓存、cgroups和fork实现100ms启动速度;通过调度分区支持5000 QPS/200ms的吞吐量。

AReaL强化学习算法框架是整个系统的"大脑",具有几个关键特性。异步多阶段管道实现了轨迹生成、奖励计算和训练的完全解耦架构,这种重叠消除了rollout长尾问题,最大化了硬件利用率。智能数据管理通过数据打包和分片最小化填充和重平衡开销,减少计算浪费和训练停滞。容错机制具备自动错误检测、重试和恢复功能,确保在硬件和软件故障中的稳定性。通过分离控制和数据平面,AReaL避免了单控制器瓶颈,实现了跨大型集群的无缝扩展。

五、实验验证与性能分析的全方位考察

为了验证IcePop和C3PO++技术的有效性,研究团队进行了详尽的实验分析,就像医生为患者进行全面体检一样细致入微。

在IcePop的验证实验中,研究团队首先在Ring-mini-2.0模型上进行了初步测试。这个模型拥有16.8B总参数和0.75B激活参数,是一个相对较小但足够验证技术有效性的模型。实验比较了三种设置:IcePop(α=0.5, β=5)、TIS(官方推荐设置的重要性采样校正方法)和普通GRPO(没有KL项)。

结果显示,IcePop在具有挑战性的AIME25基准上始终优于TIS,在整个训练过程中都有大幅提升,最终将基础分数从63%提高了超过14%,与TIS的性能差距扩大了相对6%。这种持续的性能优势证明了IcePop方法的稳定性和有效性。

在Ring-1T的完整训练中,研究团队观察到原始GRPO出现了训练不稳定性,梯度范数和训练-推理引擎之间的概率差异都趋向于快速增长。应用IcePop后,不匹配问题得到了很大缓解,稳定了RL训练过程。训练动态分析显示,IcePop能够有效控制梯度范数在合理范围内,将概率差异保持在稳定水平。

关于被"冷冻"的token分析,实验发现IcePop的裁剪比例保持在训练token的1-2‰左右。随着训练进展,裁剪比例急剧上升,表明越来越微妙但有害的梯度更新需要更高的裁剪比例。被裁剪的token通常具有更高的熵值,表明这些token在训练中确实扮演着重要但可能有害的角色。

对于不同掩码范围的敏感性分析,研究团队测试了三种设置:默认范围[0.5, 5.0]、窄范围[0.5, 2.0]和宽范围[0.4, 5.0]。结果表明,默认掩码范围[0.5, 5.0]不仅稳定了训练,还丰富了采样多样性。窄掩码范围[0.5, 2.0]立即破坏了训练稳定性,表现为梯度范数的波动和概率差异的急剧增加。宽掩码范围[0.4, 5.0]仍然稳定训练,但与默认设置相比包含了具有更高对数概率的token。

C3PO++的验证实验重点关注训练效率和效果。在训练时间方面,C3PO++大幅减少了rollout阶段的时间,实现了每步大约2.5倍的加速。由于rollout持续时间通常占RL训练时间的很大部分,C3PO++设计的训练优化为端到端阶段带来了约1.5倍的加速,显著提升了强化学习的训练效率。

在奖励和性能方面,C3PO++的奖励曲线与基线保持接近,表明rollout管理的优化保持了强化学习过程中的可比训练动态。在代表性推理基准上,C3PO++实现了与基线相当的性能,证明了其在产生竞争性结果方面的实力。

为了全面评估Ring-1T的性能,研究团队在8个主要领域进行了基准测试:知识、编程、数学、推理、对齐、医疗保健、多轮对话和智能体能力。评估使用了标准化的实验条件和配置,确保了比较的公平性。

在知识领域,Ring-1T在GPQA-Diamond获得78.63%,MMLU-Pro获得80.54%,C-Eval获得91.53%,显示了扎实的知识基础。在编程领域,除了前面提到的优异表现外,Ring-1T在Aider基准上获得78.57%的分数。在数学领域的全面表现已在前文详述。在推理领域,除ARC-AGI-1外,Ring-1T在BBEH获得59.63%,ZebraLogic获得95.15%,HLE获得16.03%。

在对齐领域,Ring-1T在ArenaHard v2获得81.59%胜率,Creative Writing v3获得85.40%,IFEval获得85.21%,显示了良好的人类偏好对齐。在医疗保健领域获得57.93%,在多轮对话MultiChallenge中获得50.92%,在智能体能力BFCL v3中获得68.82%。

说到底,Ring-1T的成功不仅仅是一个技术突破,更是向整个AI研究社区展示了开源模型的巨大潜力。通过公开这个万亿参数的思维模型,Inclusion AI团队为全球研究者提供了一个强大的工具平台,让更多人能够在这个基础上进行创新和改进。这种开放精神就像点燃了一盏明灯,照亮了AI推理能力发展的道路。

当然,Ring-1T也不是完美无缺的。研究团队坦诚地指出了几个需要改进的方向:在模型架构方面,虽然使用的GQA技术在性能和速度之间取得了良好平衡,但对于生成大量内部"思考"过程的思维模型来说,推理成本仍然不够低;在训练-推理一致性方面,虽然IcePop大大缓解了问题,但还没有实现完美的一致性;在能力方面,Ring-1T优化了基础自然语言推理,但在高级智能体技能方面还有提升空间。

这项研究为AI推理能力的发展开辟了一条新的道路。通过解决万亿参数模型训练中的根本性挑战,Ring-1T证明了超大规模推理模型不仅是可行的,而且能够展现出exceptional capability。对于普通人来说,这意味着我们离拥有真正智能的AI助手又近了一大步,这些助手不仅能快速回答问题,还能像人类专家一样进行深入思考和推理。

Q&A

Q1:Ring-1T的万亿参数是什么意思?

A:Ring-1T拥有1万亿个参数,就像一个拥有一万亿本书的超级图书馆。虽然总容量巨大,但处理每个问题时只需要"翻阅"其中的500亿本书,这样既保证了答案质量又提高了效率。

Q2:IcePop技术是如何解决训练不稳定问题的?

A:IcePop就像一个精明的质量检查员,它会检查每个训练更新中的token,如果发现某个token的概率差异过大,就会将其"冷冻"起来不参与训练。通常只需要冷冻1-2‰的token就能稳定整个训练过程。

Q3:Ring-1T在数学竞赛中的表现如何?

A:Ring-1T在2025年美国数学邀请赛获得93.4分,哈佛-麻省理工数学竞赛获得86.72分,在国际数学奥林匹克竞赛中达到银牌水平,完全依靠自然语言推理就能解决这些奥林匹克级别的数学难题。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-