**Skywork Open Reasoner 1技术报告:来自昆仑团队的开源推理模型新突破**
这项由昆仑公司的Skywork AI团队开发的研究成果发表于2025年5月28日,由Jujie He、Jiacai Liu等研究人员共同完成,论文编号为arXiv:2505.22312v1。有兴趣深入了解的读者可以通过GitHub(https://github.com/SkyworkAI/Skywork-OR1)或HuggingFace(https://huggingface.co/Skywork/Skywork-OR1-32B)获取模型和源代码。
**探索AI推理能力的新高度**
想象一下,如果你的AI助手不仅能回答简单问题,还能解决复杂的数学题和编写高质量代码,那会是什么样子?这正是Skywork团队努力实现的目标。在人工智能领域,让大型语言模型(LLM)具备强大的推理能力一直是研究者们追求的圣杯。DeepSeek-R1的成功已经证明,使用强化学习(RL)技术可以显著提升模型的推理能力。Skywork团队在这一基础上更进一步,推出了Skywork-OR1,一个专注于增强模型长链思维(Chain-of-Thought,简称CoT)能力的开源系统。
所谓长链思维,你可以理解为AI像人类一样,通过一步一步推理来解决复杂问题的能力。比如解决数学题时,我们不会直接给出答案,而是先分析问题,列出方程,逐步计算,最后得出结论。随着模型能力的提升,这些思维链条变得越来越长,DeepSeek-R1-Distill系列模型在AIME24基准测试中平均生成超过10,000个标记的思维链,远超早期模型。
Skywork-OR1基于DeepSeek-R1-Distill模型系列,通过强化学习技术显著提升了模型性能。在AIME24、AIME25和LiveCodeBench这三个权威测试中,32B模型的平均准确率从57.8%提升至72.8%(增长15.0%),7B模型从43.6%提升至57.5%(增长13.9%)。特别值得一提的是,Skywork-OR1-32B模型在AIME24和AIME25测试中超越了DeepSeek-R1和Qwen3-32B这两个强劲对手,同时在LiveCodeBench测试中也取得了可比的成绩。
**让AI的思维更加清晰:MAGIC训练方法**
Skywork团队开发了一种名为MAGIC(Multi-stage Adaptive entropy scheduling for GRPO In Convergence)的训练方法,这是一种基于群组相对策略优化(GRPO)的改进版本。如果把AI训练比作烹饪,那么MAGIC就像是一份精心设计的食谱,确保每个环节都恰到好处。
在数据收集环节,团队采用严格的数据准备和过滤程序,确保训练数据的质量。他们还使用离线和在线过滤技术,移除模型已经完全掌握或完全无法解决的问题,让模型专注于有挑战性的问题。就像学习一门新技能,你不会花时间在已经掌握的内容上,也不会立即挑战远超能力的难题。
在训练策略方面,团队采用了多阶段训练,逐步增加上下文长度,这大大提高了训练效率同时保持可扩展性。他们还发现,在训练初期使用较高的采样温度(设为1而非较低值如0.6)可以增强模型的探索能力,虽然早期准确率较低,但最终能获得更大的性能提升。这就像学习新技能时,一开始可能需要尝试各种方法,看起来进步较慢,但最终会找到最适合自己的方式,取得更大进步。
在损失函数设计上,团队引入了自适应熵控制机制,动态调整熵损失系数,确保模型的熵保持在目标水平以上,从而维持模型的探索能力和学习灵活性。简单来说,这就像给学习者保持适当的好奇心和尝试新方法的动力,不至于过早固化思维方式。同时,他们发现在多阶段训练中包含KL损失(一种让模型不要偏离原始模型太远的限制)反而会阻碍性能提升,因此在最终的训练方案中移除了这一组件。
**深入理解策略熵崩塌现象**
在强化学习中,平衡探索与利用是一个经典难题。如果模型过早地固定在某一种解决方案上(称为策略熵崩塌),这个解决方案可能并不是最优的,而且会阻碍模型探索多样化的解决路径。Skywork团队对这一现象进行了深入研究,发现以下几点重要发现:
首先,熵崩塌速度越快,测试性能通常越差。如果把AI的学习比作探索一座未知的岛屿,那么熵崩塌就像是过早决定只在一小块区域寻宝,而放弃了探索整个岛屿的机会。通过适当的熵控制方法,可以防止过早收敛,提高测试性能。
其次,增加批量大小和组大小对熵动态的影响较小,而提高采样温度则对初始熵和学习动态有显著影响。这就像探险队增加人数并不会显著改变探索策略,但改变探索的激进程度却会带来明显不同的发现。
第三,通过增加小批次数量或数据重用来增加每个训练步骤中的SGD步数会显著加速熵崩塌,并通常导致测试性能下降。这是因为引入了离策略数据,即模型根据旧经验而非当前策略做出决策。就像使用过时的地图导航,容易让探险队走入死胡同。
第四,熵损失对训练数据和损失系数都非常敏感。通过自适应调整熵损失系数或使用适当的clip-higher技巧,可以使熵动态变得更加稳定,从而提高测试性能。
**训练资源分配的艺术**
在训练资源有限的情况下,如何提高训练效率?在有更多计算资源时,如何分配这些资源以获得更好的测试性能?Skywork团队对这些问题进行了深入研究。
他们发现,在长链思维模型训练中,总训练时间主要由rollout时间决定,而策略更新时间占比较小。因此,适当增加每个训练步骤中的SGD步数对总训练时间影响不大,但可以提高训练效率。然而,如前所述,这可能导致熵崩塌和性能下降,除非采取适当措施缓解熵崩塌。
当有更多训练资源时,增加rollout批量大小或组大小可以获得更好的测试性能,而训练时间消耗相似。这就像拥有更多探险队员时,可以同时探索更多路径,从而更快地找到最佳解决方案。
**数据准备:质量胜于数量**
在数据准备环节,团队首先专注于NuminaMath-1.5等高质量数据集,并采用严格的选择标准:必须是可验证的(排除基于证明的问题和缺少测试用例的代码问题);必须是正确的(过滤掉答案无效或不正确的数学问题,以及没有全面测试用例的代码问题);必须具有挑战性(预先过滤掉基础模型全部正确或全部错误的问题)。
他们还使用Math-Verify重新提取答案,并进行去重和数据清洗,最终得到约105K个数学问题和13.7K个编码问题的高质量数据集。为了提高训练效率,团队还进行了基于模型的难度估计,确保训练数据既不会太简单也不会太难。
**模型性能:令人印象深刻的提升**
Skywork-OR1模型在权威基准测试上取得了出色的成绩。Skywork-OR1-32B在AIME24上达到82.2分,在AIME25上达到73.3分,在LiveCodeBench上达到63.0分,在数学领域超越了DeepSeek-R1和Qwen3-32B。Skywork-OR1-7B在AIME24上得分70.2,AIME25上得分54.6,LiveCodeBench上得分47.6,在同等规模的模型中表现竞争力强。而之前发布的Skywork-OR1-Math-7B也在同等规模的模型中表现出色,AIME24得分69.8,AIME25得分52.3,LiveCodeBench得分43.6。
这些结果证明了Skywork团队的MAGIC训练方法的有效性,尤其值得注意的是,这些改进是通过对DeepSeek-R1-Distill系列——初始性能相对适中的SFT基础模型——进行微调实现的,清晰地展示了他们训练管道的显著影响。
**开源贡献:推动AI社区共同进步**
为确保完全的可复现性并支持LLM社区的持续研究,Skywork团队发布了所有训练资源,包括源代码、后期训练数据集和模型权重。他们还进行了广泛的消融研究,从数据和算法两个维度阐明了长链思维模型有效的RL实现。
Skywork-OR1代表了开源AI领域的一个重要里程碑,为增强大型语言模型的推理能力提供了有效且可扩展的解决方案。通过深入研究策略熵崩塌现象并提出相应的缓解策略,Skywork团队不仅推动了技术进步,还为未来的研究提供了宝贵见解。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。