微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 英伟达推出Llama-Nemotron:开源推理优化的高效思维模型

英伟达推出Llama-Nemotron:开源推理优化的高效思维模型

2025-05-06 11:39
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-06 11:39 科技行者

2025年5月5日,英伟达公司(NVIDIA)发布了一项重磅研究成果"Llama-Nemotron:高效思维模型",这份发表在arXiv(arXiv:2505.00949v1)上的技术报告详细介绍了他们最新的开源大语言模型系列。如果你对人工智能的最新进展感兴趣,这个消息绝对值得关注。这个研究的核心是向全世界开放更加智能、推理能力更强的AI模型,同时解决了一个业界头痛的问题:如何在不牺牲推理能力的前提下提高模型运行效率。

想象一下,如果传统AI模型是一辆可以载你去任何地方的汽车,那么这些新的"思维模型"就像是既能当汽车用,又可以变身为越野车的变形金刚。在平坦道路上,它们像普通汽车一样高效运行;遇到复杂地形,它们就能切换到更强大的思维模式,慢慢思考并解决困难问题。英伟达的这项技术突破正是要让这种转换变得更加自然、高效。

一、Llama-Nemotron:思维模型家族的新成员

英伟达推出的Llama-Nemotron系列包括三种不同规模的模型:迷你版(Nano)拥有80亿参数,增强版(Super)拥有490亿参数,以及旗舰版(Ultra)拥有2530亿参数。这些模型被设计为既能高效运行,又具备出色的推理能力,同时还提供企业级开源许可。

想象一下大脑的运作方式。当我们面对简单问题时,比如"1+1等于几",我们可以立即回答。但当面对复杂问题时,比如"如何规划一次跨国旅行",我们需要花时间思考、分析各种因素,甚至反复检查我们的计划是否合理。传统AI模型往往只能做到前者——快速但浅层的回应。而思维模型,如Llama-Nemotron,则具备"思考模式",能像人类一样通过深入思考来解决复杂问题。

这些模型最大的创新之一是"思维开关"功能。通过一个简单的指令"detailed thinking on/off"(详细思考开/关),用户可以动态控制模型是使用标准对话模式还是详细思考模式。这就像是给AI装上了一个可以随时切换的"深思熟虑"按钮,让它能够根据任务需求调整自己的响应方式。

英伟达不仅发布了这些模型,还开源了完整的训练数据集和代码库,包括NeMo、NeMo-Aligner和Megatron-LM。这相当于不仅给了世界一份成品蛋糕,还附上了完整的烘焙配方和工具,让研究人员和开发者可以理解、改进甚至创造自己的思维模型。

根据独立评测机构Artificial Analysis的数据,截至2025年4月,Llama-Nemotron Ultra是开源模型中最"智能"的模型,在综合智能指数上取得了68分的高分,仅次于Claude(Inflect)的70分,超过了众多知名模型如Gemini Pro、GPT-4o等。

二、创造高效推理的技术魔法

Llama-Nemotron模型是如何实现高效运行的呢?这就像是将一辆大型越野车改装得既保留了强大的越野能力,又有了城市轿车的燃油效率。

英伟达团队使用了名为"Puzzle"的神经架构搜索框架来优化模型结构。想象你在玩一个特殊的拼图游戏,每块拼图代表模型的一个组件。Puzzle框架会尝试各种不同的拼图组合,找出既能保持模型智能又能提高运行效率的最佳方案。

具体来说,Puzzle对每个模型层进行"局部蒸馏",创建了一个替代块库。就像是厨师为每道菜准备多种可替代的食材和烹饪方法,然后根据当天的需求选择最适合的组合。这些替代块包括:

注意力机制移除:某些模型块完全省略了注意力机制,这减少了计算量和内存消耗,就像在不需要全地形能力的平坦道路上,越野车可以关闭四驱系统省油一样。

可变前馈网络维度:模型的"思考单元"(前馈网络)被压缩到原来的87%、75%、50%,甚至低至10%,根据不同层的重要性调整资源分配,就像赛车手会根据赛道特点调整车辆各部件的设置。

对于Ultra模型,团队还引入了"前馈网络融合"技术。当一些注意力层被移除后,模型中会出现连续的前馈网络块。前馈网络融合识别这些序列,并用更少、更宽的前馈层替换它们,这些层可以并行执行。这就好比将多个串联的处理步骤合并成一个更高效的并行步骤,减少了处理时间。

每种模型都针对特定的硬件配置进行了优化。Super模型可在单个NVIDIA H100 GPU上高效运行,比原始Llama 3.3-70B模型提速5倍。而Ultra模型则为一个完整的H100节点(8个GPU)优化,提供比DeepSeek-R1更高的吞吐量,同时保持更强的推理性能。

三、从基础模型到思维大师的训练之旅

Llama-Nemotron模型的训练过程包含五个关键阶段,就像将一个有天赋的学生培养成解决复杂问题的大师。

第一阶段是通过神经架构搜索和前馈网络融合优化推理效率。这相当于为学生设计最适合他学习风格的个性化教育方案。

第二阶段包括知识蒸馏和持续预训练。想象一个学生从最优秀的老师那里学习,然后通过广泛阅读巩固知识。Super模型接受了400亿个token的知识蒸馏训练,而Ultra模型则先接受650亿个token的知识蒸馏,然后又接受了880亿个token的持续预训练。

第三阶段是监督微调,将模型训练在标准指令数据和来自强大教师模型(如DeepSeek-R1)的推理轨迹上。这使模型能够进行多步推理,就像一个学生跟随大师一步步学习解决复杂问题的思路。

第四阶段是在复杂数学和STEM数据集上进行大规模强化学习,这是让学生超越老师的关键步骤。特别是对于Ultra模型,这个阶段在GPQA-D基准测试上带来了显著的性能提升,确立了它作为开源科学推理最佳模型的地位。

最后一个阶段是专注于指令遵循和人类偏好的短期对齐训练,就像教导学生如何在保持专业水平的同时与人有效沟通。

为了实现这套复杂的训练流程,英伟达开发了定制训练框架,其中最引人注目的优化是FP8格式生成,这大大提高了训练效率。

四、推理能力的秘密配方:精心设计的训练数据

训练一个优秀的思维模型,就像教会一个学生解决复杂问题,需要精心设计的教学内容。英伟达团队为不同领域分别准备了专门的训练数据。

在数学领域,他们从Art of Problem Solving(AoPS)社区论坛收集大量数学问题,剔除了证明题、多选题和二元问题,只保留需要详细解题过程的问题。他们使用DeepSeek-R1和Qwen2.5-Math-7B模型生成多种解决方案,并过滤出能达到预期答案的有效解法。

对于编程领域,团队从TACO、APPS、CodeContests和CodeForces等多个竞赛编程平台收集了近29,000个独特问题。他们使用DeepSeek-R1生成多个Python和C++解决方案,并保留了包含推理过程的高质量样本。有趣的是,研究发现虽然一些研究表明小数据集足以诱导数学推理能力,但在编码任务上,大规模数据集对提高性能至关重要。

在科学领域,他们创建了包含开放式和多选题的多样化问题集,从StackOverflow提取问答对,并使用Qwen2.5模型生成多样化的合成问题。DeepSeek-R1被用来为所有问题生成多个推理轨迹。

对于通用领域,团队遵循Nemotron-4-340B-Instruct的生成管道,创建了覆盖开放式问答、封闭式问答等多种任务的合成提示,并使用公开可用的数据集获取真实用户提示。

为了训练模型遵循"推理开关"指令,他们构建了成对数据,其中每个提示都有推理响应和非推理响应两种版本。在通用领域的开放式任务上,他们还使用了创新的"反馈-编辑"推理时间缩放系统,通过反馈、编辑和选择模型的三阶段过程改进初始响应质量。

最终的训练数据集中,数学占66.8%,编码占30.6%,科学占2.1%,聊天和指令遵循各占不到1%。这种分配反映了培养强大推理能力所需的重点领域。

五、监督微调:传递思维能力的关键步骤

想象你在教一个学生解决复杂问题的思路方法。你不仅要告诉他们正确答案是什么,更要教会他们如何一步步思考得出答案。这就是监督微调在培养模型思维能力中扮演的角色。

在Llama-Nemotron的训练过程中,监督微调是将推理能力从强大的教师模型(如DeepSeek-R1)转移到学生模型的关键环节。研究表明,针对推理任务的监督微调可以显著提升模型在复杂推理任务上的表现。

训练过程中,所有模型都使用指令调整数据上的token级交叉熵损失进行训练。训练批次混合了推理和非推理数据,其中提示与基于相应系统指令("detailed thinking on/off")的响应配对。

研究人员发现,模型需要较高的学习率才能有效地从长推理轨迹中学习,这部分是因为序列长度依赖的token损失平均。较小的模型通过多轮训练获益更多,这一趋势在先前研究中也有观察到。

迷你(Nano)模型采用了三阶段监督微调管道,全局批量大小为256,使用序列打包,有效序列长度为32k tokens。第一阶段,模型专门在代码、数学和科学领域的推理数据上进行微调,学习率为1e-4,训练四个epochs。这防止了重复完成等故障模式。第二阶段引入了非推理数据与推理样本混合,使模型学习推理控制。最后阶段使用更小的数据混合,专注于聊天、指令遵循和工具调用能力。

增强(Super)模型在完整SFT数据集上训练一个epoch,使用固定学习率5e-6,序列长度16k,全局批量大小256。小规模实验表明性能可通过更多epochs和更大学习率提升,但受计算和时间限制。

旗舰(Ultra)模型使用序列打包训练,有效序列长度24k,全局批量大小256,以最大化token吞吐量。初步实验表明较高学习率如5e-5通常能提升效果,但持续高学习率导致训练不稳定。为缓解这一问题,实施了线性预热至1e-5,然后余弦衰减至1e-6,预热比例为10%。尽管采取了这些措施,训练仍在第一个epoch后遇到梯度爆炸和数值不稳定。这需要重新初始化优化器状态并恢复训练,之后才成功收敛。

六、思维能力的进阶:通过强化学习突破天花板

就像一个学生通过自主练习和探索可以超越老师的教导,模型也可以通过强化学习突破其监督训练的限制。通过监督微调,Ultra模型可以接近DeepSeek-R1的表现,但要超越它,大规模强化学习是关键。

在Ultra模型上,研究团队专注于提升其科学推理能力,采用了群组相对策略优化(GRPO)算法。他们使用72的推理提示大小,为每个提示采样16个响应,温度和top_p都设为1。训练中,全局批量大小为576,每次推理进行2次梯度更新。通过优化的训练基础设施,整个训练大约消耗了14万H100 GPU小时。

强化学习使用两种类型的奖励:准确性奖励和格式奖励。准确性奖励基于模型预测是否与提供的正确答案匹配,使用Llama-3.3-70B-Instruct模型进行判断。格式奖励则确保模型在使用"detailed thinking on"模式时将思考过程放在"<think>"和"</think>"标签之间,并在使用"detailed thinking off"模式时不使用思考标签。

为确保模型面临足够的挑战,研究者预处理数据,使用Super模型独立为每个问题生成8个回答,计算通过率,然后故意丢弃通过率为0.75或更高的问题,从而增加训练数据的难度。他们还发现课程学习很有帮助,它允许模型从一系列难度逐渐增加的任务中学习。具体实现是一种渐进式批处理策略,使用预先计算的通过率作为难度指标。这确保了样本难度在批次间的受控、渐进增加,同时批次内的样本被随机打乱。

在训练基础设施方面,团队主要使用NeMo-Aligner进行强化学习训练,使用vLLM实现生成阶段,使用Megatron-LM实现训练阶段。训练模型并行化使用了张量并行=8(带序列并行),上下文并行=2,流水线并行=18,数据并行=2。生成模型并行化则使用张量并行=8,数据并行=72。

为提高效率,团队实现了FP8推理生成路径,执行所有矩阵乘法运算,使用每个token的激活缩放因子和每个张量的权重缩放因子。这带来了每GPU/提示32个tokens/s的FP8生成吞吐量,相比BF16提速1.8倍,是该规模下推理训练中观察到的最高解码吞吐量。

七、偏好优化:提升人机交互体验

在培养了超强的推理能力后,还需要确保模型能够按照人类期望的方式与用户互动。这就像是一个天才学者学习如何有效沟通他的想法,使普通人也能理解。

对于科学推理训练后的Ultra和Super模型,研究团队进行了短期强化学习,专注于提升指令遵循能力。他们使用类似Zhou等人的验证设置,生成包含1至10个详细指令的合成指令遵循提示。使用RLOO算法进行不超过120步的强化学习,使用指令遵循验证器作为奖励。这种训练不仅提升了常规指令遵循基准的表现,也改进了推理基准的表现。

为提升模型在通用帮助性和聊天能力方面的表现,同时保持其他领域的专业性,团队使用迭代在线RPO最大化由Llama-3.1-Nemotron-70B-Reward模型在HelpSteer2提示上预测的奖励。每次迭代使用学习率4e-7,KL惩罚1e-5,奖励缩放3.0,批量大小64,训练500步。两次迭代在线RPO将Arena Hard得分从69.1提升到88.1。有趣的是,这个过程也提升了除IFEval外所有其他采用的基准测试表现。

对于Ultra模型,团队采用GRPO,为每个提示采样8个响应,训练30步,学习率3e-7,批量大小288,KL惩罚1e-3。

对于Nano模型,进行了两轮带有策略数据的离线RPO。第一轮使用带有适当系统提示的推理和非推理数据混合来改进推理控制,然后进行第二轮,使用策略生成来提升指令遵循能力。每轮RPO训练最多400步,学习率7e-7,KL惩罚3e-2,批量大小512。

通过这些精心设计的训练阶段,Llama-Nemotron系列模型在保持强大推理能力的同时,也能以用户友好的方式进行交流,提供流畅的人机交互体验。

八、模型表现评估:碾压竞争对手

Llama-Nemotron系列模型在一系列推理和非推理基准测试中展现出色表现。评估涵盖了两类基准测试:推理基准和非推理基准。

推理基准包括美国邀请数学考试(AIME)2024年和2025年版本、GPQA-Diamond、LiveCodeBench和MATH500。AIME25分为两部分:AIME25-I和AIME25-II,每部分包含15个问题。对于Nano模型,仅使用AIME25-I进行评估;对于Super和Ultra模型,评估使用完整的30题集合。由于AIME25近期才发布,与训练数据重叠的可能性较小,因此在此基准上的强劲表现特别能说明模型的泛化能力。LiveCodeBench包含按日期索引的问题,研究报告了两个特定范围的结果——(2408-2502)和(2410-2502),以便与之前报告的基线进行公平比较。

非推理基准包括IFEval(Strict-Instruction)用于评估指令遵循能力,BFCL V2 Live用于评估通过函数调用的工具使用能力,以及Arena-Hard用于评估与人类对话偏好的一致性。

所有评估都在32k上下文长度下进行,即使Super的训练最大序列长度为16k,Ultra的为24k。研究者观察到,在扩展上下文长度时性能一致提升,因为较短的序列限制可能会截断长推理轨迹,导致生成不完整。推理开启评估使用温度0.6和top-p 0.95,推理关闭则使用温度0(贪婪解码)。每个提示最多生成16个完成结果,报告平均pass@1准确率。

迷你(Nano)模型在所有推理基准测试中展现出强劲表现,包括AIME25-I和LiveCodeBench,尽管规模较小。这证明了监督微调管道和精心策划的推理数据集在将结构化推理能力转移到紧凑模型上的有效性。为Nano推理SFT混合数据集精心平衡数学、编码和STEM领域的数据分布对于实现接近最先进的准确率至关重要。例如,初期实验显示在化学相关问题(GPQA-D的主要领域之一)上准确率较低。在STEM子集中增加化学相关数据样本有助于提高GPQA-D准确率。训练流程结束时的RPO阶段主要针对提高IFEval准确率。

增强(Super)模型与同等规模的其他模型相比表现出色,跨推理和非推理任务均具有竞争力。在推理关闭模式下,Super模型表现与原始蒸馏来源Llama-3.3-70B相当。在推理开启模式下,它优于竞争模型如DeepSeek-R1-Distilled-Llama-70B,提供强大的推理能力而不牺牲指令遵循。这些结果表明,这个单一模型提供了推理优化和非推理模型的优势,适用于通用助手和结构化推理用例。值得注意的是,专注于推理的SFT导致IFEval分数明显下降。为恢复指令遵循能力,团队应用了专门的IFEval强化学习来确保强推理不会以降低通用助手行为为代价。研究结果揭示另一个权衡:优化指令遵循(由IFEval衡量)可能会损害会话性(由Arena-Hard衡量),反之亦然。为解决这一问题,研究团队对Super应用了模型合并,选择了平衡这些目标的Pareto前沿检查点。由于结果不一致,这种方法未应用于其他模型。Super在LiveCodeBench上表现相对较弱,这归因于其SFT阶段使用了早期版本的数据集,不同于Nano和Ultra使用的版本。

旗舰(Ultra)模型在推理和非推理基准测试中匹配或超越所有现有开源模型。它在开源模型中实现了GPQA的最先进表现,展示了大规模强化学习训练的有效性。与需要8×H200的DeepSeek-R1不同,Ultra针对单个8×H100节点进行了优化,提供改进的推理吞吐量和部署效率。Ultra-SFT模型在多个推理基准上接近DeepSeek-R1的表现,包括GPQA和AIME。然而,强化学习阶段对于超越DeepSeek-R1至关重要,特别是在GPQA上。这突显了SFT和RL的互补优势:SFT通过从教师模型蒸馏推理行为建立了坚实基础,而RL对于超越教师表现和进一步增强推理能力至关重要。

除了推理和聊天能力外,研究团队还评估了模型在"LLM-as-a-Judge"(模型作为评判)这一超出训练分布的任务上的表现。具体来说,他们在JudgeBench上测试模型,任务是区分高质量和低质量响应。研究结果显示,Llama-Nemotron模型超越了顶级专有和开源模型。值得注意的是,Ultra成为最佳开源模型,显著超越DeepSeek-R1,仅次于o3-mini(high)。此外,Super也超越了o1-mini,证明这些模型具有跨多样化任务的强大泛化能力。

九、开创思维模型新时代

英伟达的Llama-Nemotron系列模型代表了AI领域的重要里程碑,为开放思维模型的发展带来了新的可能性。这些模型不仅在性能上与当前最先进的推理模型竞争,还提供了低内存需求和高效推理能力,使它们更适合实际应用。

这项研究的一个关键发现是,在有强大推理教师模型的情况下,对高质量合成数据进行监督微调非常有效,能够为较小的模型添加推理能力。然而,要将推理能力推向超越教师模型的水平,大规模、基于课程的强化学习训练是必不可少的。

研究还表明,要打造一个全能模型——在各种基准测试上表现出色的模型,需要在训练流程中包含多个精心设计的阶段。每个阶段都针对特定能力进行优化,从而构建出既能解决复杂问题又能自然交流的完整AI助手。

通过开源这些模型、训练数据和代码,英伟达为AI社区提供了宝贵资源,可能会加速思维模型的研究和应用发展。这种开放的姿态允许研究人员深入了解这些模型的工作原理,企业可以将它们应用到实际问题中,而开发者则可以在此基础上构建更强大的应用。

随着这些高效思维模型的出现,我们可能会看到AI在科学研究、教育、软件开发等领域发挥更大作用。它们能够像人类专家一样深入思考复杂问题,同时保持高效运行,这将使AI在解决实际问题时变得更加实用和可扩展。

Llama-Nemotron系列不仅是技术成就,更开创了一个新时代——在这个时代中,AI思维模型变得更加开放、高效且功能强大,为未来人工智能的发展铺平了道路。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • ReplaceMe:通过线性变换给大语言模型"瘦身"的突破性方法
    2025-05-07 10:33

    ReplaceMe:通过线性变换给大语言模型"瘦身"的突破性方法

    现代大语言模型就像一栋拥有数百个房间的豪华大厦,每个房间(或称为"层")都执行特定的功能,共同协作完成复杂的语言理解和生成任务。然而,这些模型的规模已经变得如此庞大,以至于只有拥有高端计算资源的机构才能负担得起它们的运行成本。这就像一辆耗油量极大的豪华跑车,普通人负担不起它的燃料费用。

  • FormalMATH:人工智能形式化数学推理的新标杆
    2025-05-07 10:32

    FormalMATH:人工智能形式化数学推理的新标杆

    想象一下,当你在解答一道复杂的数学题时,你不仅需要给出答案,还需要详细解释每一步推导的理由,不能有任何逻辑跳跃或假设——这就是形式化数学推理的严格要求。

  • Voila:开创真实自主交互与声音角色扮演新时代的声音-语言基础模型
    2025-05-07 10:29

    Voila:开创真实自主交互与声音角色扮演新时代的声音-语言基础模型

    想象一下日常生活中我们使用的语音助手,比如Siri或ChatGPT。它们通常是这样工作的:你问一个问题,它回答,然后安静地等待你的下一个指令。这就像是一个只会被动回应的服务员,永远等待你的呼唤。而Voila团队认为,真正高级的AI助手应该更像一个时刻准备着的好朋友或队友,能够自然地融入你的生活节奏中。

  • RM-R1:让AI评估变得更明智——将奖励模型转变为推理工具
    2025-05-07 10:27

    RM-R1:让AI评估变得更明智——将奖励模型转变为推理工具

    想象一下,你正在参加一场料理比赛,有两位评委。第一位评委只给你一个分数,而第二位评委会详细解释你的菜品在口感、创意和技巧上的表现如何,然后才给出最终评价。显然,第二位评委的反馈对于你改进厨艺更有帮助。伊利诺伊大学研究团队正是秉持这一理念,开发了能像第二位评委那样工作的AI评估系统。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-