2025年5月,阿里巴巴钱文团队与浙江大学的研究人员发表了一篇引人注目的研究论文,题为《语言模型的并联缩放定律》(Parallel Scaling Law for Language Models)。这项研究由浙江大学的陈牟翔、刘中信和阿里巴巴钱文团队的惠滨源、崔泽宇、杨嘉熙、刘代恒、林俊扬等共同完成,发表于arXiv预印本平台(arXiv:2505.10475v1)。
你是否曾经想过,要让人工智能变得更聪明,是不是一定要增加它的"大脑"大小(即参数量)或者让它"思考"更久(即推理时间)?这两种传统方法各有缺点:增加参数需要更多内存空间,而延长推理时间则会让用户等待更久。阿里巴巴钱文团队提出了一个全新思路:如果我们让AI同时从多个角度思考同一个问题,然后综合这些思考结果,会不会既省空间又省时间,同时还能提升性能呢?
想象一下,当你面对一个复杂问题时,你可能会从不同角度思考,或者咨询几个朋友的意见,然后综合这些想法得出最终答案。这正是研究团队提出的"并联缩放"(ParScale)方法的核心理念。这种方法不需要增加模型参数量,而是通过重复利用已有参数,同时从多个角度处理输入信息,然后智能地整合这些结果,从而提升模型性能。
研究团队的实验结果令人振奋:他们发现,将计算并行扩展P倍,其效果相当于将模型参数量增加O(log P)倍,但内存占用和推理延迟大大降低。举个例子,对于一个1.6B参数的模型,使用8路并行计算可以节省22倍的内存增长和6倍的延迟增长,同时达到与更大参数模型相当的性能。
更令人惊喜的是,研究者们还发现,可以通过一种"两阶段"训练策略,将现有预训练模型转变为并行缩放模型,只需在少量数据上进行微调就能实现性能提升。这种方法不仅适用于从头训练新模型,还可以"改造"现有模型,大大降低了训练成本。
让我们深入了解这项突破性研究的细节和它可能带来的深远影响。
一、理解语言模型缩放的三种方式:从传统到创新
想象一下,你正在建造一座摩天大楼。传统上,你有两种方法让它变得更宏伟:要么增加建筑面积(参数缩放),要么增加建筑层数(推理时间缩放)。前者需要更多土地和材料,后者则会延长建造时间。但现在,研究者们提出了第三种方法:在同一块土地上同时建造多座相互连接的较小建筑(并行缩放),既节省空间又加快建造速度。
传统的参数缩放方法就像是把AI的"大脑"做得更大。例如,DeepSeek-V3模型拥有6720亿参数,这导致了庞大的内存需求,难以在边缘设备上部署。另一方面,推理时间缩放就像是给AI更多思考时间,让它生成更多的"推理令牌"来解决问题。但研究者发现,有些强大的模型甚至会为"2+3=?"这样的简单问题生成多达900个推理令牌,极大地增加了处理时间。
钱文团队受到了"无分类器引导"(Classifier-Free Guidance,CFG)的启发。CFG是扩散模型中广泛使用的技术,它在推理阶段使用两次前向传递:首先进行正常的前向传递获得第一个输出流,然后扰乱输入(例如,丢弃输入中的条件)获得第二个输出流。这两个流基于预设的对比规则聚合,产生比单次传递更好的性能。研究团队提出假设:CFG之所以有效,是因为它使用了两倍的计算量。
基于这一假设,他们提出了"并行缩放"(ParScale)方法。这种方法在训练和推理阶段都增加模型的并行计算,同时保持参数几乎不变。具体来说,他们对输入应用P种不同的可学习转换,并行地通过模型传递这些输入,然后动态聚合P个输出。这就像是同时从P个不同角度分析同一个问题,然后综合各个视角的见解得出最终答案。
二、并行缩放的工作原理:一种全新的大模型能力提升方法
如果普通的大语言模型是一个专家在思考问题,那么并行缩放就像是让多个专家同时思考同一个问题,然后综合他们的意见。这些"专家"共享同样的知识(模型参数),但各自从不同角度分析问题。
具体来说,并行缩放的实现包括三个关键步骤:
首先是输入转换。研究团队使用"前缀调优"(Prefix Tuning)技术,为每个并行流添加不同的可学习前缀。这就像是给每位专家一个不同的思考角度或提示。通过实验,团队发现随机初始化这些前缀就足以确保不同流之间的输出多样性。
其次是并行前向传递。模型使用相同的参数,但处理不同的输入流。这些并行计算非常适合现代GPU,因此不会显著增加推理延迟。
最后是输出聚合。研究团队发现,使用动态加权平均比静态权重效果更好。他们设计了一个小型多层感知机网络,将各流输出转换为聚合权重。为了防止某些流权重过大而其他流得不到充分训练,他们还应用了标签平滑技术,确保每个流都有最小的非零权重。
研究者们进行了大量的初步实验,发现不同的输入转换和输出聚合策略对模型性能的影响相对较小,真正决定性的因素是并行计算的数量(即P值)。简单地说,让模型从更多角度思考同一问题比改进思考方式更重要。
这一发现极其重要,因为它暗示了计算资源和参数量对模型能力贡献的基本关系,为我们理解人工智能的本质提供了新视角。
三、从理论到实践:并行缩放定律的证明与验证
研究团队不仅提出了并行缩放的方法,还建立了理论基础,并通过大规模实验进行了验证。他们提出的并行缩放定律是对著名的Chinchilla缩放定律的扩展。
从理论上讲,研究团队将并行缩放视为一种特殊的模型集成。传统模型集成通常不共享参数,而并行缩放中的不同流共享绝大部分参数。他们通过数学推导证明,如果将P个流的预测聚合,最终模型的损失函数遵循一个新的缩放定律:
L = E + [A/(N·P^(1/α)·DIVERSITY)]^α
其中,DIVERSITY = [(P-1)ρ+1]^(-1/α),ρ是不同流相对残差之间的相关系数。
简单来说,这个公式表明增加P倍的并行计算相当于将模型参数乘以一个因子(P^(1/α)·DIVERSITY)。当不同流的输出完全相关(ρ=1)时,并行计算没有任何益处。当流输出完全独立(ρ=0)时,模型损失与P成反比。当流输出负相关时,效果更好,理论上损失可以接近零。
为了将理论转化为实践可用的公式,团队基于初步观察到的对数趋势,提出了以下简化形式:
L = [A/(N·(k·log P+1))]^α + E
这里,k是一个可调参数,代表并行缩放的有效性。
为了验证这一理论,研究团队进行了大规模预训练实验。他们使用Qwen-2.5的密集架构和分词器,从头训练具有不同参数规模(从0.5B到4.4B)和不同并行流数量(从1到8)的语言模型。训练数据固定为420亿个令牌,分别来自Stack-V2(Python子集)和Pile语料库。
实验结果惊人地符合理论预期,拟合优度(R?)高达0.998。研究发现,并行计算的缩放遵循对数趋势,即从1到2、从2到4、从4到8的并行流增加带来相似的性能提升。更重要的是,他们确认了核心假设:P倍的并行计算相当于将参数量增加O(log P)倍。
有趣的是,研究还发现,在Stack-V2上训练(侧重编码和推理能力)的模型比在Pile上训练(侧重记忆能力)的模型从并行缩放中获益更多。这暗示参数主要影响模型的记忆能力,而计算主要影响推理能力 - 这一洞察可能对未来AI系统的设计产生深远影响。
四、并行缩放的效率优势:空间与时间的完美平衡
并行缩放的最大亮点之一是其出色的推理效率。研究团队对比了并行缩放和参数缩放在相同性能水平下的内存使用和推理延迟。
与关注计算浮点运算数量的传统方法不同,研究者认为这不是评估大语言模型推理成本的理想指标。因为Transformer操作在解码阶段主要受内存访问而非计算量限制。因此,他们使用内存占用和延迟作为衡量指标。
实验结果表明,并行缩放仅略微增加内存使用,即使在较大批处理大小下也是如此。这是因为并行缩放只引入少量额外参数(每个流约0.2%)并增加KV缓存大小(扩大P倍),而KV缓存通常比模型参数占用少得多的GPU内存。
在时间成本方面,当批处理大小较小时,并行缩放添加的延迟极小,因为它将内存瓶颈转化为计算瓶颈,而并行计算对GPU非常友好。随着批处理大小增加,解码从内存瓶颈转向计算瓶颈,这会导致并行缩放的成本增加,但直到批处理大小为8时,它仍比参数缩放更高效。
研究表明,对于1.6B参数模型,当使用8路并行缩放时,相比于达到相同性能的参数缩放方法,内存增长减少了22倍,延迟增长减少了6倍(批处理大小为1)。这使得并行缩放特别适合智能手机、智能汽车和机器人等低资源边缘设备,这些设备通常查询较少,批处理大小较小。
研究者预计,随着人工智能的普及,未来的大语言模型将逐渐从集中式服务器部署转向边缘部署。这凸显了并行缩放在未来的巨大潜力。
五、两阶段训练策略:降低大模型训练成本的创新方法
虽然并行缩放在推理阶段非常高效,但它在训练阶段引入了约P倍的浮点运算,显著增加了计算密集型训练过程的开销。为了解决这一限制,研究团队提出了两阶段训练策略:第一阶段使用传统预训练方法处理大部分数据;第二阶段仅对少量数据应用并行缩放训练。
研究者遵循已有的最佳实践,在第一阶段采用预热稳定衰减(WSD)学习率调度,先进行2K步预热,然后固定学习率为3e-4。在第二阶段,学习率从3e-4逐渐降至1e-5。
在第一阶段,研究者使用了1万亿个令牌的高质量混合数据进行训练,包括3700亿通用数据、800亿数学数据和500亿代码数据。在第二阶段,他们使用第一阶段训练的模型作为主干,引入并行缩放所需的额外参数(使用0.02的标准差随机初始化),并使用70亿通用文本、70亿数学数据和70亿Stack-Python-Edu数据进行训练。
实验结果表明,在第二阶段开始时,P>1的模型由于引入随机初始化参数,损失会暂时超过P=1的模型。但仅经过少量数据处理(约0.0002T个令牌),模型就能快速适应这些新引入的参数并保持稳定。这证明了并行缩放可以通过很少的数据快速发挥作用。
研究者训练了一个1.8B参数模型,并将训练数据扩展到1T个令牌,在21个下游基准测试上,结果显示随着P的增加,性能呈上升趋势,验证了并行缩放在大规模数据集上的有效性。具体来说,当P从1增加到8时,并行缩放在通用任务上提升了2.6%,在数学和代码任务上分别提升了7.3%和4.3%。在GSM8K上,它实现了10%的提升(相对提升34%)。这再次证实,并行缩放在处理推理密集型任务时更加有效。
研究团队还对模型进行了指令微调,结果显示当P从1增加到8时,该方法在指令遵循基准测试IFEval上实现了5%的改进,在通用任务MMLU和推理任务GSM8K上也有显著提升。这证明了所提出的并行缩放在后训练阶段也表现出色。
六、应用到现有预训练模型:并行缩放的实用性验证
研究团队进一步研究了将并行缩放应用到现成预训练模型的可能性,重点关注两种设置:持续预训练和参数高效微调(PEFT)。
他们使用Pile和Stack-V2(Python)持续预训练Qwen-2.5(3B)模型。值得注意的是,Qwen-2.5已经在18T数据上预训练,这些数据可能与Pile和Stack-V2有显著重叠。实验结果表明,即使使用已经彻底训练过的基础模型和常用训练数据集,仍然可以实现性能提升。
更令人兴奋的是,研究者还尝试了使用PEFT来微调引入的参数,同时冻结主干权重。图6(c)显示,这种策略仍然能显著改善下游代码生成性能。更重要的是,这展示了动态并行缩放的前景:我们可以部署相同的主干,并灵活地在各种场景中切换不同数量的并行流(例如,高吞吐量和低吞吐量),从而实现不同级别的模型能力之间的快速转换。
这一发现意义重大,它意味着我们可以对现有的大型语言模型进行"改造",而不需要从头训练新模型,从而大大降低资源消耗和环境影响。
七、并行缩放的更广泛意义:计算与参数的角色重新定义
除了提供一种高效的大语言模型缩放方法,这项研究还引发了对机器学习中一个更基本问题的思考:模型能力是由参数决定还是由计算决定,它们各自的贡献是什么?
传统机器学习模型通常同时缩放参数和计算,这使得难以确定它们的贡献比例。研究者提出的并行缩放和拟合的并行缩放定律可能为这个问题提供了一个新颖且量化的视角。
提出的缩放定律表明,计算的增加可以部分替代参数的增加,具体来说,P倍的并行计算相当于增加O(log P)倍的参数。更有趣的是,并行缩放对推理密集型任务(如编程或数学)的提升更明显,这暗示缩放计算能够有效推动推理能力的边界。
研究者相信,大规模计算可以培育大规模智能。这项工作可能会启发更多探索朝向人工通用智能(AGI)缩放计算的方法,并为机器学习的其他领域提供见解。
八、未来研究方向:并行缩放的广阔前景
研究团队在论文中提出了几个值得进一步探索的方向:
首先是训练推理最优语言模型。Chinchilla研究探讨了在训练FLOP预算下确定参数和训练数据的训练最优量的缩放定律。现代大语言模型越来越关注推理最优模型,一些实践者使用比Chinchilla建议更多的数据来训练小模型,以提高推理效率。利用并行缩放,研究者希望确定如何在各种推理预算(如内存、延迟和批处理大小)下分配参数数量和并行计算,从而扩展推理最优缩放定律。
其次是并行缩放定律的进一步理论分析。尽管研究团队提出了一些理论结果,但直接建模DIVERSITY的挑战限制了他们使用大量实验来拟合并行缩放定律。为什么多样性与log P相关,是否存在超过O(log P)的增长率,以及当P远大于8时是否存在性能上限,仍然是开放问题。
第三是两阶段策略的最优分割点。考虑到并行缩放在训练阶段效率较低,研究者引入了两阶段策略,发现大语言模型仍然能够利用相对较少的令牌学习并行计算以提高能力。他们目前使用1T比20B令牌作为分割点,但是否存在更优的分割策略及其与性能的权衡关系也是一个有趣的研究方向。
第四是与混合专家(MoE)架构的结合应用。与Geiping等人提出的方法类似,并行缩放是一种计算密集型(但更高效)的策略,这在某种程度上与稀疏MoE(参数密集型)互补。考虑到MoE对延迟友好而并行缩放对内存友好,探索它们的组合是否能产生更高效和高性能的模型值得研究。
最后,虽然研究团队专注于语言模型,但并行缩放是一种更通用的方法,可以应用于任何模型架构、训练算法和训练数据。探索并行缩放在其他领域的应用,甚至提出新的缩放定律,也是一个有前景的未来方向。
九、总结:并行缩放开创了大模型发展的新范式
说到底,阿里巴巴钱文团队提出的并行缩放方法代表了大模型发展的一个新范式。它通过创新地复用现有参数进行多次并行计算,成功地减轻了参数缩放带来的内存压力和推理时间缩放导致的时间延迟。
并行缩放的核心贡献在于它发现并验证了一个全新的缩放定律:P倍的并行计算大约相当于增加O(log P)倍的参数。这一发现不仅提供了一种更高效的模型缩放方式,还深化了我们对人工智能系统中计算和参数相对重要性的理解。
此外,研究团队提出的两阶段训练策略和对现有预训练模型的应用表明,并行缩放不仅适用于从头训练新模型,还可以用来增强现有模型的能力,大大降低了应用门槛和资源需求。
对于普通用户来说,这项技术的意义在于:未来我们可能会看到更多在边缘设备上运行的强大AI模型,如智能手机、智能汽车和家用机器人,它们能够提供接近服务器级模型的性能,同时保持较低的内存占用和响应延迟。
对于AI研发人员来说,并行缩放提供了一种在资源有限情况下提升模型能力的新方法,可能会加速AI技术向更广泛场景的普及。它还为理解计算和参数在模型能力中的作用提供了新视角,这可能会影响未来AI系统设计的基本思路。
最终,这项研究告诉我们,人工智能的进步不仅仅依赖于更大的模型规模,还可以通过更聪明地使用现有资源来实现。正如研究团队所说:"大规模计算可以培育大规模智能",而他们的工作证明了这一点可以以出人意料的高效方式实现。
如果你对这项研究感兴趣,可以访问研究团队的代码库(https://github.com/QwenLM/ParScale)和模型检查点(https://huggingface.co/ParScale),进一步探索并亲自体验并行缩放的强大功能。
好文章,需要你的鼓励
现代大语言模型就像一栋拥有数百个房间的豪华大厦,每个房间(或称为"层")都执行特定的功能,共同协作完成复杂的语言理解和生成任务。然而,这些模型的规模已经变得如此庞大,以至于只有拥有高端计算资源的机构才能负担得起它们的运行成本。这就像一辆耗油量极大的豪华跑车,普通人负担不起它的燃料费用。
想象一下,当你在解答一道复杂的数学题时,你不仅需要给出答案,还需要详细解释每一步推导的理由,不能有任何逻辑跳跃或假设——这就是形式化数学推理的严格要求。
想象一下日常生活中我们使用的语音助手,比如Siri或ChatGPT。它们通常是这样工作的:你问一个问题,它回答,然后安静地等待你的下一个指令。这就像是一个只会被动回应的服务员,永远等待你的呼唤。而Voila团队认为,真正高级的AI助手应该更像一个时刻准备着的好朋友或队友,能够自然地融入你的生活节奏中。
想象一下,你正在参加一场料理比赛,有两位评委。第一位评委只给你一个分数,而第二位评委会详细解释你的菜品在口感、创意和技巧上的表现如何,然后才给出最终评价。显然,第二位评委的反馈对于你改进厨艺更有帮助。伊利诺伊大学研究团队正是秉持这一理念,开发了能像第二位评委那样工作的AI评估系统。