微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 腾讯混元团队重磅发现:训练AI大模型时,浮点数的"配方"原来大有讲究!

腾讯混元团队重磅发现:训练AI大模型时,浮点数的"配方"原来大有讲究!

2025-09-12 19:47
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-12 19:47 科技行者

这项由腾讯混元团队联合澳门大学、香港中文大学和东京科学技术研究所共同完成的研究发表于2025年6月的第42届国际机器学习会议(ICML 2025)。研究团队包括孙星武、李帅鹏等多位专家,有兴趣深入了解的读者可以通过论文编号arXiv:2501.02423v3访问完整论文。

当你用手机拍照时,每张照片都需要大量的数字来记录颜色和亮度信息。类似地,训练AI大模型也需要处理海量的数字运算。但是这里有个问题:如果每个数字都用最高精度来处理,就像用最高清的模式拍摄每一张照片一样,计算机的存储空间和运算速度都会受到严重拖累。

于是工程师们想到了一个聪明的办法:使用"浮点数"来表示这些数字。可以把浮点数想象成科学记数法的数字表示方式,比如把123000写成1.23×10^5。这种表示方法包含两个关键部分:一个是"尾数"(比如1.23),表示数字的具体数值;另一个是"指数"(比如5),表示数字的大小范围。在计算机里,这分别对应着"尾数位"和"指数位",它们共同决定了一个浮点数的精度和表示范围。

然而,这就像烹饪时的调料配比一样,指数位和尾数位的搭配比例会直接影响最终的"味道"——也就是AI模型的性能。过去的研究主要关注整数量化(相当于用粗糙的调料),对于浮点数量化训练中这些精细配比的影响却缺乏深入研究。腾讯混元团队发现,现有的预测模型在面对浮点数量化训练时,就像用错误的食谱烹饪一样,预测结果往往不尽如人意。

于是,研究团队决定从零开始,系统性地探索浮点数量化训练的奥秘。他们设计了366组不同的实验,就像一个超级厨师在厨房里尝试各种调料配比一样,测试了不同模型大小、不同数据量、不同指数位和尾数位配置对AI模型性能的影响。

一、发现浮点数的"黄金配比"

研究团队首先解决了一个基础问题:在训练AI模型时,到底应该对哪些计算环节进行量化处理。这就像在做菜时决定哪些步骤可以用简化工具,哪些步骤必须精工细作。

在AI模型的神经网络中,每一层都涉及复杂的矩阵运算。研究团队发现,这些运算可以分为三个主要阶段:前向计算(相当于食材的初步处理)、输入梯度计算(相当于调整味道)、以及参数梯度计算(相当于总结经验)。每个阶段都有两个关键输入需要处理。

通过大量实验,研究团队发现了一个有趣的现象:并不是所有的计算环节都需要高精度处理。具体来说,对权重、反向传播中的权重以及激活值的梯度进行量化,对模型性能的影响相对较小,就像烹饪时某些调料的精确度要求没那么高一样。但是,如果对输入激活值进行量化,特别是在计算输入梯度时,模型性能会显著下降,损失可能增加多达2%。

这个发现让研究团队意识到,在AI模型训练中,不同计算环节的重要性是不同的。有些环节就像烹饪中的主要调料,必须精确控制;有些环节则像配菜,可以适当简化处理。

二、指数位与尾数位的巧妙平衡

接下来,研究团队深入探究了指数位和尾数位配置的影响。这就像研究糖和盐的配比对菜品味道的影响一样,需要找到最佳的平衡点。

传统观点认为,指数位和尾数位应该同等重要,就像认为糖和盐在调味中的作用相当。但研究团队的实验结果却出人意料:指数位对模型性能的贡献略微大于尾数位。这意味着,在有限的数字位数预算下,稍微多分配一些位数给指数位会得到更好的效果。

具体来说,当总共有4个位数可用时,最佳配置是2个指数位和1个尾数位;8个位数时,最佳配置是4个指数位和3个尾数位;16个位数时,最佳配置是8个指数位和7个尾数位。这个发现为硬件制造商提供了宝贵的参考,就像为厨具设计师提供了最佳的工具规格建议。

研究团队还发现,这种配比规律背后有着深层的数学原理。他们通过大量的实验数据拟合,发现了一个精确的公式,可以预测在任何给定的位数预算下,应该如何分配指数位和尾数位的数量。

三、数据规模的"临界点"现象

在探索过程中,研究团队发现了一个令人惊讶的现象:在低精度训练中,并不是训练数据越多越好。这就像发现了"营养过剩"的问题——当摄入的营养超过身体能够有效吸收的量时,反而可能对健康产生负面影响。

传统的高精度训练中,增加训练数据通常会持续改善模型性能。但在低精度训练中,情况完全不同。当训练数据量超过某个临界值时,模型性能不但不会继续提升,反而会开始下降。

这个临界值被研究团队称为"临界数据大小"。它的存在可以用"知识密度"的概念来理解。在低精度训练中,模型就像一个容量有限的容器,当试图往里面装入过多信息时,容器就会"溢出",导致已有信息的质量下降。

研究团队通过数学推导,得出了计算这个临界数据大小的精确公式。他们发现,模型规模越大、训练精度越高、量化块大小越小,这个临界点就会相应推迟出现。这就像更大的容器、更好的材质、更精细的结构都能提高容器的承载能力。

以一个10亿参数的模型为例,在BF16精度下训练时,临界数据大小高达1730T(万亿个字符),远超现有数据集规模,所以我们从未观察到这种现象。但当使用FP8-E4M3格式训练时,临界数据大小降至27T;使用FP4-E2M1格式时,更是锐减到仅0.4T。这解释了为什么在极低精度训练中,过多的数据反而会伤害模型性能。

四、计算预算的最优分配策略

研究团队还探索了在固定计算预算下,如何最优地分配计算资源。这就像在固定预算下安排一顿大餐,需要在食材质量、菜品数量和烹饪精度之间找到最佳平衡。

当数据量固定时,研究团队发现了一个有趣的策略:在训练初期使用激进的量化策略(如FP8甚至FP4),快速让模型收敛到较好水平;随着数据量增加和"知识密度"提高,逐步提升训练精度到BF16甚至FP32,以维持最佳的训练效果。这就像做菜时,先用大火快速加热,然后转小火慢炖的策略。

当模型大小固定时,研究团队发现精度和计算预算之间存在一个幂律关系。通过这个关系,他们可以预测在任何给定的计算预算下,最优的量化精度应该是多少。

最重要的是,当同时优化模型大小、数据量和精度时,研究团队发现了一个关键结论:在广泛的计算预算范围内(从10^21到10^31次浮点运算),最优的成本性能精度始终保持在4-8位之间。这意味着,不管你的计算预算是多少,使用4-8位精度训练都能获得最佳的性价比。

五、Capybara缩放定律的诞生

基于所有这些发现,研究团队提出了他们的核心贡献:Capybara缩放定律。这个定律就像一个万能公式,可以精确预测在任何给定的模型大小、数据量、指数位、尾数位和量化块大小组合下,AI模型的最终性能。

Capybara这个名字很有寓意。在自然界中,水豚是一种群居动物,但当栖息地变得过于拥挤时,种群密度的增加反而会降低个体的生存质量。这正好类比了研究团队发现的现象:在低精度训练中,过多的数据(相当于过高的"知识密度")反而会损害模型性能。

这个缩放定律的数学表达式看起来复杂,但其核心思想很简单。它由两个主要部分组成:一个是传统的Chinchilla缩放定律部分,描述数据量和模型大小对性能的基础影响;另一个是新增的精度影响部分,描述低精度训练带来的额外性能损失。

精度影响部分可以理解为"知识密度"与"低精度信息损失"的乘积。"知识密度"由数据量与模型大小的比值决定,表示单位模型容量需要处理的信息量;"低精度信息损失"则由指数位、尾数位和量化块大小共同决定,表示量化过程造成的信息丢失程度。

六、实验验证与应用价值

为了验证Capybara缩放定律的准确性,研究团队进行了大规模的实验验证。他们训练了从4100万到6.79亿参数不等的各种模型,使用了从100亿到1000亿个训练词元的不同数据量,测试了36种不同的精度配置组合。

实验结果令人振奋:与之前的预测方法相比,Capybara缩放定律能够更准确地预测模型性能,特别是在低精度训练场景下。之前的方法在面对FP3这样的极低精度配置时,预测偏差很大,就像用错误的食谱做菜,结果往往差强人意。而Capybara缩放定律的预测结果与实际测试结果高度吻合。

更重要的是,研究团队还验证了这个定律在更大模型上的适用性。他们测试了12亿、70亿和700亿参数的模型,发现Capybara缩放定律依然能够准确预测性能,证明了其在大规模应用中的可靠性。

这项研究的实用价值巨大。对于AI模型开发者来说,他们现在可以在开始昂贵的训练过程之前,就准确预测不同配置下的模型性能,从而选择最优的训练策略。对于硬件制造商来说,研究提供的最佳浮点格式配置指南可以帮助他们设计更高效的AI训练芯片。对于研究机构和公司来说,4-8位精度的最优成本性能建议可以帮助他们在有限预算下获得最佳效果。

七、对未来的深远影响

这项研究的影响远不止于技术层面。它揭示了AI训练中一个根本性的权衡:在追求效率的过程中,我们需要在精度、速度、成本和性能之间找到最佳平衡点。

从产业发展角度来看,这项研究为AI民主化提供了重要支撑。通过优化量化策略,更多的研究机构和小公司可以用较少的计算资源训练出高质量的AI模型。这就像发明了更高效的烹饪方法,让更多人能够制作出美味的菜肴。

从科学研究角度来看,Capybara缩放定律为理解AI模型的学习机制提供了新的视角。"临界数据大小"的发现揭示了模型容量与信息消化能力之间的内在关系,为未来的模型架构设计提供了理论指导。

从环境保护角度来看,更高效的训练策略意味着更少的能源消耗。当全球都在关注AI训练的碳排放问题时,这项研究提供了一个实用的解决方案:通过智能的量化策略,在保持模型性能的同时显著降低训练成本。

当然,这项研究也有其局限性。目前的实验主要基于Transformer架构,对于其他新兴架构(如Mamba系列)的适用性还需要进一步验证。研究重点关注的是经典浮点量化策略,对于其他新型低位量化方法的支持也有待扩展。

说到底,这项研究最重要的价值在于它改变了我们对AI训练效率的认知。过去我们可能认为,要获得更好的AI模型就必须使用更高的精度、更多的数据、更强的计算力。但腾讯混元团队的发现告诉我们,智慧的策略往往比蛮力更有效。就像优秀的厨师不是因为拥有最贵的食材,而是因为掌握了最佳的烹饪技巧。

这项研究为整个AI社区提供了一个宝贵的工具箱,让每个开发者都能根据自己的具体需求和资源限制,找到最适合的训练策略。在AI技术快速发展的今天,这样的研究成果尤其珍贵,因为它不仅推动了技术进步,更让技术变得更加普惠和可持续。

有兴趣进一步了解技术细节的读者,可以通过论文编号arXiv:2501.02423v3查阅完整的研究报告,其中包含了详细的数学推导、实验设计和结果分析。

Q&A

Q1:Capybara缩放定律是什么?它能帮助解决什么问题?

A: Capybara缩放定律是腾讯混元团队提出的一个数学公式,可以精确预测在不同模型大小、数据量和浮点精度配置下AI模型的性能表现。它主要解决了低精度训练中性能预测不准确的问题,帮助开发者在开始昂贵的训练之前就能选择最优配置。

Q2:为什么训练数据不是越多越好?什么是临界数据大小?

A:在低精度训练中存在"临界数据大小"现象,当训练数据超过这个临界值时,模型性能反而会下降。这是因为低精度训练中模型的信息处理能力有限,就像容量有限的容器,装入过多信息会导致"溢出",影响已有信息质量。

Q3:浮点数量化训练中指数位和尾数位应该如何配置?

A:研究发现指数位比尾数位对模型性能的贡献略大。最佳配置为:4位总精度时用2个指数位1个尾数位;8位时用4个指数位3个尾数位;16位时用8个指数位7个尾数位。在4-8位精度范围内能获得最佳成本性能比。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-