微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 破解大模型量化训练之谜:香港大学与字节跳动的量化缩放定律研究

破解大模型量化训练之谜:香港大学与字节跳动的量化缩放定律研究

2025-05-27 15:31
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-27 15:31 科技行者

在人工智能发展日新月异的今天,大语言模型(LLMs)已经成为了推动自然语言处理技术进步的重要力量。然而,这些模型越来越庞大的体积和计算需求,也给它们的部署和应用带来了巨大挑战。2025年5月21日,来自香港大学和字节跳动Seed团队的研究人员,包括陈梦昭、张超逸、刘静等多位学者,在一篇题为《量化感知训练的缩放定律》(Scaling Law for Quantization-Aware Training)的论文中,为解决这一难题提供了全新的理论框架。有兴趣深入了解的读者可以通过arXiv:2505.14302v1查阅完整论文。

想象一下,如果大语言模型是一本厚重的百科全书,那么量化就像是将这本书以更紧凑的方式重新编排,使得同样的内容可以用更少的纸张表达出来。这种压缩虽然节省了资源,但如果处理不当,就可能导致内容失真。这正是模型量化所面临的挑战:如何在减少存储和计算需求的同时,尽可能保持模型的性能不下降。

传统的方法主要有两种:一种是训练后量化(PTQ),就像在写完整本书之后才进行压缩,这种方法在8位精度(W8A8)下表现尚可,但降到4位精度(W4A4)时性能就会大幅下降;另一种是量化感知训练(QAT),这相当于在写书的过程中就考虑到后续的压缩需求,从而在低位精度下也能保持较好的性能。然而,对于QAT在超低位(如W4A4)下的表现规律,学术界一直缺乏系统的理解。

正是这一空白,促使研究团队开展了这项开创性研究。他们通过268组QAT实验,系统地探索了模型大小、训练数据量以及量化粒度三大因素对量化误差的影响,并首次提出了一个统一的QAT缩放定律。这个定律不仅能够准确预测不同设置下的量化误差,还深入揭示了W4A4量化误差的主要来源。

让我们一起深入这项研究,看看研究团队是如何揭开大语言模型量化训练的神秘面纱,以及这些发现对未来AI技术发展可能带来的深远影响。

一、量化训练的挑战与现状

想象一下,你正在尝试用有限的词汇量翻译一本外文小说。如果你只能使用1000个最常见的词,那么许多细微的表达和专业术语就无法准确传达,这就是"量化"在语言模型中面临的挑战。在计算机世界里,我们通常使用32位或16位的浮点数来表示模型中的参数,但这需要大量的存储空间和计算资源。为了解决这个问题,研究者们尝试使用更少的位数(比如8位或4位)来表示这些参数,这就是所谓的"量化"过程。

传统的模型量化主要有两种方法:训练后量化(PTQ)和量化感知训练(QAT)。PTQ就像是在你写完整本书后再进行编辑压缩,它的优点是简单直接,但当压缩过于激进时(比如压缩到4位),书中的重要信息可能会丢失。而QAT则是从一开始就考虑到压缩因素,就像在写作过程中就注意使用简洁明了的表达方式,这样最终的压缩效果会更好。

虽然已有研究探索了模型大小对量化性能的影响,但对于训练数据量和量化粒度这两个关键因素,学术界的理解还很有限。例如,当你使用更多的训练数据时,模型的量化误差会如何变化?当你改变量化的粒度(即一次量化多少数据)时,性能又会有何不同?这些问题在现有的QAT缩放定律中都没有得到充分解答。

"量化粒度"是一个重要概念,它决定了我们在多大的范围内共享一个量化参数。想象你在给一幅画压缩存储空间:你可以对整幅画使用同一套压缩参数(粗粒度),也可以对每个区域使用不同的参数(细粒度)。显然,细粒度压缩能更好地保留细节,但需要更多的额外信息来记录这些参数。在模型量化中也是如此,研究团队发现,量化粒度对最终的量化误差有显著影响。

二、统一的QAT缩放定律:揭示模型量化的内在规律

在数学和物理学中,缩放定律(Scaling Law)是描述系统在不同尺度下行为规律的重要工具。比如,我们知道动物体重增加时,它的骨骼强度必须以更快的速度增长,否则会在自身重量下崩溃。类似地,对于语言模型,研究者们发现模型性能会随着模型大小、训练数据量和计算资源的增加而提升,但这种提升遵循特定的数学规律。

早期的Kaplan缩放定律和后来改进的Chinchilla缩放定律分别揭示了全精度(不量化)条件下,模型性能如何随这些因素变化。然而,当我们考虑量化后的模型时,这些规律是否仍然适用?又或者,量化会引入新的规律?这正是香港大学和字节跳动研究团队试图解答的问题。

通过268组精心设计的QAT实验,研究团队首次提出了一个统一的QAT缩放定律,它可以表示为:

δp(N, D, G) = k · DγD · (log?(G))γG / NγN

在这个公式中: - δp代表p位QAT的量化误差 - N是模型大小(参数数量) - D是训练数据量(token数量) - G是量化粒度 - k、γN、γD和γG是拟合参数

这个公式揭示了三个重要发现:

首先,量化误差会随着模型大小的增加而减少。就像更大的容器能够更好地存储复杂信息一样,更大的模型对量化的"抵抗力"也更强。例如,当模型从74M参数增加到594M参数时,W4A4的量化误差平均减少了34%。

其次,量化误差会随着训练数据量的增加而增加。这可能会让人感到意外,因为通常我们认为更多的训练数据会带来更好的性能。但在量化场景下,情况有所不同。当训练数据从10B增加到100B时,W4A4的量化误差平均增加了22%。这可能是因为更多的训练数据使模型学习到更复杂的表示,这些表示在低位精度下更难以准确捕捉。

第三,量化误差会随着量化粒度的增大而增加。就像使用更粗的刻度尺测量物体会导致更大的误差一样,使用更粗的量化粒度也会导致更多的信息丢失。研究发现,在最粗和最细的粒度之间,W4A4的量化误差差距高达0.037,这几乎是最粗粒度量化误差的一半。

这个统一的缩放定律不仅能够准确预测不同设置下的量化误差,还揭示了模型量化中的基本规律,为未来的QAT算法设计提供了重要理论指导。

三、权重与激活:量化误差的两大来源

当我们深入研究W4A4量化误差的来源时,一个自然的问题是:误差主要来自权重量化还是激活量化?要回答这个问题,研究团队进行了两组额外的QAT实验:W4A16(只量化权重到4位,激活保持16位)和W16A4(只量化激活到4位,权重保持16位)。

通过对比这两组实验的结果,研究团队发现W4A4的量化误差可以近似地表示为W4A16和W16A4量化误差的总和,两者之间的相关系数高达0.906。这意味着我们可以通过分别分析权重量化误差和激活量化误差,来理解W4A4量化误差的完整图景。

研究发现,虽然权重量化误差和激活量化误差都随着模型大小的增加而减少,随着训练数据量和量化粒度的增加而增加,但它们的敏感度不同:

权重量化误差对模型大小更敏感(γN = 0.3589,高于激活量化的0.1816),意味着增大模型对减少权重量化误差更有效。当模型从74M增加到594M时,权重量化误差平均下降51%,而激活量化误差仅下降34%。

权重量化误差对训练数据量也更敏感(γD = 0.1610,远高于激活量化的0.0331)。当训练数据从10B增加到100B时,权重量化误差平均增加43%,而激活量化误差仅增加12%。

激活量化误差对量化粒度极为敏感(γG = 0.9821,远高于权重量化的0.3533)。这可能是因为激活值中存在较多的离群值,这些值在粗粒度量化下更难以准确表示。

通过计算R = δW16A4/δW4A16(激活量化误差与权重量化误差的比值),研究团队发现在大多数情况下R > 1,意味着激活量化误差通常大于权重量化误差,是W4A4量化的主要瓶颈。然而,当数据与参数比(D/N)增加时,R值会下降,表明随着训练数据量的增加,权重量化误差的相对重要性会上升。

四、FC2层输入:量化的关键瓶颈

在深入分析激活量化误差的来源时,研究团队发现了一个有趣的现象:在Transformer块的四个线性层(QKV Proj、O Proj、FC1 Proj和FC2 Proj)中,FC2 Proj层的输入激活值是量化误差的主要来源。

为了理解这一现象,研究团队测量了各层输入激活值的峰度(Kurtosis),这是一个衡量分布"尾部厚度"的统计量,值越大表示分布中存在越多的离群值。结果显示,虽然QAT能有效降低大多数层的峰度,但FC2 Proj输入的峰度仍然异常高(从BF16训练的123降至W4A4训练的89,但仍远高于其他层)。

这主要是因为FC2 Proj的输入来自SwiGLU模块的输出。SwiGLU中的门控机制和非线性变换会产生复杂的激活分布,导致更多的离群值。这些离群值在4位精度下难以准确表示,成为了W4A4 QAT的主要瓶颈。

为了验证这一发现,研究团队采用了一种简单的混合精度方法:将FC2 Proj的输入量化到8位,而其他部分仍保持4位。这一改变显著降低了量化误差,尤其是在粗粒度量化场景下:对于G = 32,量化误差降低了20.5%;对于G = 256,量化误差降低了42.9%。

更重要的是,当FC2输入使用8位量化后,激活量化误差和权重量化误差变得相当,它们的比值R在数据参数比D/N = 100到1000的范围内接近1(约为0.85到1.10)。这表明,一旦解决了FC2输入的激活量化瓶颈,权重量化和激活量化对总误差的贡献基本相当。

这一发现有重要的实践意义:在设计4位QAT算法时,不应只关注激活量化,也应同时优化权重量化,尤其是在大数据训练场景下。同时,针对FC2输入的特殊处理(如使用更高的精度或更有效的离群值抑制方法)可以显著提升W4A4 QAT的性能。

五、与现有QAT缩放定律的比较

研究团队将提出的统一QAT缩放定律与现有方法进行了对比。现有的QAT缩放定律主要考虑模型大小N,忽略了训练数据量D和量化粒度G的影响,因此需要为每种量化粒度拟合单独的曲线。

相比之下,提出的统一缩放定律能够用单一公式同时建模不同的量化粒度,并考虑训练数据量的影响,大大提高了预测精度。对于W4A16 QAT,相对误差从19.3%降至5.2%;对于W4A4 QAT,相对误差从8.5%降至4.7%。W4A16的改进更为显著,这是因为权重量化误差对训练数据量的敏感度高于激活量化误差。

这个统一的缩放定律不仅提高了预测精度,还揭示了模型量化中的基本规律,为未来的QAT算法设计提供了重要理论指导。

六、研究意义与未来方向

这项研究的意义远不止于提出一个新的数学公式。它深入揭示了大语言模型量化训练中的基本规律,为未来的模型设计和训练策略提供了重要指导。

首先,研究表明,并非所有的量化误差都是平等的。FC2层输入的激活量化是最主要的瓶颈,针对性地处理这一部分(例如使用混合精度量化)可以显著提升整体性能。这就像在减肥过程中,了解到大部分脂肪集中在腹部,那么针对腹部的锻炼会比全身运动更有效。

其次,研究发现,随着训练数据量的增加,权重量化误差的重要性会上升。这意味着未来的QAT算法不应只关注激活量化,也应同时优化权重量化,尤其是在大数据训练场景下。

第三,量化粒度对激活量化误差的影响远大于对权重量化误差的影响。这提示我们,在设计混合精度量化策略时,可以对权重使用相对粗糙的量化粒度,而对激活(尤其是FC2输入)使用更细的量化粒度,从而在保持性能的同时降低计算和存储开销。

最后,统一的QAT缩放定律为模型设计者提供了一个强大的工具,可以在不进行大量实验的情况下,预测不同设置(模型大小、训练数据量、量化粒度)下的量化误差,从而做出更明智的设计决策。

展望未来,这项研究为多个方向的进一步探索奠定了基础:

一方面,研究团队只探索了4位量化,未来可以扩展到更低位精度(如3位、2位或二值化)的缩放定律。

另一方面,可以探索针对FC2输入的更高效离群值处理方法,而不是简单地提高精度,从而在保持性能的同时进一步降低计算和存储开销。

此外,研究主要关注了密集模型,未来可以将缩放定律扩展到混合专家模型(MoE)等更复杂的架构上。

最后,该研究为全量化训练(FQT,同时量化前向和反向传播)提供了理论基础,这对于进一步加速大模型训练具有重要意义。

总的来说,这项研究不仅提出了一个统一的QAT缩放定律,还深入揭示了大语言模型量化训练中的基本规律,为未来的模型设计和训练策略提供了重要指导,推动了大模型高效部署和应用的发展。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-