微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

让AI模型"瘦身"学习新技能：香港浸会大学开创量化神经网络零阶优化新方法

人工智能内存优化大型语言模型

让AI模型"瘦身"学习新技能：香港浸会大学开创量化神经网络零阶优化新方法

作者：科技行者

2025-05-26 17:03

分享至：

这项研究提出了量化零阶优化（QZO）方法，解决大型语言模型微调时的内存瓶颈问题。研究团队通过创新性地结合模型量化（将权重从16位压缩到4位）和零阶优化（通过前向传递扰动估计梯度），同时消除了对梯度和优化器状态的存储需求，将总内存消耗减少了18倍以上。实验表明，QZO在各种自然语言处理任务上表现优异，甚至能在单张24GB的消费级GPU上微调13B参数的模型和Stable Diffusion 3.5 Large。这一技术突破为资源有限的研究者提供了微调大模型的可能性。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-26 17:03 • 科技行者

在人工智能快速发展的今天，大型语言模型（LLM）变得越来越庞大，它们的训练和调整需要耗费巨大的计算资源。2025年5月，由香港浸会大学的商思峰、周嘉怡、林晨宇和南京理工大学的李敏贤，以及香港浸会大学的周凯阳教授共同发表了一篇创新性论文《使用零阶优化微调量化神经网络》(Fine-tuning Quantized Neural Networks with Zeroth-order Optimization)。这篇论文提出了一种名为"量化零阶优化"(QZO)的新方法，旨在大幅降低微调大型语言模型所需的内存消耗。有兴趣深入了解的读者可以通过arXiv:2505.13430v1在arXiv上访问完整论文。

想象一下，你有一辆非常耗油的豪华汽车（比如大型语言模型），但你只想在城市中短途使用它。传统上，即使是短程驾驶，这辆车也会消耗大量燃油。香港浸会大学的研究团队相当于发明了一种方法，可以让这辆豪华车在保持基本性能的同时，大幅降低油耗，使普通人也能负担得起日常使用。

让我们深入理解一下这项研究的背景。现代的大型语言模型规模越来越大，参数数量呈指数级增长。以Llama-7B模型为例，如果使用bfloat16（一种存储数字的格式）存储，仅仅是微调这个模型就需要56GB的GPU内存：14GB用于模型权重，14GB用于梯度，另外28GB用于优化器状态（如AdamW中的一阶矩和二阶矩，它们占用了梯度两倍的空间）。这使得拥有有限计算资源的研究人员和开发者几乎不可能微调大型语言模型。

简单地说，微调大型语言模型就像是想要改装一辆复杂的赛车，但需要一个巨大的车库和昂贵的专业工具。绝大多数人没有这样的条件，于是许多潜在的创新应用就被卡在了起跑线上。香港浸会大学的研究团队提出的QZO方法，就像是发明了一种方法，可以在普通家庭车库中用常见工具改装这辆赛车，让普通开发者也能参与到人工智能的创新中来。

一、内存瓶颈与现有解决方案

当我们谈论微调大型语言模型时，主要有四个组件会占用GPU内存：模型权重、梯度、优化器状态和用于计算梯度的激活值。其中，激活值主要受批量大小的影响，而前三个组件则是目前内存效率训练方法主要关注的目标。

想象一下，模型权重就像是一本巨大的食谱书，记录了AI模型如何"烹饪"输入数据得到输出结果。梯度则是对这本食谱的修改建议，记录了应该如何调整每个步骤。优化器状态则像是厨师的笔记本，记录了之前所有的修改建议，以便做出更明智的调整。当我们微调模型时，需要同时保存这本食谱书、修改建议和笔记本，这就占用了大量的内存空间。

现有的解决方案各有侧重。例如，LoRA（低秩适应）方法就像是只修改食谱中的关键步骤，而不是整本食谱，从而减少了需要修改的内容。GaLore方法则像是把复杂的修改建议简化，只保留最重要的部分。MeZO（内存高效零阶优化）通过直接尝试不同的调整并观察结果（而不是计算精确的修改建议），消除了对梯度和优化器状态的需求。

然而，这些方法都没有同时解决三个主要内存占用因素：模型权重、梯度和优化器状态。香港浸会大学的研究团队提出的QZO方法，就是要在统一的框架下同时解决这三个问题。

二、QZO：量化零阶优化的创新之处

QZO方法的核心思想可以用一个简单的类比来解释：想象你正在微调一个巨大的音乐盒。传统方法需要保存整个音乐盒的精确结构（模型权重）、每个齿轮应该如何调整的详细说明（梯度）以及之前所有调整的历史记录（优化器状态）。QZO则采取了完全不同的方法。

首先，QZO使用了"量化"技术来压缩模型权重。这就像是把音乐盒的精细结构简化，用更粗略但足够准确的表示方式记录下来。具体来说，它将模型参数从bfloat16格式（占用16位）转换为int4格式（只占用4位），从而将存储空间减少了4倍。

其次，QZO采用了"零阶优化"方法，完全消除了对梯度和优化器状态的需求。传统的优化方法（如梯度下降）需要通过复杂的反向传播计算梯度。而零阶优化则像是通过"试错"来找到正确方向：它通过在前向传递过程中扰动权重，观察结果变化来估计梯度方向。这就像是不需要知道齿轮的精确结构，只需要知道"向左转会让音乐变得更好听，向右转则会变差"，从而调整音乐盒。

然而，直接将零阶优化应用于量化后的模型是不可行的，因为量化后的权重是离散的，而梯度估计是连续的。这就像是无法用连续的旋转来调整只能固定在特定位置的齿轮。研究团队创新性地提出了解决方案：不直接扰动离散的权重，而是扰动连续的量化比例因子（quantization scale）。

想象一下，量化比例因子就像是音乐盒的"音量旋钮"，虽然齿轮结构是固定的，但通过调整这个旋钮，我们可以改变整体的声音效果。QZO正是通过扰动这个连续的"旋钮"来估计梯度并优化模型。

此外，研究团队还提出了一种"方向导数裁剪"方法来稳定训练过程。他们证明了这种裁剪方法本质上减少了梯度估计的方差，从而使训练更加稳定。这就像是在调整音乐盒时，避免做出过于剧烈的调整，而是采取更加平稳、可控的微调策略。

三、技术深入解析：从SPSA到Q-SPSA

为了理解QZO的技术细节，我们需要先了解零阶优化的基础——同步扰动随机近似（SPSA）。SPSA是一种在无法直接计算或不可靠的目标函数梯度情况下使用的优化方法。

想象你在完全黑暗中试图找到一个山谷的最低点。传统的方法是计算地形的斜率（即梯度），然后朝着下坡的方向移动。但在黑暗中，你无法直接看到斜率。SPSA相当于你随机选择一个方向，向前走一小步，再向后走一小步，比较这两个位置的高度差。如果向前时高度降低，向后时高度增加，那么向前的方向很可能是下坡方向。

具体来说，SPSA通过以下公式估计梯度：

将模型参数θ沿着随机方向z扰动一个小量ε，计算损失函数L在θ+εz和θ-εz处的值，然后通过差分近似计算梯度。

然而，这种方法无法直接应用于量化后的神经网络，因为量化后的权重是离散的，无法在连续空间中进行扰动，而且估计出的连续梯度也无法用于更新离散的量化权重。

研究团队的创新在于提出了量化同步扰动随机近似（Q-SPSA）。Q-SPSA不直接扰动离散的权重，而是扰动连续的量化比例因子。这就像是不改变音乐盒的基本结构，而只调整它的整体"音量"或"速度"。

具体来说，对于每个权重元素w，量化和反量化过程可以表示为：

w = ?w/Δ?（量化） w = Δ·w（反量化）

其中Δ是逐元素的量化比例因子，w是存储在更低位中的量化对应物。

Q-SPSA的核心思想是将模型参数分解为Δ⊙θ，然后扰动缩放分量Δ，同时保持离散权重θ不变。这样，就可以在连续空间中进行扰动和优化，同时保持量化的结构。

此外，研究团队还提出了方向导数裁剪（DDC）方法，用于稳定训练过程。DDC可以看作是对估计出的方向导数进行限制，避免出现过大的更新步长。研究团队证明了DDC本质上减少了梯度估计的方差，从而使训练更加稳定。

通过结合Q-SPSA和DDC，QZO成功地在统一框架下同时解决了模型权重、梯度和优化器状态的内存消耗问题，大大降低了微调大型语言模型的内存需求。

四、实验验证与性能对比

那么，QZO在实际应用中表现如何呢？研究团队在OPT-6.7B、Llama-2-7B和Llama-3.1-8B等不同的大型语言模型上进行了实验，使用了多种量化方法，并在包括SST2、RTE、CB、BoolQ和SQuAD在内的五个流行的自然语言处理基准测试上进行了评估。

实验结果令人印象深刻。使用4位量化的QZO与使用16位的MeZO相比，在大多数数据集上性能相当，有时甚至表现更好，同时内存使用量减少了3倍。例如，在使用Llama-2-7B模型的SQuAD数据集上，QZO达到了85.5分，超过了MeZO的80.7分。

更令人惊讶的是，QZO在极端量化情况下也表现出色。研究团队成功地对Llama-2-13B模型进行了2位量化，并通过QZO进行了微调，在各种自然语言处理任务上显著优于零样本基线。

在内存使用方面，与传统的16位全参数微调相比，QZO在4位量化的大型语言模型上将总内存成本降低了18倍以上。这使得在单个24GB的GPU上微调Llama-2-13B和Stable Diffusion 3.5 Large等大型模型成为可能。

以Stable Diffusion 3.5 Large为例，这个模型包含VAE、DiT和三个文本编码器（CLIP-ViT/G、CLIP-ViT/L和T5-XXL）。使用fp16/bf16进行常规训练需要0.37GB用于VAE，21.26GB用于文本编码器，16.2GB用于DiT，16.2GB用于梯度，32.4GB用于优化器状态，总共需要86.43GB的内存。而QZO只需要12.4GB的内存就可以微调这个模型，可以轻松地在单个NVIDIA RTX 4090 GPU（24GB）上运行。这是首次证明可以在消费级GPU上微调Stable Diffusion 3.5 Large。

五、局限性与未来展望

尽管QZO取得了显著的成果，但研究团队也坦率地指出了一些局限性和未来的研究方向。

首先，QZO的性能在很大程度上依赖于量化方法的质量。如果量化方法存在较大的量化误差，会使零阶优化中的前向传递变得嘈杂，从而使梯度估计不那么准确。不过，改进量化方法超出了本研究的范围。

其次，QZO在扩散模型（如Stable Diffusion）上的表现不如在大型语言模型上那么出色。这可能是由于零阶优化中的噪声扰动与扩散过程中的噪声调度之间的不匹配造成的。一个潜在的解决方案是重新设计零阶优化中的噪声调度，使其与扩散过程保持一致。

最后，QZO与全精度微调之间的性能差距仍然存在。为了缩小这个差距，需要显著提高零阶优化中的梯度估计准确性。

展望未来，研究团队认为QZO有潜力应用于边缘设备的在线学习场景，使得即使是计算资源有限的设备也能进行模型微调和适应。此外，随着量化方法的不断改进和零阶优化技术的发展，QZO的性能有望进一步提升。

六、结论与启示

QZO为微调量化神经网络提供了一种新的范式，通过零阶优化大大减少了与模型权重、梯度和优化器状态相关的内存使用。实验结果表明，QZO适用于各种大型语言模型，并且与标量为基础和基于码本的量化方法都兼容。

对于研究人员和开发者来说，QZO的意义在于它打破了计算资源的限制，使得即使是资源有限的团队也能参与到大型语言模型的微调和创新中来。这就像是民主化了人工智能技术，让更多人能够参与到前沿的AI研究和应用中。

对于普通用户来说，QZO的意义在于它可能会加速AI技术的普及和应用。当更多的开发者能够微调大型语言模型时，我们可能会看到更多针对特定领域和任务的优化AI应用出现，从而使AI技术在日常生活中变得更加有用和易于获取。

归根结底，QZO代表了一种思维方式的转变：不是简单地追求更大、更复杂的模型，而是寻找更聪明、更高效的方法来利用现有的计算资源。在AI技术快速发展的今天，这种思维方式尤为重要，因为它可以确保AI技术的发展方向不仅是更强大，还是更加可持续和包容的。

如果你对这项研究感兴趣，可以通过arXiv:2505.13430v1查阅完整论文，或者访问研究团队的GitHub仓库：https://github.com/maifoundations/QZO。