微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

一个字就能节省千个字：低秩克隆技术实现高效知识蒸馏，哈尔滨工业大学研究提升小型语言模型效率

小型语言模型知识蒸馏低秩投影

一个字就能节省千个字：低秩克隆技术实现高效知识蒸馏，哈尔滨工业大学研究提升小型语言模型效率

作者：科技行者

2025-05-23 15:25

分享至：

这篇论文介绍了一种名为"低秩克隆"(LRC)的新型知识蒸馏方法，能极大提升小型语言模型的训练效率。哈尔滨工业大学深圳校区和百度公司的研究团队通过训练可学习的低秩投影矩阵，同时实现了软剪枝和激活克隆，避免了传统方法中的信息损失和对齐效率低下问题。实验证明，仅用100亿-200亿文本单元训练的LRC模型性能可匹配或超越需要万亿级训练数据的现有模型，训练效率提升1000倍以上，为资源受限场景下的高性能语言模型开发提供了突破性解决方案。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-23 15:25 • 科技行者

在人工智能领域，一个引人注目的问题正困扰着研究人员和企业：如何让小型语言模型（SLM）拥有大型语言模型（LLM）的聪明头脑，同时又不需要消耗天量的计算资源？这就像是想让一辆紧凑型汽车拥有跑车的性能，却不需要耗费昂贵的燃油。近日，来自哈尔滨工业大学深圳校区的贾泰浩、黄强和于军，联合百度公司的刘浩、肖新燕以及莱顿大学的任召春发表了一篇题为《一个字值上千个字：通过低秩克隆实现高效知识蒸馏》的研究论文，为这个问题提供了一个创新的解决方案。该论文已提交审阅，将可能在2025年5月发表。

想象一下，现在最先进的小型语言模型如Llama-3.2-3B和Qwen3-1.7B，需要分别处理9万亿和36万亿个文本单元（称为"token"）才能达到令人满意的性能。这就像是要读完地球上所有图书馆的书才能获得足够的知识。而这篇研究的神奇之处在于，研究团队开发的"低秩克隆"（Low-Rank Clone，简称LRC）技术只需要处理100亿至200亿个文本单元，就能达到甚至超越这些模型的性能，效率提升了惊人的1000倍以上！

现有的知识蒸馏方法（从大模型向小模型转移知识的技术）面临三个主要挑战：一是硬剪枝（直接删除模型中"不重要"的神经元）会导致信息丢失；二是表示对齐效率低下（需要额外的映射层来匹配大小模型的内部状态）；三是信息丰富的前馈网络（FFN）激活信号被严重忽视。就像一个学生试图从老师那里学习，但是只能听到老师讲话的一半，还需要一个翻译来解释老师的话，同时还忽略了老师写在黑板上的重要内容。

研究团队提出的低秩克隆技术巧妙地解决了这些问题。LRC不是简单地删减神经元，而是通过一组可训练的低秩投影矩阵，将教师模型的权重压缩到学生模型的空间中，同时确保学生模型的中间激活与教师模型的相匹配。这就像给学生配备了一个特殊的学习设备，既能完整捕捉老师所有的讲解内容，又能将复杂的知识转化为学生能理解的形式，而且不会丢失任何重要信息。

最令人印象深刻的是，使用LRC技术训练的模型在标准基准测试中表现出色。例如，LRC-1.7B模型（使用Qwen2.5-3B作为教师）在仅处理200亿个文本单元后，就在平均准确率上超过了Qwen3-1.7B（64.98% vs 63.17%），而后者需要处理36万亿个文本单元。同样，LRC-4B模型（使用Qwen2.5-7B作为教师）也达到了与Qwen3-4B相当的性能。

接下来，让我们深入了解这项突破性技术的工作原理和详细研究结果。

一、低秩克隆：如何让小模型学会大模型的本领

低秩克隆（LRC）可以类比为一种高效的知识传授过程，在这个过程中，一个经验丰富的教师（大型语言模型）将其所有知识传授给一个年轻的学生（小型语言模型）。与传统教学不同，LRC采用了两个关键步骤确保知识传递的高效性和完整性。

首先是"低秩投影"步骤。传统方法通常是直接删除模型中被认为不重要的部分，就像从厚厚的教科书中撕掉一些"不太重要"的章节。这种做法显然会导致信息丢失。而LRC采用了完全不同的方法：它训练一组低秩投影矩阵，这些矩阵能够将教师模型的权重压缩到更小的空间，同时保留关键信息。这就像是把一部厚重的百科全书浓缩成一本精简版，但不是简单地删除内容，而是通过巧妙的编排，确保所有重要知识都以更紧凑的形式保留下来。

具体来说，对于教师模型中的每一层（包括注意力机制和前馈网络），LRC都会通过相应的低秩投影矩阵生成学生模型的权重：W^S_{m,i} = W^T_{m,i}W^p_{m,i}，其中W^T_{m,i}是教师模型在第i层的权重矩阵，W^p_{m,i}是相应的低秩投影矩阵，而W^S_{m,i}是生成的学生模型权重。同样的方法也适用于词嵌入和语言模型头部的权重。

第二个关键步骤是"激活克隆"。在传统方法中，研究人员主要关注对齐模型的注意力分数，而忽略了前馈网络中包含的丰富信息。LRC通过对齐多种中间激活来克服这一限制，包括注意力机制和前馈网络的输入投影和输出。这就像不仅要学习老师的结论，还要理解老师的思考过程。LRC使用均方误差损失来确保学生模型的激活与教师模型的激活尽可能相似。

值得一提的是，LRC具有一个独特的"无需对齐"特性。传统的特征蒸馏方法需要额外的对齐矩阵来处理学生和教师模型之间的维度不匹配问题。而在LRC中，用于生成学生权重的相同低秩投影矩阵也可以直接用于对齐激活，无需额外的对齐模块。这大大简化了训练过程，并提高了蒸馏效率。

研究团队以数学方式证明了这一特性。以前馈网络为例，当学生模型的中间激活（h^S_{up,i}和h^S_{gate,i}）与教师模型的相应激活完全匹配时，学生的前馈网络输出将与教师输出通过同一投影矩阵传递的结果完全相同。这种"无需对齐"的设计不仅提高了训练效率，还增强了知识转移的质量。

综合这两个关键步骤，LRC创建了一个统一的框架，同时执行软剪枝（通过压缩教师权重）和知识蒸馏（通过对齐激活）。这种方法能够保留教师模型的大部分知识，同时显著减少训练开销。

二、实验设置与模型训练：如何让理论变为现实

研究团队设计了一系列实验来评估LRC的有效性。他们训练了多个LRC模型，使用不同的开源教师模型：Llama-3.2-3B-Instruct用于训练LRC-1.5B，Qwen2.5-3B-Instruct用于训练LRC-1.7B，Qwen2.5-7B-Instruct用于训练LRC-4B。为了与Sheared-Llama进行公平比较，他们还使用Llama-2-7B-chat作为教师训练了LRC-2.7B。

训练过程采用了监督微调（SFT）来获得指令版本的LRC模型。所有模型都使用长度为2,048的打包序列进行训练，以提高计算效率。研究团队使用Adam优化器，参数β1=0.9，β2=0.999，KL散度温度设置为40。训练在8个NVIDIA H800 GPU上进行，使用PyTorch、Transformers和Deepspeed框架实现分布式并行计算。

训练数据集是由Fineweb-Edu、DCLM和CosmopiediaV2混合构成的。Fineweb-Edu是主要组成部分，因其高质量的教育内容而被选用。为了丰富预训练数据分布，研究团队还纳入了DCLM和CosmopiediaV2，并使用OpenHermes。此外，他们还利用UltraChat作为监督微调数据集进行指令调整。预训练数据集经过随机打乱，没有使用课程设置。

为了全面评估LRC的性能，研究团队与多个代表性和竞争性的基线进行了比较：Sheared Llama（使用相同的教师和训练数据进行公平比较）；Minitron（通过其发布的检查点进行评估）；TinyBERT（一种特征蒸馏方法，已适配到Llama架构）。此外，他们还将LRC与类似规模的最先进开源小型语言模型进行了对比，包括MiniCPM、SmolLM2、Gemma3、InternLM和Qwen3系列模型。

在评估中，所有模型都在零样本（zero-shot）设置下使用lm-evaluation-harness框架进行评估，以Transformers作为推理后端。评估涵盖了一系列下游任务，涉及多种语言理解技能：科学和逻辑推理（ARC-E、ARC-C和LogiQA）；常识理解（CommonsenseQA、PIQA和WinoGrande）；阅读理解（BoolQ）；以及世界知识（SciQ和MMLU）。这些多样化的任务能够全面评估模型的各方面能力。

三、实验结果：小模型也能有大智慧

研究团队首先比较了参数少于2B的LRC模型与领先的小型语言模型。结果令人惊喜：LRC-1.5B，从Llama-3.2-3B-Instruct蒸馏而来，仅使用100亿个文本单元，就在性能上超过了SmolLM2-1.7B（该模型训练了11万亿个文本单元）。同样，LRC-1.7B，从Qwen2.5-3B-Instruct蒸馏而来，在参数少于2B的所有模型中取得了最佳性能，超过了Qwen3-1.7B，而后者需要处理36万亿个文本单元。这些结果突显了LRC令人瞩目的蒸馏效率，仅使用1000倍更少的训练数据就实现了卓越的性能。

为了评估LRC的可扩展性，研究团队进一步评估了更大的模型。LRC-4B，从Qwen2.5-7B-Instruct蒸馏而来，仅使用100亿个文本单元，就实现了与Qwen3-4B（训练了36万亿个文本单元）相当的性能，并且超过了Minitron-4B，后者使用了5倍多的数据进行训练。研究团队还通过复制其设置，使用Llama2-7B作为教师和相同的训练数据集，与Sheared-Llama-2.7B-B进行了公平比较。他们的LRC-2.7B-B仍然取得了可比的性能，同时使用了5倍更少的文本单元。

这些发现证明了LRC在各种教师-学生配置中的稳健性和通用性。值得注意的是，所有报告的LRC模型都经过了SFT。

四、深入分析：为什么低秩克隆如此有效

为了深入了解LRC的两个核心组件（低秩投影和激活克隆）的贡献，研究团队进行了一系列消融研究。所有实验都使用Llama-3.2-3B-Instruct作为教师，在25亿个文本单元上训练，不进行SFT。他们使用训练语言模型损失作为评估指标，因为数据包含最小的重复，并且训练仅运行一个周期。

首先，他们评估了低秩投影的影响，将LRC与TinyBERT风格的蒸馏进行比较，后者将学生随机初始化并从头开始训练，使用MSE损失与每层的注意力激活和输出对齐。由于TinyBERT依赖于注意力分数图，难以扩展到更长的上下文，因为它无法使用FlashAttention。结果显示，LRC比TinyBERT快2.7倍达到3.0的语言模型损失，这凸显了通过投影传递结构化权重信息的好处，而不是从头开始学习。

接着，研究团队衡量了克隆损失Lclone中不同激活信号的贡献，进行了项级别和模块级别的消融研究。项级别结果显示，当移除单个激活项时，移除与前馈网络相关的项，特别是FFN门，会显著降低性能，将语言模型损失从2.639增加到2.677。这证实了前馈网络激活携带了基本信息，对齐它们对有效的行为克隆至关重要。

模块级别结果展示了删除所有注意力相关与前馈网络相关的克隆损失的影响，以及完全移除所有克隆信号的影响。观察发现，虽然在早期训练阶段LRC w/o Attn显著影响性能，但它在后期阶段逐渐恢复，并趋向于完整LRC的性能。然而，LRC w/o FFN产生了贯穿整个训练过程的实质性性能下降，进一步确认了前馈网络激活的关键重要性。此外，当LRC和LRC w/o All Clone Loss达到3.0的语言模型损失时，LRC实现了超过2倍的训练时间使用减少，证明了激活克隆的有效性。

最后，研究团队评估了LRC的无需对齐特性，将其与一个变体（LRC w/o Alignment Free）进行比较，后者为注意力和前馈网络输出训练额外的对齐矩阵。结果显示，这个变体增加了可训练参数的大小，延长了训练时间，并导致更差的最终性能。这些结果确认了LRC基于投影的对齐不仅足以有效传递知识，而且更高效和稳定。

五、模型分析：数据质量比数量更重要

为了更好地理解LRC的设计选择和行为，研究团队进行了一系列深入分析，重点关注两个方面：训练期间的性能趋势和训练数据质量的影响。

研究团队在整个训练过程中监控模型检查点，以检查性能轨迹。结果显示，LRC使用仅50%的训练文本单元就已达到了有竞争力的性能。此外，随着更多训练，模型性能继续稳步提高，确认了LRC的可扩展性和高效的学习动态。

由于LRC仅需要少量训练数据就能达到强大的性能，研究团队进一步检验了训练数据质量如何影响性能。Fineweb-Edu为每个样本提供教育价值分数。为了评估高质量输入的影响，他们构建了一个过滤数据集，只保留分数≥4的样本，并使用Llama-3.2-3B-Instruct作为教师重新训练LRC-1.5B。结果表明，在这个过滤数据上训练，仅使用100亿个文本单元（Mixed-1.1）就超过了200亿个文本单元设置（Mixed-2.0）的性能，两者都没有SFT。这一结果证明了LRC能够放大高质量数据的好处，进一步增强其样本效率。

为了提高训练效率，研究团队还探索了低秩投影矩阵的权重共享策略。具体来说，他们实验了将注意力和前馈网络模块内的投影矩阵进行绑定。对于注意力，他们设置了Wp_q = Wp_k = Wp_v，对于前馈网络，设置了Wp_gate = Wp_up。他们使用Mixed-1.0数据集上的100亿个文本单元，以Llama-3.2-3B-Instruct作为教师，α=1.0训练LRC-1.5B，不应用SFT。

结果显示，全参数设置（All, All）提供了最佳性能，但也有最高的内存成本。值得注意的是，在前馈网络中共享投影导致的性能下降大于在注意力中共享它们。这一发现也佐证了激活克隆实验的观察结果，表明前馈网络编码了更丰富的信息，并从专用容量中获益更多。

六、效率分析：低秩克隆的超高效训练

最后，研究团队分析了LRC在内存使用和吞吐量方面的训练效率，重点关注权重共享策略和整体训练速度。实验表明，即使与计算教师模型的隐藏状态相关的开销，LRC仍然保持了标准训练吞吐量的50%以上。相比之下，改编到Llama架构的TinyBERT在吞吐量方面显著落后，特别是因为它依赖于注意力图作为监督，这阻止了使用FlashAttention，限制了序列长度和训练速度。

研究团队还在vLLM上进行了推理吞吐量测试，结果证实LRC不仅样本高效，而且在实际应用中也具有很强的可扩展性，为大规模训练和部署提供了可能性。

总结来说，这项由哈尔滨工业大学和百度研究团队开发的低秩克隆技术为训练高性能的小型语言模型开辟了一条全新的道路。通过巧妙地结合软剪枝和知识蒸馏于一个统一的框架中，LRC能够保留大型教师模型的大部分知识，同时显著减少训练资源需求。实验结果表明，LRC模型能够匹配或超越那些在万亿级文本单元上训练的最先进模型的性能，同时仅需要百亿级的训练量，实现了1000倍以上的训练效率。

这项技术的发展对AI领域具有深远的影响，它使得小型研究团队和组织也能开发出高性能的语言模型，推动AI技术的民主化。随着更多研究探索LRC的上限和应用场景，我们可能会看到更多高效、高性能的小型语言模型问世，为资源受限的设备带来先进的AI能力。

小型语言模型知识蒸馏低秩投影

分享至