微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

北大团队让大模型瘦身94%却不失效：从复数魔法到极致压缩的AI新突破

量化压缩复数神经网络模型优化

北大团队让大模型瘦身94%却不失效：从复数魔法到极致压缩的AI新突破

作者：科技行者

2026-01-06 09:40

分享至：

北京大学研究团队提出FAIRY2I技术，通过复数表示和相位感知量化将大型语言模型压缩94%。该方法能将现有实数模型无损转换为复数形式，使用四个符号编码权重，并采用递归残差量化进一步优化。在LLaMA-2 7B测试中，压缩后模型保持了接近原始性能的表现，为AI模型的高效部署提供了新路径。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-01-06 09:40 • 科技行者

这项由北京大学汤涛教授团队的王飞羽、谭欣宇、黄博凯、张一豪、王国安、从佩庄等研究者完成的开创性研究发表于2025年，论文编号为arXiv:2512.02901v2。有兴趣深入了解的读者可以通过该编号查询完整论文。

在人工智能飞速发展的今天，大型语言模型就像是越来越聪明的超级大脑，但它们也变得越来越"臃肿"。一个现代大型语言模型需要占用数十甚至数百GB的存储空间，这就好比要搬运一整个图书馆才能让AI工作。对于普通用户来说，这意味着需要昂贵的硬件设备，而对于企业来说，这意味着巨额的运营成本。

这个问题就像是要把一座豪宅压缩到一个小公寓里，既要保持所有功能，又要大幅减少占用空间。传统的压缩方法就像是简单地扔掉一些家具，虽然空间小了，但功能也大打折扣。北大团队提出了一种全新的思路：他们不是简单地删除内容，而是从根本上改变了数据的存储方式，就像是发现了一种新的收纳法则。

他们的核心创新在于将原本只能处理实数的模型转换为能够处理复数的模型。这听起来可能很抽象，但我们可以用一个简单的比喻来理解。原来的模型就像是在一条直线上摆放物品，只能从左到右排列。而新的复数模型则像是在一个平面上摆放物品，既可以左右移动，也可以上下移动，因此能够在同样的存储空间里容纳更多信息。

更令人惊讶的是，这项技术不需要从零开始训练新模型。它就像是一个神奇的转换器，能够将现有的模型直接转换为新的高效形式。这意味着那些已经训练好的强大模型不会白费，而是可以直接享受这种压缩带来的好处。

团队在著名的LLaMA-2 7B模型上进行了验证，结果令人振奋。经过他们的魔法般改造，模型在保持几乎相同性能的情况下，存储需求减少了94%。这就好比把一整个图书馆压缩成了几本词典的大小，但查找信息的能力却没有明显下降。

一、复数魔法：从一维直线到二维平面的华丽转身

要理解这项技术的核心，我们需要先从一个简单的数学概念说起。在我们日常生活中，我们习惯用普通的数字来计算，比如1、2、3或者-5、10.5这样的实数。这些数字可以想象成排列在一条直线上，就像温度计上的刻度一样。

但是，还有一种更神奇的数字叫做复数。如果说实数是一条直线，那么复数就是一个完整的平面。除了普通的数字部分，复数还有一个"虚数"部分，这个虚数部分使用一个特殊符号"i"来表示。复数就像是平面上的一个点，有横坐标和纵坐标两个方向的信息。

在AI模型中，每个参数原本就像是直线上的一个点，只能存储一个方向的信息。北大团队的巧妙之处在于，他们发现可以将这些参数重新组织成复数形式，就像是把原本排在一条线上的信息重新排列到一个平面上。这样做的好处是，同样的存储空间现在可以容纳更多的信息。

更重要的是，这种转换是完全可逆的。就像是有一个完美的翻译器，能够在两种语言之间无损转换一样。原始的实数模型可以完美转换为复数模型，而且转换前后的计算结果完全一致。这意味着我们不会丢失任何重要信息。

这种转换的数学原理被称为"广义线性变换"。虽然名字听起来复杂，但其实就像是一个巧妙的重新包装过程。想象你有一个装满书的书架，原本书只能横着放。现在你发现了一种新方法，既可以横着放，也可以竖着放，这样同样的空间就能放下更多书籍。

具体到AI模型中，每一层神经网络的连接都可以看作是一个矩阵。在传统方法中，这个矩阵的每个元素都是一个实数。经过转换后，这个矩阵变成了两个复数矩阵的组合，但它们能够完成完全相同的计算任务。

这种转换还有另一个巧妙之处：它保持了注意力机制的工作原理。在大型语言模型中，注意力机制就像是大脑的专注能力，决定了模型应该关注输入文本的哪些部分。经过复数转换后，这种专注能力得到了完美保留，模型依然能够准确理解语言的含义和上下文关系。

二、量化魔术：用四个符号编码整个世界

有了复数表示后，下一步就是如何将这些复数进一步压缩。这里就要用到一个非常聪明的编码技巧。传统的量化方法就像是用很多种颜色来绘画，虽然丰富，但也占用大量空间。北大团队的方法则像是发现了用四种基本颜色就能调配出所有需要颜色的秘诀。

这四个"魔法符号"分别是：+1、-1、+i和-i。其中+1和-1是我们熟悉的正负1，而+i和-i则是复数世界中的特殊符号。这四个符号可以看作是复平面上的四个方向：向右、向左、向上和向下。

选择这四个符号并非偶然，它们恰好均匀分布在复平面的单位圆上，就像是指南针上的四个主要方向。这种对称性使得它们能够最有效地表示复数平面上的任何点。这就好比用东西南北四个方向，通过组合和缩放，就能指向地图上的任何位置。

量化的过程就像是一个智能的四舍五入过程，但比传统方法更精妙。对于每个复数权重，系统会计算它与这四个方向中哪个最接近，然后用这个方向来代表它。同时，系统还会记录一个缩放因子，就像记住"向东走三步"中的"三步"这个距离信息。

这种方法的巧妙之处在于它的适应性。不同的神经网络层可能有不同的特性，就像不同的房间需要不同的整理方法。对于主要包含正负值的层，系统会更多地使用+1和-1；对于包含更复杂模式的层，+i和-i就会发挥更大作用。

量化过程还采用了一种叫做"分组缩放"的技术。这就像是把一大堆东西分成若干小组，每组内部使用同样的整理标准，但不同组之间可以有不同的标准。这样既保持了整体的一致性，又允许了局部的灵活性。

在训练过程中，系统维护着两套权重：一套是精确的"主版本"，用于梯度计算；另一套是量化的"压缩版本"，用于实际推理。这就像是保存了一份高分辨率的原始照片，同时生成一张压缩版本用于日常展示。训练时，系统会根据主版本的变化来更新压缩版本，确保两者保持同步。

三、递归优化：追求完美的艺术

即使有了前面的两项技术，研究团队并不满足于现状。他们提出了一种被称为"递归残差量化"的进一步优化方法。这就像是一个永不满足的艺术家，在完成一幅画作后，还要不断地修正细节，直到达到近乎完美的状态。

这个过程可以用修建房子来比喻。第一次量化就像是搭建房子的主体框架，虽然基本结构已经完成，但与原始设计图还有一些偏差。递归残差量化则像是一个细致的工匠，会仔细测量每一个偏差，然后用同样的工具和材料来修正这些偏差。

具体来说，在第一轮量化完成后，系统会计算量化结果与原始值之间的差异，这个差异被称为"残差"。然后，系统会用完全相同的四符号量化方法来处理这个残差。这就像是用同一套颜料，再画一层来修正第一层的不完美之处。

这个过程可以重复多次，每一次都会让最终结果更接近原始值。实验表明，进行两轮递归通常就能获得显著的改善，而第三轮的收益则相对有限。这类似于修图软件中的多层处理，第一层解决大部分问题，第二层处理细节，第三层以上的效果就逐渐微弱了。

递归残差量化的另一个优点是它的存储效率。虽然要存储多轮的量化结果，但每轮都使用相同的四符号编码，因此额外的存储开销很小。最终的权重是所有轮次结果的简单加法，这个计算过程非常高效。

这种方法还具有很好的并行性。由于每轮量化都是独立的，它们可以在不同的计算核心上同时进行，然后再将结果汇总。这就像是多个工人同时在不同区域工作，最后将所有工作成果组合起来。

四、实验验证：理论照进现实的时刻

理论再精妙，最终还是要在实际应用中接受检验。北大团队选择了著名的LLaMA-2 7B模型作为测试对象，这就像是选择了一个公认的标准考题来验证自己的解题方法。

LLaMA-2 7B是当前最受欢迎的开源大型语言模型之一，拥有70亿个参数，原始大小约为13GB。这个模型就像是AI界的"优等生"，在各种语言任务上都有出色表现。选择它作为测试对象，既能充分展示技术的有效性，也便于与其他压缩方法进行公平比较。

实验结果令人振奋。使用FAIRY2I技术压缩后的模型，在C4数据集上的困惑度（衡量语言模型性能的重要指标）从原始的6.63提升到11.03，这个数字越小表示性能越好。虽然有所下降，但考虑到存储空间减少了94%，这个代价是完全可以接受的。

更令人惊喜的是在常识推理任务上的表现。这些任务就像是对AI的"智商测试"，包括阅读理解、逻辑推理等多个方面。压缩后的模型在这些任务上的平均准确率达到了48.66%，非常接近一些更大存储需求的竞争方法的表现。

当使用两轮递归残差量化时（称为FAIRY2I-W2），效果更加出色。C4困惑度进一步改善到7.85，而常识推理任务的平均准确率跃升到62.00%，已经非常接近原始全精度模型64.72%的水平。这就像是用一个口袋版的计算器，却能完成接近台式计算机的复杂运算。

研究团队还进行了详细的对比实验。与传统的二进制量化方法（只使用+1和-1两个值）相比，FAIRY2I显示出明显优势。与三进制量化方法（使用+1、0、-1三个值）相比，FAIRY2I在使用相同或更少存储空间的情况下，获得了更好的性能。

特别值得注意的是，FAIRY2I甚至超越了一些需要3比特存储的传统方法，而自己只使用2比特。这就像是用更小的工具箱，却装下了更多功能强大的工具。

实验还验证了方法的稳定性。研究团队尝试了不同的学习率设置和训练策略，发现FAIRY2I都能保持稳定的性能，这说明这种方法具有良好的鲁棒性，不会因为微小的参数调整就出现大幅波动。

五、技术细节：让魔法成为可能的工程智慧

在宏观的算法创新背后，还有许多精巧的工程设计确保这些想法能够真正实现。这些技术细节就像是让魔术成功的幕后工作，看似不起眼，却至关重要。

首先是计算效率的优化。由于使用了复数运算，传统的矩阵乘法会变得更加复杂。研究团队采用了高斯乘法算法来优化这个过程。传统的复数乘法需要4次实数乘法运算，而高斯算法只需要3次，这意味着25%的计算量减少。这就像是找到了一条更短的路径，能够更快到达目的地。

在推理阶段，由于权重被量化为四个特殊符号，大部分乘法运算可以被更简单的加减法替代。乘以+1就是保持原值，乘以-1就是取相反数，乘以+i就是交换实部和虚部并给虚部加负号，乘以-i则相反。这些操作比传统的浮点乘法要快得多。

存储格式也经过了特殊设计。四个符号（+1、-1、+i、-i）可以用2位二进制数来表示，这使得存储非常紧凑。研究团队还设计了专门的数据打包格式，能够有效地利用现代处理器的并行处理能力。

对于内存访问模式的优化也很重要。传统的神经网络推理需要频繁访问大量权重数据，这往往成为性能瓶颈。FAIRY2I的紧凑表示大大减少了内存访问量，这就像是减少了来回搬运东西的次数，自然提高了整体效率。

研究团队还考虑了与现有深度学习框架的兼容性。他们确保FAIRY2I可以很容易地集成到PyTorch等流行框架中，这意味着现有的训练和部署流程只需要很小的修改就能使用这项技术。

为了支持更广泛的应用，团队还开发了专门的CUDA内核优化。这些低级别的优化利用了GPU的并行计算能力，进一步提升了推理速度。同时，他们也提供了CPU优化版本，使得这项技术能够在各种硬件平台上运行。

六、实际应用：改变游戏规则的可能性

这项技术的意义远远超出了学术研究的范畴，它有可能真正改变AI应用的格局。最直接的影响是让强大的AI模型能够在更普通的硬件上运行，这就像是把原本只能在专业实验室使用的精密仪器，变成了每个人都能拥有的便携设备。

对于移动设备来说，这意味着巨大的机遇。现在的智能手机已经拥有相当强大的处理能力，但运行大型语言模型仍然困难重重。FAIRY2I技术让7B参数的模型压缩到只有几百MB，这使得在手机上运行强大的AI助手成为可能。用户将不再需要依赖网络连接，就能享受高质量的AI服务。

对于边缘计算设备，这项技术同样具有革命性意义。在工厂自动化、自动驾驶、医疗设备等场景中，需要AI设备能够快速响应，不能依赖云端处理。FAIRY2I让强大的AI模型能够部署在这些资源受限的边缘设备上，大大扩展了AI的应用场景。

从商业角度看，这项技术能够显著降低AI服务的成本。云计算服务商可以在同样的硬件上部署更多模型实例，或者用更便宜的硬件提供同样的服务。这种成本优势最终会传递给消费者，让AI服务变得更加普及和亲民。

对于科研机构和小型企业，这项技术降低了使用先进AI模型的门槛。原本需要昂贵的高端GPU才能运行的模型，现在可以在普通的计算设备上运行。这就像是让高端的科学仪器变得人人都能负担，必然会促进AI技术的更广泛应用和创新。

在教育领域，这项技术也有重要意义。学校可以更容易地在有限的预算内部署AI教学工具，学生们也能在个人电脑上进行AI项目开发，而不需要昂贵的专业硬件。这将大大促进AI教育的普及。

环境影响也不容忽视。AI模型的训练和运行消耗大量电能，而FAIRY2I技术通过提高计算效率，能够减少能源消耗和碳排放。虽然单个模型的节能效果可能不太明显，但考虑到全球数以亿计的AI服务实例，累积的环境效益将是巨大的。

七、挑战与局限：完美路上的绊脚石

尽管FAIRY2I技术展现了巨大的潜力，但任何技术创新都不可能是完美无缺的。研究团队很诚实地承认了当前方法的一些局限性，这些挑战也为未来的改进指明了方向。

首先是性能损失的问题。虽然压缩后的模型在大多数任务上表现良好，但与原始全精度模型相比，仍然存在一定的性能差距。在某些需要极高精度的应用中，这种性能损失可能是不可接受的。这就像是用便携相机代替专业单反，虽然方便了很多，但在某些专业摄影场合还是有所不足。

训练稳定性是另一个挑战。极低比特的量化训练本身就比较困难，需要精心调整训练参数。虽然FAIRY2I相比传统方法已经更加稳定，但仍然需要研究人员具备一定的经验和技能才能获得最佳结果。这增加了技术应用的门槛。

硬件支持也是一个实际问题。虽然理论上FAIRY2I可以在现有硬件上运行，但要充分发挥其优势，最好还是需要专门优化的硬件和软件栈。目前大多数深度学习框架和硬件都是为传统浮点运算优化的，复数运算的支持还不够成熟。

扩展性是另一个需要考虑的因素。目前的实验主要在7B参数的模型上进行，对于更大的模型（如70B或更大），这种方法是否依然有效还有待验证。随着模型规模的增长，压缩的难度通常会exponentially增加。

兼容性问题也不容忽视。现有的AI生态系统已经围绕传统的模型格式建立了完整的工具链，包括推理框架、部署工具、监控系统等。要让FAIRY2I技术得到广泛应用，需要对这些工具进行相应的改造，这需要整个行业的协作努力。

研究团队也坦承，由于计算资源的限制，他们只能用300亿token的数据进行训练，这相比工业级的训练规模还有很大差距。在更大规模的数据和更长时间的训练下，这种方法的表现如何，还需要进一步验证。

八、未来展望：革命才刚刚开始

尽管存在挑战，但FAIRY2I技术开辟的这条道路前景光明。研究团队已经勾勒出了下一步的发展方向，每一个都充满了令人兴奋的可能性。

在硬件优化方面，团队计划开发专门的CUDA内核和CPU优化算法，充分发挥复数运算的优势。他们还在探索利用查找表（LUT）技术进一步加速推理的可能性。这些优化将让FAIRY2I在实际应用中的速度优势更加明显。

模型规模的扩展是另一个重要方向。团队计划将这项技术应用到更大的模型上，比如LLaMA-3 70B等。如果能够成功，将证明这种方法具有很好的扩展性，为压缩超大规模模型提供了新的可能。

多模态应用也在计划之中。现在的实验主要集中在文本模型上，但团队相信这种方法也能应用到图像、音频等其他模态的AI模型中。这将极大扩展技术的应用范围。

理论研究方面，团队希望深入理解复数表示为什么在低比特量化中表现如此优异。他们计划从理论角度分析复数域中的损失函数特性，这可能会带来更多突破性发现。

更令人期待的是大规模训练实验。如果能够获得足够的计算资源，团队希望用万亿级别的token来训练FAIRY2I模型。他们相信，在这种规模下，复数表示的优势将得到更充分的体现，甚至可能超越原始全精度模型的性能。

产业化应用也在积极推进中。团队正在与多家公司探讨合作，将这项技术集成到实际产品中。从云端服务到边缘设备，从消费级应用到企业解决方案，FAIRY2I都有巨大的应用潜力。

开源社区的支持也是重要一环。团队计划开源相关的工具和算法，让更多研究者和开发者能够使用和改进这项技术。他们相信，开放的生态系统将加速技术的成熟和普及。

说到底，FAIRY2I技术代表的不仅仅是一种新的压缩方法，更是一种全新的思维方式。它告诉我们，在看似已经达到极限的地方，创新的思路依然能够开辟新的道路。就像北大团队所展示的，通过巧妙地借用数学中的复数概念，我们能够在保持AI能力的同时，大幅减少资源需求。

这项研究的意义远超技术本身。它让我们看到了AI民主化的可能性——强大的AI不再是少数大公司的专利，而是可以在普通设备上运行的普及技术。它让我们看到了可持续AI发展的希望——通过提高效率而非简单增加计算量来提升AI性能。它也让我们看到了跨学科创新的力量——数学、计算机科学和工程学的结合能够产生意想不到的突破。

未来的AI世界可能会因为这样的技术而变得更加有趣。当每个人都能在自己的设备上运行强大的AI助手时，当边缘设备都具备了智能决策能力时，当AI服务的成本降到人人都能承受时，整个世界的智能化程度将迎来质的飞跃。而这一切的起点，就是北大团队在复数世界中发现的这个巧妙的压缩秘密。

Q&A

Q1：FAIRY2I技术是如何做到将AI模型压缩94%的？

A：FAIRY2I技术通过两个关键创新实现极致压缩。首先，它将传统只能处理实数的AI模型转换为可处理复数的形式，这样在同样存储空间里能容纳更多信息，就像从一维直线扩展到二维平面。其次，它使用四个特殊符号（+1、-1、+i、-i）来编码所有权重，每个符号只需2比特存储，大大减少了空间需求。

Q2：压缩后的模型性能会有明显下降吗？

A：性能确实有所下降，但降幅很小。在LLaMA-2 7B模型的测试中，基础版本的常识推理准确率从原始的64.72%降到48.66%，而使用两轮递归优化的版本能达到62.00%，已经非常接近原始性能。考虑到存储空间减少了94%，这样的性能保持是相当出色的。

Q3：普通用户什么时候能用上这种压缩技术？

A：目前FAIRY2I还处于研究阶段，研究团队计划将技术开源并与企业合作推进产业化应用。预计在不远的将来，用户就能在手机、个人电脑等设备上体验到基于这种技术的AI应用，享受高性能AI服务而无需依赖云端连接或昂贵硬件。

量化压缩复数神经网络模型优化

分享至