当今人工智能领域正在经历一场技术革命。大型神经网络变得越来越强大,但随之而来的是高昂的训练成本和计算负担。为了解决这个问题,研究人员开发了一种叫做"低秩适应"(LoRA)的技术,让我们能够以更低的成本对大型模型进行微调。然而,当需要将多个专门针对不同任务训练的模型合并在一起时,现有的方法要么效果不佳,要么计算成本高得惊人。
意大利模德纳大学的Aniello Panariello教授领导的国际研究团队,联合华沙理工大学、佛罗伦萨大学、巴塞罗那自治大学等多所知名院校的研究人员,于2025年在神经信息处理系统大会(NeurIPS 2025)上发表了一项突破性研究。这项名为"Accurate and Efficient Low-Rank Model Merging in Core Space"的研究提出了一种全新的"核心空间"模型合并框架,能够让模型合并的速度提升280倍,同时还能显著改善合并后模型的性能。
这项研究的重要性不仅在于技术层面的突破,更在于它为人工智能的实际应用开辟了新的可能性。在当前的AI发展阶段,我们经常需要一个能够同时处理多种不同任务的智能系统。比如说,你可能希望一个AI助手既能帮你写邮件,又能分析图片,还能回答专业问题。传统的做法要么是训练一个超大的通用模型(成本极高),要么是分别使用多个专门模型(效率低下),而核心空间合并技术为这个难题提供了优雅的解决方案。
一、传统模型合并面临的困境
要理解这项研究的价值,我们首先需要了解现有技术面临的挑战。在机器学习领域,研究人员经常需要将多个针对不同任务训练的专门模型合并成一个能够处理多种任务的综合模型。这就像是要将几个各有专长的专家的知识融合在一起,创造出一个全能型的超级专家。
传统的模型合并方法主要分为两类。第一类是直接在完整的权重矩阵空间中进行合并,这种方法虽然简单直接,但往往效果不佳,就像是简单地将几本不同领域的教科书内容混合在一起,结果可能是一团乱麻。第二类方法试图在某种对齐的子空间中进行合并,比如之前的KnOTS方法,虽然能够取得更好的效果,但计算成本极其高昂。
以当前最先进的KnOTS方法为例,当处理大型语言模型时,它需要对巨大的权重矩阵进行奇异值分解(SVD),这个过程的计算复杂度随着模型尺寸急剧增加。对于一个拥有80亿参数的Llama 3模型,KnOTS方法可能需要数小时才能完成合并过程,这在实际应用中几乎是不可接受的。
更令人困扰的是,现有的合并方法在处理基于LoRA技术微调的模型时表现尤其糟糕。LoRA技术通过低秩矩阵分解的方式大大降低了模型微调的成本,但当我们试图合并多个LoRA适配的模型时,传统方法往往需要先将这些低秩表示重新构建成完整的权重矩阵,然后再进行合并,这完全抵消了LoRA带来的效率优势。
二、核心空间:一个革命性的解决方案
面对这些挑战,研究团队提出了"核心空间"(Core Space)这一全新概念。如果把传统的模型合并比作在一个巨大的仓库里整理货物,那么核心空间就是找到了一个精心设计的小房间,在这个房间里,所有的整理工作都变得简单高效,而且最终的结果比在大仓库里工作更好。
核心空间的基本思想是为所有需要合并的模型找到一个共同的低维表示空间。在这个空间中,每个模型的关键信息都被压缩成一个紧凑的"核心矩阵",这些核心矩阵不仅保留了原始模型的所有重要信息,而且彼此之间具有很好的可比性和兼容性。
具体来说,研究团队首先对所有待合并模型的LoRA组件进行奇异值分解,得到各自的基础向量。然后,通过巧妙的数学变换,他们为所有模型构建了一个统一的参考基础(reference bases)。这个参考基础就像是为所有模型建立了一个通用的"坐标系统",让原本各自为政的模型能够在同一个框架内进行比较和操作。
在这个统一的坐标系统中,每个模型都被表示为一个相对较小的核心矩阵。这些核心矩阵的维度只取决于任务数量和LoRA的秩,而与原始模型的庞大尺寸无关。这意味着,无论我们处理的是拥有几千万参数的中型模型,还是拥有数百亿参数的超大型模型,核心矩阵的大小都保持在一个可管理的范围内。
三、数学原理:无损信息保留的秘密
核心空间方法的一个重要特性是它能够做到完全无损的信息保留。这听起来似乎不可思议——既然我们将庞大的模型压缩到了一个小得多的空间中,怎么可能不丢失任何信息呢?
这个"魔法"的关键在于研究团队发现的一个重要数学性质。他们证明了,当使用正确构建的参考基础时,从核心空间重建回原始模型的过程是完全可逆的,没有任何信息损失。这就像是找到了一种完美的编码方式,能够将一本厚厚的百科全书压缩成一张薄薄的卡片,但当需要时又能完全无损地还原出原本的内容。
研究团队通过严格的数学推导证明了这一点。他们展示了如何通过解决一系列最小二乘问题来找到最优的对齐矩阵,并证明了当使用他们提出的参考基础构建方法时,对齐误差恰好为零。这意味着每个模型在投影到核心空间后,都能够完全准确地重建回原始状态。
更有趣的是,研究团队还证明了对于线性合并方法(如任务算术),在核心空间中进行合并与在原始空间中进行合并会产生完全相同的结果。这为使用核心空间方法提供了理论保证——我们不仅提高了效率,还保持了结果的准确性。
四、效率革命:280倍的速度提升
核心空间方法在计算效率方面的改进是极其显著的。研究团队通过详细的复杂度分析展示了这种改进的程度。传统的KnOTS方法的时间复杂度随着模型尺寸的三次方增长,这意味着当模型大小增加一倍时,计算时间会增加八倍。而核心空间方法的时间复杂度主要与任务数量和LoRA秩相关,与模型的原始尺寸几乎无关。
在实际测试中,当处理8个任务的Llama 3 8B模型时,核心空间方法只需要8秒钟就能完成合并,而KnOTS方法需要4800秒,速度提升达到了600倍。即使对于相对较小的ViT-B/32视觉模型,核心空间方法也实现了280倍的速度提升。
这种效率的提升不仅仅是数字上的改善,它从根本上改变了模型合并的可行性。在核心空间方法出现之前,对大型模型进行合并往往是一个需要特殊计算资源和长时间等待的过程。而现在,研究人员和开发者可以在普通的计算设备上快速实验不同的合并策略,大大加速了研究和开发的节奏。
五、性能突破:不仅更快,还要更好
令人惊喜的是,核心空间方法不仅在效率上有巨大提升,在合并后模型的性能上也有显著改善。这似乎违反了我们的直觉——通常情况下,更快的方法往往意味着某种程度的性能牺牲。但核心空间方法恰恰相反,它同时实现了速度和质量的双重提升。
在自然语言推理任务上,使用核心空间合并的模型在多个基准测试中都取得了最佳性能。例如,使用TSV合并方法在核心空间中操作时,在Llama 3 8B模型上达到了94.16%的平均标准化准确率,这是当时该领域的最佳成绩。
在计算机视觉任务中,效果同样令人印象深刻。在ViT-B/32模型上,最佳的合并组合(TSV + Iso-C在核心空间中合并)达到了76.3%的平均标准化准确率,显著超过了之前报告的68.0%的最佳成绩。
更重要的是,这种性能提升在不同的合并策略中都得到了验证。研究团队测试了多种现有的合并方法,包括TIES、DARE-TIES、TSV、CART和Iso-C等,发现在核心空间中操作时,几乎所有方法的性能都得到了改善。这表明核心空间的优势不是偶然的,而是一种普遍适用的改进。
六、深层机制:为什么核心空间更有效
为了理解核心空间方法为什么能够同时提升效率和性能,研究团队进行了深入的分析。他们发现了几个关键的原因。
首先,核心空间提供了更好的子空间对齐。传统的合并方法往往面临着不同模型之间子空间不对齐的问题,就像试图将用不同语言写的文档直接拼接在一起。而核心空间通过构建统一的参考基础,为所有模型提供了一个共同的"语言",使得合并过程更加和谐。
研究团队通过计算子空间对齐比率(SAR)验证了这一点。他们发现,在核心空间中,不同任务模型之间的对齐程度显著提高,这直接导致了合并后性能的改善。高对齐度意味着不同模型之间的冲突更少,合并后的结果更加协调。
其次,核心空间具有信息密度更高的特性。通过对合并后模型进行奇异值分解并逐步截断最小的奇异值,研究团队发现,在原始空间中可以截断多达80%的分量而不影响性能,而在核心空间中,任何分量的截断都会导致性能下降。这表明核心空间是一个"信息密集"的表示,其中每个维度都包含重要信息,没有冗余。
最后,核心空间方法通过其特殊的构造方式,自然地减少了不同任务之间的干扰。在传统的合并方法中,来自不同任务的信息可能会相互冲突,导致合并后的模型在某些任务上表现下降。而核心空间的统一表示减少了这种干扰,使得合并后的模型能够更好地保持各个原始模型的优势。
七、广泛适用性:超越LoRA的扩展
虽然核心空间方法最初是为LoRA适配的模型设计的,但研究团队证明了它具有更广泛的适用性。他们成功地将这种方法扩展到了其他参数高效微调技术,如VeRA(Vector-based Random Matrix Adaptation)。
VeRA与LoRA在结构上有所不同,它使用固定的随机矩阵和可学习的缩放向量。但通过将缩放向量吸收到矩阵中,研究团队展示了如何将VeRA适配到核心空间框架中。实验结果表明,即使在这种不同的设置下,核心空间方法仍然能够取得性能改善。
此外,研究团队还验证了核心空间方法处理异构秩(不同任务使用不同的LoRA秩)的能力。在实际应用中,不同的任务可能需要不同的模型复杂度,因此使用不同的LoRA秩是很常见的。核心空间方法能够无缝处理这种情况,无需任何特殊的修改。
这种广泛的适用性使得核心空间方法不仅仅是一个针对特定技术的优化,而是一个具有普遍价值的框架,可以随着参数高效微调技术的发展而继续发挥作用。
八、实际应用:改变AI开发的游戏规则
核心空间方法的意义远远超出了学术研究的范畴,它有望从根本上改变人工智能系统的开发和部署方式。在当前的AI生态系统中,研究人员和开发者面临着一个两难选择:要么训练昂贵的大型通用模型,要么使用多个专门的模型但面临集成困难。
核心空间方法为这个问题提供了第三条路径。开发者可以针对不同的任务分别训练相对较小的专门模型,然后使用核心空间方法快速、高效地将它们合并成一个多任务模型。这种方法不仅降低了开发成本,还提供了更大的灵活性。
例如,一个公司可能需要一个AI系统来处理客户服务中的多种任务:情感分析、问题分类、自动回复生成等。传统的做法要么是训练一个巨大的多任务模型(成本高昂),要么是部署多个独立的模型(管理复杂)。而使用核心空间方法,公司可以分别训练针对每个任务的专门模型,然后将它们快速合并成一个高效的综合系统。
对于研究社区而言,核心空间方法也带来了新的可能性。研究人员可以更容易地分享和组合彼此的模型,形成一个更加协作的研究生态。Hugging Face等模型共享平台上的大量专门模型现在可以更容易地被组合使用,加速整个领域的发展。
九、技术细节:实现的艺术
虽然核心空间的概念相对直观,但其实际实现需要精心的工程设计。研究团队不仅提供了理论框架,还开发了高效的实现算法。
在实际实现中,研究团队采用了一个重要的优化:虽然理论推导中涉及对每个LoRA组件进行单独的奇异值分解,但在实际计算中,核心矩阵可以直接通过矩阵乘法计算得出。这种优化进一步提高了方法的计算效率。
研究团队还提供了完整的PyTorch实现代码,使得其他研究人员和开发者可以轻松地复现和使用这种方法。代码的结构清晰,文档完整,为该技术的推广和应用奠定了良好基础。
值得注意的是,核心空间方法的内存需求也得到了很好的控制。由于核心矩阵的尺寸相对较小,整个合并过程不需要大量的额外内存,这使得该方法即使在资源受限的环境中也能够有效运行。
十、实验验证:严格的科学检验
研究团队进行了广泛而严格的实验验证,涵盖了多个领域和多种模型架构。在自然语言处理方面,他们在6个自然语言推理任务上测试了Llama 3 8B模型的合并效果。在计算机视觉方面,他们使用了8个不同的视觉分类任务来验证ViT-B/32和ViT-L/14模型的合并性能。
实验设计的一个重要特点是使用了标准化准确率作为评估指标。这种指标将合并后模型的性能与原始单任务模型的性能进行比较,提供了一个公平的性能评估基准。结果显示,核心空间方法在绝大多数情况下都能取得性能改善,这证明了该方法的有效性。
研究团队还进行了详细的消融实验,验证了设计选择的合理性。例如,他们比较了不同参考基础构建方法的效果,证明了他们提出的方法确实是最优的。他们还测试了不同合并策略在核心空间中的表现,展示了该框架的通用性。
特别值得一提的是,研究团队还进行了联合任务评估,这是一个更加困难的测试场景。在这种设置中,合并后的模型需要在一个包含所有任务类别的混合数据集上进行评估,这对模型的泛化能力提出了更高要求。即使在这种严格的测试下,核心空间方法仍然取得了优异的结果。
说到底,这项研究代表了人工智能模型合并技术的一个重要突破。核心空间方法不仅解决了现有技术面临的效率和性能问题,还为整个AI生态系统的发展开辟了新的可能性。它让模型合并从一个昂贵而复杂的过程变成了一个快速而高效的操作,为构建更加灵活和强大的AI系统提供了新的工具。
随着AI模型规模的不断增长和应用场景的日益复杂,像核心空间这样的创新技术将变得越来越重要。它们不仅推动了技术本身的进步,更重要的是,它们让AI技术变得更加可及和实用,为普通开发者和研究人员提供了与大型科技公司相竞争的工具。这种技术的民主化可能会催生出我们今天还无法想象的创新应用,真正实现AI技术造福全人类的愿景。
对于那些希望深入了解这项技术细节的读者,完整的研究论文已发表在2025年神经信息处理系统大会上,论文编号为arXiv:2509.17786v2,研究团队还在GitHub上开源了完整的实现代码,网址为https://github.com/apanariello4/core-space-merging。
Q&A
Q1:核心空间模型合并方法具体能带来多大的速度提升?
A:核心空间方法在不同规模的模型上都实现了显著的速度提升。在处理Llama 3 8B大型语言模型时,速度提升达到了600倍,而在ViT-B/32视觉模型上实现了280倍的加速。具体来说,原本需要数小时才能完成的模型合并任务,现在只需要几秒钟就能完成,这从根本上改变了模型合并的可行性和实用性。
Q2:为什么核心空间方法能够同时提升速度和性能?
A:这主要归功于核心空间的三个关键特性。首先,它通过构建统一的参考基础为所有模型提供了更好的子空间对齐,减少了模型间的冲突。其次,核心空间是一个信息密集的表示,每个维度都包含重要信息而没有冗余。最后,这种方法自然地减少了不同任务之间的干扰,使合并后的模型能够更好地保持各个原始模型的优势。
Q3:核心空间方法除了LoRA模型还能应用到其他类型的模型吗?
A:是的,核心空间方法具有很强的通用性。研究团队已经成功将其扩展到VeRA等其他参数高效微调技术,并且可以处理不同任务使用不同LoRA秩的异构情况。由于该方法的核心原理基于低秩矩阵操作,理论上可以应用到任何基于低秩适应的微调技术上,具有广泛的适用前景。
好文章,需要你的鼓励
Queen's大学研究团队提出结构化智能体软件工程框架SASE,重新定义人机协作模式。该框架将程序员角色从代码编写者转变为AI团队指挥者,建立双向咨询机制和标准化文档系统,解决AI编程中的质量控制难题,为软件工程向智能化协作时代转型提供系统性解决方案。
西北工业大学与中山大学合作开发了首个超声专用AI视觉语言模型EchoVLM,通过收集15家医院20万病例和147万超声图像,采用专家混合架构,实现了比通用AI模型准确率提升10分以上的突破。该系统能自动生成超声报告、进行诊断分析和回答专业问题,为医生提供智能辅助,推动医疗AI向专业化发展。
上海AI实验室团队发现自回归图像生成模型存在局部依赖、语义不一致和空间不变性缺失三大问题,提出ST-AR训练方法。该方法通过掩码注意力、跨步骤对比学习和跨视角对比学习,让AI"先理解再生成"。实验显示,ST-AR将LlamaGen模型的图像理解准确率提升一倍以上,图像生成质量提升42-49%,为构建更智能的多模态AI系统开辟新路径。