这项由法国Orange Research公司的Brahim Touayouch、Loic Fosse、Géraldine Damnati以及Gwénolé Lecorvé组成的研究团队完成的重要工作于2025年9月发表在arXiv平台上,论文编号为arXiv:2509.02108v2。有兴趣深入了解技术细节的读者可以通过该论文编号在arXiv官网上找到完整的研究报告。
在人工智能飞速发展的今天,我们经常面临这样一个困扰:每当需要AI完成一项新任务时,就必须从零开始训练一个全新的模型,这就像每次做不同菜肴时都要重新购买整套厨具一样浪费。更令人头疼的是,即使我们已经有了能够出色完成单项任务的AI模型,想要让它们同时处理多个任务却往往会出现"顾此失彼"的现象——就好比一个专业的意大利厨师突然被要求同时做中餐和法餐,结果可能三种菜都做不好了。
Orange Research的研究团队发现了一个巧妙的解决方案。他们开发了一种名为DivMerge的技术,能够将多个专门训练的AI模型像拼装乐高积木一样组合起来,创造出既能保持各自专长又能协调工作的"超级模型"。这种方法的神奇之处在于,它不需要额外的标注数据,就能自动找到最佳的组合方式,让合并后的模型在所有原始任务上都保持出色的表现。
更重要的是,这项技术解决了一个长期困扰研究人员的"任务干扰"问题。过去,当我们试图将多个AI模型合并时,经常会发现它们之间会相互干扰,就像在同一个厨房里同时工作的厨师会互相碰撞一样。而DivMerge技术通过基于信息论的智能分配机制,让每个模型都能在合并后的系统中发挥最佳作用,避免了这种相互干扰的问题。
一、模型合并的智慧艺术
要理解DivMerge技术的创新之处,我们首先需要明白什么是模型合并。设想你有三个朋友,一个擅长数学,一个精通历史,还有一个是语言天才。现在你希望创造一个"超级朋友",能够同时具备这三个朋友的所有技能。在AI世界里,这就是模型合并要解决的问题。
传统的多任务学习方法就像把三个朋友的知识全部混合在一起,重新培养一个全能型人才。这种方法确实能够工作,但成本极其昂贵,就像要培养一个既懂数学又精通历史还会多种语言的人一样,需要大量的时间和资源。更关键的是,在这个过程中,原本三个朋友各自的专业优势可能会被稀释,最终得到的"全才"在每个领域可能都不如原来的专家。
模型合并技术则采用了完全不同的思路。它保留了每个专家模型的原有能力,通过巧妙的组合方式让它们协同工作。这就像是让三个朋友组成一个团队,在面对不同问题时,让最合适的专家来主导解决方案,同时其他专家提供必要的辅助。
在技术层面,每个AI模型都可以看作是由数百万个参数构成的复杂系统,这些参数就像是模型的"DNA",决定了它的行为特征。当一个通用模型经过特定任务的训练后,这些参数会发生细微但重要的变化,就像一块原本平整的橡皮泥被塑造成了特定的形状。研究人员将这种变化称为"任务向量",它记录了从通用能力到专门技能的转变轨迹。
DivMerge技术的核心创新在于如何智能地组合这些任务向量。传统方法往往采用简单的平均或者预设权重的方式进行组合,就像按照固定比例调配鸡尾酒一样。但DivMerge采用了基于信息论的动态调配策略,它能够根据不同任务之间的相似性和差异性,自动确定最优的组合比例。
二、信息论指导下的智能组合
DivMerge技术的理论基础建立在信息论这一数学分支之上。信息论听起来很高深,但其核心思想其实很朴素:如何用最少的信息量准确描述最多的内容。在日常生活中,我们经常不自觉地运用信息论的思想。比如,当我们向朋友描述一部电影时,我们会挑选最关键的情节要点,而不是逐字逐句地复述整部电影。
在模型合并的场景中,信息论帮助我们回答一个关键问题:如何判断不同模型之间的相似性和差异性?研究团队采用了Jensen-Shannon散度这一信息论工具来衡量模型之间的"距离"。可以把这个距离想象成两个人说话方式的差异程度。如果两个人的表达习惯很相似,那么他们之间的"距离"就很小;反之,如果一个人说话很正式而另一个人很随意,那么他们之间的"距离"就比较大。
Jensen-Shannon散度的妙处在于它是对称的,不像其他一些衡量方法会因为比较顺序的不同而得出不同结果。这就好比测量两个城市之间的距离,无论从A城市测量到B城市,还是从B城市测量到A城市,距离都应该是相同的。
基于这种距离衡量,DivMerge技术能够自动学习如何最优地组合不同的任务向量。整个过程就像一个经验丰富的调酒师,他不是按照死板的配方,而是根据每种酒的特性和客人的口味偏好,动态调整各种成分的比例,最终调制出完美的鸡尾酒。
更令人兴奋的是,这种优化过程完全不需要额外的标注数据。传统的机器学习方法往往需要大量的标注样本来指导模型学习,就像学生需要标准答案来检验自己的学习效果一样。但DivMerge技术通过巧妙的自监督机制,让模型能够根据输入数据的分布特征自动进行优化,这大大降低了实际应用的门槛。
研究团队在理论分析中证明了一个重要结论:当DivMerge的优化目标达到最小值时,合并后的模型能够完美保持权重分离特性。权重分离是模型合并领域的一个重要概念,它确保不同任务对应的模型参数不会相互干扰。这就像在一个大厨房里,每个厨师都有自己专门的工作台和工具,互不干扰,同时又能协调配合完成复杂的菜品制作。
三、突破传统方法的技术优势
为了验证DivMerge技术的有效性,研究团队进行了大量的对比实验。他们选择了GLUE基准测试中的多个经典任务,这些任务涵盖了自然语言处理的各个方面,包括语法正确性判断、情感分析、问答匹配等。可以把这些任务想象成语言能力的不同维度,就像评估一个人的语言水平需要考查他的阅读、写作、听力和口语能力一样。
在实验设计上,研究团队采用了两种不同的模型架构进行测试。第一种是Qwen2.5-0.5B,这是一个纯解码器架构的模型,特别适合生成类任务。第二种是T5-Base,这是一个编码器-解码器架构的模型,在理解和生成任务上都有不错的表现。通过在不同架构上的测试,研究团队确保了DivMerge技术的通用性和鲁棒性。
实验结果令人印象深刻。在双任务合并的场景中,DivMerge技术在分类任务上达到了99.18%的平均性能保持率,在生成任务上达到了98.93%的平均性能保持率。这意味着合并后的模型几乎完全保持了原始专门模型的能力,这在以往的研究中是很难达到的。
相比之下,传统的模型平均方法在分类任务上只能达到88.48%的性能保持率,在生成任务上为94.38%。另一种流行的TIES方法虽然在分类任务上能达到94.06%,但在生成任务上的表现也只有95.53%。这些对比清楚地展示了DivMerge技术的优越性。
更重要的是,DivMerge技术在处理多个任务合并时展现出了更好的扩展性。传统方法往往存在一个严重问题:随着需要合并的任务数量增加,整体性能会显著下降。这就像试图让一个人同时掌握越来越多的技能,到了某个临界点后,每增加一项新技能都会对已有技能造成负面影响。
但DivMerge技术在这方面表现出了明显的优势。即使将任务数量从2个增加到7个,性能下降的幅度也相对较小。在分类任务中,当合并7个任务时,DivMerge技术仍能维持93.06%的性能水平,而传统的模型平均方法只能达到60.51%。这种扩展性的优势使得DivMerge技术在实际应用中更具价值。
四、深度分析与技术洞察
研究团队还进行了一系列深入的分析实验,以揭示DivMerge技术成功的内在机制。他们首先验证了散度度量与模型性能之间的相关性。通过计算不同模型之间的KL散度和Jensen-Shannon散度,研究人员发现这些散度值与模型在交叉任务上的性能表现存在显著的负相关关系。
具体来说,当两个模型之间的散度较小时,其中一个模型在另一个模型的专门任务上通常也会有较好的表现。这种相关性的发现为DivMerge技术的理论基础提供了有力支撑,证明了基于散度的优化策略确实能够捕捉到模型之间的本质关系。
在散度类型的选择上,研究团队发现Jensen-Shannon散度相比KL散度表现出了更好的效果。虽然两者的差异并不总是显著的,但Jensen-Shannon散度在大多数情况下都能达到更高的相关性。这一发现指导了研究团队在后续实验中主要采用Jensen-Shannon散度作为优化目标。
研究团队还详细分析了DivMerge技术的训练动态。通过观察不同任务权重在训练过程中的变化,他们发现了一个有趣的现象:对于某些任务,其权重值似乎相对独立,不太受与之合并的其他任务影响;而对于另一些任务,权重值则会根据合作任务的特性进行动态调整。
这种现象反映了不同AI任务之间复杂的关系网络。有些任务具有较强的独立性,就像数学和音乐这两种能力在人类大脑中相对独立一样;而有些任务之间则存在较强的协同效应,一个任务的改进能够带动另一个任务的提升。
在实际应用考量方面,研究团队还测试了数据需求的敏感性。他们发现,DivMerge技术只需要很少量的验证数据就能达到良好的合并效果。具体而言,使用仅25个样本(约占原始训练数据的0.4%,验证数据集的5%)就能获得与使用完整数据集相当的性能。这一发现大大降低了DivMerge技术的应用门槛,使得即使在数据稀缺的场景下也能有效应用。
五、方法论创新与理论贡献
DivMerge技术不仅在实用性上取得了突破,在理论层面也做出了重要贡献。研究团队证明了他们的方法与经典多任务学习之间的深层联系。通过数学推导,他们展示了基于KL散度的优化问题等价于多任务学习目标的矩量投影近似。
这一理论发现具有重要意义。它表明DivMerge技术本质上是在近似传统多任务学习的最优解,但却避免了后者需要重新训练整个模型的高昂成本。可以把这种关系比作速食版本的精致菜肴——通过巧妙的技术手段,以更低的成本和更快的速度达到接近原版的品质。
研究团队还引入了权重分离这一重要概念的形式化定义。权重分离要求合并后的模型在处理特定任务的输入时,其行为应该与该任务的专门模型完全一致,而不受其他任务模型的影响。这就像一个多功能工具,在使用螺丝刀功能时不会因为同时具备锤子功能而影响螺丝刀的精确性。
更重要的是,研究团队证明了当DivMerge的优化目标达到全局最小值时,合并后的模型必然满足权重分离条件。这一理论保证为DivMerge技术的可靠性提供了坚实基础,确保了在理想条件下,技术能够达到理论上的最优效果。
在算法设计层面,DivMerge技术展现了优雅的简洁性。整个优化过程可以用标准的梯度下降方法实现,不需要复杂的超参数调优或特殊的训练技巧。这种简洁性不仅降低了实现难度,也提高了方法的可重现性和可扩展性。
六、实验验证的严谨性
为了确保结果的可信度,研究团队采用了极为严谨的实验设计。他们不仅测试了方法在不同任务组合上的表现,还系统性地分析了各种影响因素。在双任务合并实验中,对于包含7个分类任务的设置,研究团队测试了所有可能的21种任务配对组合,确保结论的统计显著性。
在多任务扩展性测试中,研究团队按照任务数量递增的方式进行了全面评估。对于每个特定的任务数量,他们都测试了所有可能的任务组合。例如,在三任务合并测试中,他们评估了所有35种可能的任务三元组合。这种全面测试的方法确保了结论的普适性,避免了因为特定任务组合而产生的偏差。
实验还包含了详细的消融研究,以分析DivMerge技术各个组件的贡献。研究团队分别测试了任务级别合并和层级别合并两种粒度的效果。层级别合并允许对模型的每一层设置不同的合并系数,提供了更精细的控制能力。实验结果表明,层级别合并确实能够带来额外的性能提升,验证了细粒度控制的价值。
在训练稳定性分析中,研究团队展示了DivMerge技术优秀的收敛特性。通过跟踪训练过程中性能指标的变化,他们发现该方法能够稳定收敛到高质量的解,没有出现常见的过拟合或震荡现象。这种稳定性对于实际应用至关重要,确保了方法在不同数据集和任务配置下都能可靠地工作。
七、技术局限与未来展望
尽管DivMerge技术取得了显著成功,研究团队也诚实地指出了当前方法的局限性。首先,该技术目前主要在全参数微调的设置下进行了验证。在现代AI应用中,低秩适应(LoRA)等参数高效微调方法越来越流行,但DivMerge在这些设置下的表现还需要进一步验证。
另一个重要限制是数据分布的假设。DivMerge技术假设能够访问每个任务的真实数据分布,但在实际应用中,我们往往只能获得近似的分布。虽然研究团队提供了一些理论分析来处理这种分布偏移的情况,但更深入的研究仍然是必要的。
在扩展性方面,虽然DivMerge相比传统方法展现出了更好的多任务处理能力,但随着任务数量的持续增长,性能依然会出现一定程度的下降。这提示我们需要进一步探索更高效的大规模任务合并策略。
研究团队还指出了计算效率的考虑。虽然DivMerge避免了重新训练整个模型的需求,但优化过程仍需要一定的计算资源。在资源极其有限的环境下,如何进一步提高效率仍是一个值得研究的问题。
展望未来,这项工作开启了多个有趣的研究方向。首先是将DivMerge技术扩展到更多类型的模型架构和训练方式,特别是参数高效微调方法。其次是探索更复杂的任务关系建模,以更好地处理任务间的协同和冲突关系。
另一个有前景的方向是将DivMerge的思想应用到模型压缩和知识蒸馏领域。通过智能地合并不同规模或不同训练策略的模型,可能能够在保持性能的同时显著减少模型大小和推理成本。
八、现实应用的深远影响
DivMerge技术的成功不仅具有学术价值,更重要的是它为AI技术的实际应用开辟了新的可能性。在当今这个AI模型层出不穷的时代,如何高效地利用和组合现有模型资源成为了一个迫切需要解决的问题。
考虑这样一个现实场景:一家科技公司已经开发了多个针对不同业务需求的AI模型,比如客户服务聊天机器人、产品推荐系统、内容审核工具等。传统做法要么是为每个应用场景部署独立的模型,导致资源消耗巨大;要么是重新训练一个统一模型,但这往往会牺牲各个专门领域的性能。
DivMerge技术提供了第三种选择:将这些专门模型智能地合并成一个多功能的超级模型,既能保持各自领域的专业能力,又能减少部署和维护成本。这种能力对于中小企业特别有价值,因为它们往往没有足够的资源来维护多个独立的AI系统。
在教育领域,DivMerge技术也展现出了巨大潜力。想象一个智能教学系统,它需要同时具备数学辅导、语言学习、历史知识问答等多种能力。通过DivMerge技术,教育机构可以将已有的各科目专门AI教师模型合并,创造出一个全科目的智能教学助手,为学生提供更全面的学习支持。
在医疗健康领域,这项技术同样具有重要意义。医疗AI通常需要处理影像诊断、症状分析、药物推荐等多种不同类型的任务。DivMerge技术使得将不同专科的AI诊断系统整合成综合诊疗平台成为可能,为医生提供更全面的决策支持。
从更宏观的角度看,DivMerge技术体现了AI发展的一个重要趋势:从单一功能的专用系统向多功能的通用系统演进。这种演进不是简单的功能堆叠,而是智能化的能力整合,代表了AI技术走向成熟的重要标志。
说到底,DivMerge技术为我们提供了一种全新的思考方式:如何在保持专业性的同时实现通用性。这种平衡一直是AI领域追求的圣杯,而Orange Research团队的工作为我们指明了一个充满希望的方向。
这项研究的真正价值或许不仅在于它解决了模型合并这一具体技术问题,更在于它展示了如何通过数学理论指导实际技术开发的范例。基于信息论的散度度量、权重分离的理论保证、以及与经典多任务学习的深层联系,这些理论基础确保了DivMerge技术不仅在当前实验中表现优秀,更具有持续改进和扩展的潜力。
对于AI技术的未来发展而言,DivMerge代表的可能不仅是一种新的技术方法,更是一种新的技术哲学:通过智能化的组合而非简单的叠加来实现能力提升。这种哲学在AI系统日益复杂化的今天显得尤为重要,为构建更加智能、高效、可持续的AI生态系统提供了宝贵的启发。
Q&A
Q1:DivMerge技术是什么?它解决了什么问题?
A:DivMerge是Orange Research开发的AI模型合并技术,能够将多个专门训练的AI模型像拼乐高一样智能组合成一个"超级模型"。它解决了传统方法中多个AI模型合并后性能下降和相互干扰的问题,让合并后的模型既保持各自专长又能协调工作。
Q2:DivMerge比传统模型合并方法好在哪里?
A:DivMerge在双任务合并中能达到99.18%的性能保持率,而传统方法只有88.48%。更重要的是,当需要合并的任务增加时,传统方法性能会急剧下降,但DivMerge仍能保持相对稳定的表现,展现出更好的扩展性。
Q3:普通企业能否使用DivMerge技术?有什么要求?
A:DivMerge技术相对简单易用,只需要很少的验证数据(仅25个样本)就能有效工作,不需要复杂的参数调优。对于已经有多个专门AI模型的企业来说,可以用这项技术将它们合并,减少部署和维护成本。
好文章,需要你的鼓励
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。
谷歌DeepMind团队开发的GraphCast是一个革命性的AI天气预测模型,能够在不到一分钟内完成10天全球天气预报,准确性超越传统方法90%的指标。该模型采用图神经网络技术,通过学习40年历史数据掌握天气变化规律,在极端天气预测方面表现卓越,能耗仅为传统方法的千分之一,为气象学领域带来了效率和精度的双重突破。