微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 规模法则让开源视觉语言模型比拼更公平:如何证明MaMMUT优于CLIP?

规模法则让开源视觉语言模型比拼更公平:如何证明MaMMUT优于CLIP?

2025-06-10 09:25
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-10 09:25 科技行者

在人工智能研究的广阔天空中,基础模型就像是支撑整个生态系统的"地基",而评估这些地基哪个更牢固,一直是学术界和产业界关注的焦点。来自LAION、于利希超级计算中心(JSC)、意大利国家信息科学与技术研究院(CNR)和埃因霍温理工大学的研究团队联合发表了一项开创性研究,探索了如何通过规模法则(Scaling Law)更科学地比较开源视觉语言模型。这项研究发表于2025年6月5日的arXiv预印本平台(arXiv:2506.04598v1)。

想象一下,你想比较两种不同的健身方法哪个更有效。如果只是看一个人锻炼一周的效果,结论可能很片面;但如果你能追踪多位使用者在不同时长(一周、一个月、半年)的进步曲线,就能更准确地判断哪种方法真正更有效。研究团队正是使用了类似的"规模法则"思路,通过测量模型在不同计算资源和数据量下的表现曲线,而不是仅仅看某一个特定配置下的性能表现。

这项研究首次对两种重要的语言-视觉学习方法——CLIP(仅使用对比学习)和MaMMUT(同时使用对比学习和生成式标题学习)——进行了全面的规模法则分析。研究团队在广泛的模型规模和训练样本数量上进行了密集测量,确保预测的准确性。结果显示,虽然在较小的计算规模下CLIP表现更优,但随着规模增加,MaMMUT展现出更强的可扩展性和数据效率,在大规模计算资源条件下性能超过CLIP。这一趋势在不同的下游任务(分类、检索、分割)和不同的开放数据集(DataComp、DFN和Re-LAION)中都得到了一致验证。

研究团队还发现,即使使用计算成本降低98%的恒定学习率方案进行规模法则推导,仍然能得出相同的结论,证明了这种比较方法的稳健性。基于研究发现,团队还训练了一个开放的大型模型openMaMMUT-L/14,它在ImageNet-1k零样本分类上达到了80.3%的准确率。

这项研究为如何科学地比较开源基础模型和数据集提供了新方法,避免了仅基于单一参考点的片面比较,为系统性地改进开源基础模型和数据集铺平了道路。

一、为什么我们需要更好的模型比较方法?

想象一下,你去买跑鞋时面临两个品牌的选择。销售员告诉你:"A品牌在专业马拉松选手中更受欢迎,而B品牌在普通跑步爱好者中口碑更好。"这样的信息对你的选择其实帮助不大,因为你不知道这些评价背后的具体测试条件、使用者特点以及评价标准是什么。

人工智能领域的基础模型比较也面临类似的问题。通常,研究人员会在一系列标准化的参考任务上比较不同的基础模型。然而,这种比较往往只在一个或少数几个选定的模型规模和数据规模上进行,而且没有仔细对齐投入训练的计算资源。更糟糕的是,重要的训练数据集通常是封闭的,无法公开获取。这使得难以确定所观察到的模型差异是由算法改进、数据集质量还是训练计算资源的差异造成的,或者是它们的组合效应。同时,也无法确定这种比较是否适用于其他规模。

研究团队通过使用规模法则推导来解决这些问题。基础模型展现出的规模法则允许我们从较小规模的测量中确定模型性能与总训练计算量之间的依赖关系,从而能够在广泛的规模范围内进行预测,而不仅仅是一个或几个选定的点。

研究小组选择了语言-视觉学习作为模型和数据集比较的重要场景。对比性语言-图像预训练(CLIP)是一种成熟的学习程序,其产生的模型展示了令人印象深刻的稳健性和迁移能力,已经被广泛应用于许多设置中,如视觉-语言指令微调模型(如LLaVa、InternVL、SigLIP)和文本到图像生成模型。自CLIP首次发布以来,提出了许多扩展,如CoCa、MaMMUT和SigLIP。这些工作声称提供了比标准CLIP更高性能的语言-视觉模型。然而,目前还不清楚这些训练程序中哪一个因为何种原因更好,以及对标准CLIP程序的改进声明是否在各个规模上都成立。

二、科学的模型比较:密集测量与规模法则

研究团队的方法就像是进行一场全面而系统的科学实验,而不是简单地比较两款产品的某一项指标。他们不仅关注最终结果,更关注不同配置下性能变化的整体趋势。

在这项研究中,团队使用了三个开放参考数据集:DataComp-1.4B、DFN-1.4B和Re-LAION-1.4B,对CLIP和MaMMUT这两种重要的程序进行了大规模研究。他们在模型架构大小(从S/32到H/14)和所见样本数量(从1.28M到3B)的广泛跨度上进行了密集测量,评估下游性能的任务涵盖零样本分类、检索和分割。

研究使用的CLIP模型基于对比InfoNCE损失训练,而MaMMUT模型则结合了对比损失和标题生成损失。为确保公平比较,研究团队使用了完全相同的训练环境和评估流程。

具体来说,研究中考虑了15种不同的模型配置(ViT-S、ViT-M、ViT-B、ViT-L和ViT-H视觉编码器,每种都有32x32、16x16和14x14的不同patch尺寸),以及11个不同的样本数量配置(从1.28M到3.07B)。研究还比较了余弦和恒定学习率调度器的效果。

在下游评估方面,研究使用了零样本分类(在DataComp评估套件中的35个分类任务上评估top-1准确率)、零样本检索(在MS-COCO上评估图像和文本检索Recall@5指标)以及分割(在ADE20K上进行语义分割)。

这种全面而系统的评估方法,就像是对运动员进行全面的体能测试,而不仅仅是看100米短跑成绩,从而确保了比较结果的可靠性和全面性。

三、规模法则推导:理解模型如何随规模增长而变化

为了理解模型性能如何随着计算资源和数据量的增加而变化,研究团队使用了规模法则推导。这就像是研究植物生长规律——通过测量不同阶段的高度,你可以预测它未来的生长曲线。

在规模法则的推导过程中,研究团队既改变了模型架构大小(文本和视觉塔的参数数量),也改变了所见样本数量和patch大小。一般来说,计算量与性能之间遵循幂律关系:L = aC^b,其中C是计算量(以FLOPs计),L是误差率。

由于零样本图像分类等任务的特殊性,研究团队考虑了小计算规模下的饱和效应和任务固有的性能上限,采用了以下函数形式来拟合误差率:

L(C) = Ac · (C + Bc)^(-αc) + Ec

其中αc > 0,Ec代表不可约误差。

对于每种计算规模C和模型架构的组合,研究团队取误差率最小的点。为了评估拟合质量,他们使用了计算预算低于阈值的点进行拟合,然后计算剩余(保留)点上的均方误差。

这种方法就像是天气预报——通过已知的数据点建立模型,然后检验模型对未来天气的预测准确性,从而验证模型的可靠性。

四、研究发现:MaMMUT的规模优势

研究的核心发现就像是一场马拉松比赛——在起跑阶段CLIP领先,但随着距离增加,MaMMUT逐渐显示出更强的耐力和速度优势。

具体来说,研究发现MaMMUT在可扩展性方面一致优于CLIP。这反映在等效计算预算下较大规模时的较低误差率上,交叉点始终位于10^10和10^11 GFLOPS之间。这表明随着计算量增加,MaMMUT表现出更好的效率和泛化能力。

重要的是,这一趋势在不同条件下都得到了一致验证:

首先,在不同的预训练数据集上,包括DataComp-1.4B、Re-LAION-1.4B和DFN-1.4B,均观察到相同的趋势。这就像是三场不同赛道上的马拉松,MaMMUT都展现出了同样的长距离优势。

其次,在不同的下游任务上,包括ImageNet-1k零样本图像分类、MS-COCO图像检索和ADE20K语义分割,都观察到了一致的趋势。这表明MaMMUT的优势不局限于特定类型的任务,而是一种普遍性能的提升。

第三,无论使用余弦还是恒定学习率调度器,都观察到了相同的一致趋势。这说明即使使用计算成本降低98%的恒定学习率方案进行规模法则推导,仍能得出相同的结论。

研究还发现,在较小规模的低性能范围内,CLIP一致地优于MaMMUT,但在较大计算规模的高性能范围内,MaMMUT则一致地超越了CLIP。这就像是短跑选手和长跑选手的对比——在短距离赛跑中,短跑选手更有优势;但在长距离比赛中,长跑选手的耐力优势就会显现出来。

通过验证拟合的方式,研究团队对只拟合到一定计算预算的规模法则进行了外推,并计算了更大计算规模的均方误差。他们观察到,添加更多点到拟合中会减少保留点上的均方误差,同时也减少了预测的不确定性。

五、数据集比较:哪种数据集更有效?

研究不仅比较了模型架构,还使用规模法则对不同的数据集进行了比较。这就像是比较不同肥料对植物生长的影响——通过观察在不同肥料下植物生长曲线的差异,可以判断哪种肥料更有效。

对于DataComp-1.4B和Re-LAION-1.4B的比较,研究发现,对于CLIP和MaMMUT,在DataComp-1.4B上训练提供了更好的零样本ImageNet-1k分类可扩展性。然而,在MS-COCO检索方面,两个数据集的可扩展性和性能相似,Re-LAION-1.4B略有优势。

研究还比较了开源数据集与闭源数据集WIT-400M的性能。使用更密集的规模法则推导测量,研究确认了之前工作的发现——闭源数据集WIT-400M在零样本分类上有更好的扩展趋势,但在零样本检索上扩展趋势更差。这是即使在规模法则推导有重大差异的情况下,仍观察到一致趋势,证明了基于规模法则的比较的稳健性。

DataComp-1.4B可以被视为Re-LAION-1.4B的改进版本,在分类上具有更强的可扩展性,媲美WIT-400M,同时在检索上获得的性能与Re-LAION-1.4B相当,优于WIT-400M。

此外,研究还提供了Re-LAION、DataComp和DFN的比较。对于DFN,研究只测量了高达300M的样本数量和高达L/14的模型规模,因此基于高达10^11 GFLOPS的计算规模进行比较。结果显示,在DFN-1.4B上训练提供了更强的可扩展性,在CLIP和MaMMUT架构上均超过了DataComp和Re-LAION,无论是对于零样本ImageNet-1k分类还是MSCOCO检索。尽管用于数据集比较的计算较低,趋势的不确定性也更高,但测量的趋势清晰一致,允许得出有利于DFN-1.4B而非其他数据集的结论。

六、MaMMUT的数据效率和最优数据集规模

研究进一步分析了CLIP和MaMMUT的数据效率和计算最优数据集规模。这就像是研究不同学习方法的效率——相同学习时间内,哪种方法能让学生掌握更多知识。

研究显示,MaMMUT展现出比CLIP更高的数据效率。随着训练样本数量的增加,MaMMUT在ImageNet-1k零样本图像分类上取得了更好的性能。同时,MaMMUT需要更少的训练样本来实现计算最优性能。这表明MaMMUT比CLIP更有效地利用训练数据,泛化能力更强,随着数据增加扩展得更好。

研究还提供了未见计算规模的最优训练样本数量估计。例如,对于计算预算为2.14e+12 GFLOPs(对应CLIP ViT-L-14在12.8B图像-文本对上训练),预测的计算最优样本数量为2.30e+10,而对于计算预算为2.59e+12 GFLOPs(对应MaMMUT ViT-L-14在12.8B样本上训练),预测的计算最优样本数量为1.42e+10。

这些结果表明,MaMMUT是一个更具可扩展性的模型,与使用Eq.1拟合实验数据的估计一致。简而言之,MaMMUT能更高效地利用数据和计算资源,特别是在大规模场景下。

七、与其他架构的比较:谁是真正的冠军?

除了CLIP和MaMMUT,研究还调查了其他模型架构:SigLIP(使用sigmoid损失代替softmax的CLIP)、CoCa(使用编码器-解码器文本塔的对比+标题损失,而MaMMUT仅使用解码器)和Cap(纯标题生成器)。这些模型都在DataComp-1.4B上进行了训练,以便与openCLIP和openMaMMUT进行比较。

研究结果显示,CLIP和SigLIP在ImageNet-1k分类上具有非常相似的扩展行为,而openMaMMUT在相同计算规模上一致超过CoCa。值得注意的是,分析表明SigLIP的可扩展性与CLIP相似甚至更差,这与近期SigLIP因其架构优势(特别是使用sigmoid传递函数代替softmax)而成为视觉编码器更好选择的说法相矛盾。在研究中严格控制相同训练数据的实验中,没有发现SigLIP相对于标准CLIP有任何优势。

研究还观察到,仅使用解码器的MaMMUT在相同计算规模上超过了编码器-解码器的CoCa,表明MaMMUT更简单、参数效率更高的架构可能更可取。

此外,研究发现MaMMUT的扩展性优于Cap,显示对比和标题损失的组合是有利的。研究还看到Cap的表现甚至不如标准CLIP,暗示Cap作为仅基于标题生成器的架构在0样本(zero-shot)情景下不是一个好的可扩展性候选,进一步证明对比损失是0样本分类可扩展架构的重要组成部分。

值得注意的是,Cap只能使用基于对数似然的评估进行零样本分类任务,而CLIP和MaMMUT除此之外还可以使用基于嵌入相似性的评估,这要归功于它们的对比损失。研究结果表明,openCLIP和openMaMMUT中使用的基于嵌入相似性的评估比基于对数似然的评估具有强大的优势,而且执行成本也更低。由于缺少对比损失,Cap在架构上处于劣势,无法使用基于相似性的评估,这导致其在0样本情景下表现较差。

八、基于规模法则的预测:未来何去何从?

研究团队还使用派生的规模法则为未见的计算规模提供了预测。这就像是根据球员的历史表现曲线预测他在未来更高水平比赛中的表现。

对于在DataComp-1.4B上训练的MaMMUT和CLIP,研究团队预测了未见计算预算2.14e+12 GFLOPs(对应CLIP ViT-L-14在12.8B图像-文本对上训练)和2.59e+12 GFLOPs(对应MaMMUT ViT-L-14在12.8B样本上训练)的性能。预测结果显示MaMMUT优于CLIP。

作为对较大规模的预测测试,对于在DataComp-1.4B的12.8B样本上训练的CLIP ViT-L-14,研究团队的ImageNet-1k零样本准确率预测(79.6%)接近原始DataComp工作中报告的性能(79.2%)。实际测量的性能完全在预测置信区间内。

值得注意的是,DataComp原始工作中测量的性能是在大量样本重复的情况下进行的(在DataComp-1.4B上的12.8B约为9倍重复),而研究团队的预测是针对独特或低重复场景进行的,这也可能解释预测中较高性能的趋势。

研究团队还训练了一个基于研究发现的大型模型openMaMMUT-L/14。该模型在DataComp-1.4B的12.8B图像-文本样本上训练,在ImageNet-1k零样本准确率上达到了80.3%,优于在相同DataComp-1.4B预算12.8B上预训练的openCLIP(79.2%),甚至与具有更大预训练计算量的模型如SigLIP相媲美。openMaMMUT代表了一个高性能、完全可复现的替代方案,拥有公开可用的数据和训练代码。

需要注意的是,在12.8B样本规模上,由于重复量高,性能低于研究团队对独特样本训练的82%预测。这表明在更大规模的开放数据集上,模型性能可能会更接近预测值。

九、深入理解结果:稳健的比较框架

研究团队的方法提供了一个稳健的框架,用于比较开源基础模型和数据集。这就像是建立一个公平的运动员评价系统,不仅看一场比赛的成绩,而是全面评估运动员在各种条件下的表现曲线。

研究表明,通过规模法则推导,可以基于估计的可扩展性进行模型和数据集比较,涵盖广泛的规模范围和各种下游任务,并与相同的总预训练计算量对齐。这种比较可以通过检查不同场景中扩展趋势的一致性来验证。

例如,openMaMMUT的可扩展性强于openCLIP,不仅在零样本分类和检索上,在分割的广泛规模范围内也展现了优势,且跨越所有三个研究的数据集DataComp-1.4B、Re-LAION-1.4B和DFN-1.4B。

这种通过规模法则进行的比较提供了更好的保护,避免了仅基于少数几个选定点(尤其是仅在小规模上)进行比较时可能得出的误导性结论。在较小规模上,openCLIP优于具有更强可扩展性的openMaMMUT,而后者在较大规模上取得了领先。

值得注意的是,研究观察到openMaMMUT超越openCLIP的计算规模阈值在各种数据集、零样本下游任务和学习调度中一致地位于10^10和10^11 GFLOPS之间。这进一步证明了基于规模法则比较的稳健性。

为了正确估计这些交叉点,对较小规模进行密集测量并使用允许准确外推到较大规模的拟合程序是至关重要的。

十、结论与未来展望:更透明、更科学的模型评估

总结来说,这项研究展示了如何通过规模法则推导实现系统的学习程序、模型和数据集比较。研究团队使用了openCLIP和基于MaMMUT的openMaMMUT这两个重要的开源语言-视觉模型,它们分别依赖于仅图像-文本对比或对比加标题生成损失,在三个重要的开放参考数据集DataComp-1.4B、Re-LAION-1.4B和DFN-1.4B上进行训练。

研究证明,推导规模法则可以基于模型和数据集在广泛规模范围内和各种下游任务上的估计可扩展性进行比较,并与相同的总预训练计算量对齐。这种比较可以通过检查不同场景中扩展趋势的一致性来验证。例如,openMaMMUT的可扩展性比openCLIP更强,不仅在零样本分类和检索上,在分割上也在广泛的规模范围内展现了优势,且跨越所有三个研究的数据集。

通过规模法则进行比较提供了更好的保护,避免了仅基于少数几个选定点的比较可能导致的误导性结论,特别是当这种比较仅在小规模上进行时。在较小规模上,openCLIP优于具有更强可扩展性的openMaMMUT,后者在较大规模上取得了领先。

值得注意的是,研究观察到openMaMMUT超越openCLIP的计算规模阈值在各种数据集、零样本下游任务和学习调度中一致地位于10^10和10^11 GFLOPS之间。这进一步证明了基于规模法则比较的稳健性。

在研究中,团队使用了开放数据集,其中包含1.4B个样本。虽然这足以证明基于规模法则比较的有用性,但对于更大规模的训练预测需要更大的数据集。这些数据集也是训练预测具有强大能力的更大规模模型所必需的,因为在较小数据集上的过多重复可能会导致性能下降。

研究团队强调,虽然他们展示了通过规模法则推导可以进行稳健且可复现的比较,但这种方法关键依赖于整个流程的完全开放性——包括数据集构成、训练本身和下游评估。他们希望这项工作能鼓励创建更多开放成果,特别是开放数据集,因为这些仍然很稀缺,以促进协作和可复现地向更强大、可扩展的开源基础模型迈进,这些进步可以通过独立验证和系统比较来指导。

最终,这项研究不仅为人工智能研究社区提供了一种更科学、更透明的模型评估方法,也为普通用户选择和使用这些模型提供了更可靠的参考依据。就像我们在选择产品时不应仅看一个评测分数,而应了解产品在各种使用场景和强度下的整体表现曲线一样,人工智能模型的评估也应当更全面、更系统。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-