
这项由阿里巴巴集团DAMO学院的肖承昊、陈侯鹏等多位研究人员共同完成的研究发表于2025年神经信息处理系统大会(NeurIPS 2025),论文编号为arXiv:2510.11693v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
设想一下这样的场景:你家里有一个特别聪明的管家机器人,它不仅能听懂你说话,还能看懂图片、听懂音乐、理解视频。更神奇的是,当你只教会它如何更好地理解文字对话后,它竟然在处理图片、音频、视频方面的能力也自动提升了。这听起来是不是很不可思议?
这正是阿里巴巴研究团队最新发现的惊人现象。他们深入研究了当今最先进的多模态大语言模型,发现了一个颠覆性的秘密:这些AI模型在学习生成文字的过程中,竟然悄悄建立了一种内在的"跨模态对齐"能力。简单来说,就像一个孩子在学会说话的同时,也自然而然地学会了如何理解手势和表情一样。
研究团队提出了一个全新的框架,叫做"语言中心的全模态嵌入学习"(LCO-EMB)。这个名字听起来很复杂,但本质上就是一种"以语言为核心"的AI训练方法。他们发现,只要让AI模型在文本理解上变得更强,它在处理其他类型信息时的能力也会水涨船高。
更令人兴奋的是,研究团队还发现了一个被他们称为"生成-表示缩放定律"的现象。这个定律表明,AI模型生成文字的能力越强,它在各种搜索和匹配任务上的表现就越好。这就好比一个擅长讲故事的人,往往也更善于理解和分析别人的故事。
这项研究不仅在理论上具有重要意义,在实际应用中也展现出了强大的潜力。研究团队在多个国际权威测试中都取得了领先成绩,而且使用的训练数据比其他方法少了21倍。这意味着,未来我们可能用更少的资源训练出更强大的AI模型,让智能搜索、图像理解、语音识别等技术变得更加普及和高效。
一、AI模型的隐藏天赋:跨模态对齐的秘密
当我们谈论现代AI模型时,大多数人可能会认为它们需要分别学习如何处理文字、图片、声音等不同类型的信息。但阿里巴巴的研究团队发现了一个令人惊讶的现象:这些多模态大语言模型在学习生成文字的过程中,实际上已经悄悄地建立了一种跨越不同信息类型的内在联系。
为了验证这个发现,研究团队设计了一个巧妙的实验。他们选择了几个先进的多模态AI模型,只使用文本数据对这些模型进行轻量级的对比学习训练。这就像只教一个孩子更好地理解和运用语言,而不直接教他如何看图片或听音乐。
实验的结果让人大开眼界。研究团队通过分析模型内部表示的"各向异性程度"和"核相似性结构",发现了一个关键现象:当模型在文本理解能力上得到提升后,它对图像、音频、视频等其他模态信息的处理能力也随之改善。
这种现象可以用一个生动的比喻来理解。设想你正在学习一门外语,当你的词汇量和语法理解不断提升时,你不仅能更好地阅读文章,还会发现自己在理解外语歌曲、观看外语电影时的能力也在同步提高。这是因为语言作为一种基础的认知工具,为理解其他形式的信息提供了强有力的支撑。
研究团队使用了一个叫做"各向异性估计"的技术来测量这种现象。简单来说,各向异性就像是衡量一个房间里物品摆放是否整齐的指标。如果所有东西都堆在一个角落里,那就是高各向异性;如果物品均匀分布在整个房间里,那就是低各向异性。在AI模型中,低各向异性意味着信息表示更加分散和有序,这通常对应着更好的性能。
实验结果显示,当研究团队仅使用文本数据训练模型后,不仅文本信息的各向异性降低了,图像、音频、视频信息的各向异性也同样降低了。这意味着,文本训练对其他模态的积极影响是真实存在的,而且是可以量化测量的。
为了进一步验证这个发现,研究团队还采用了"核层面相似性分析"的方法。这种方法就像是比较两个人的思维模式是否相似:通过观察他们在面对相同问题时的反应模式,来判断他们的思考方式是否趋同。
结果表明,经过文本训练的模型在处理视觉和语言信息时,展现出了更强的内在一致性。这种一致性的提升直接反映了模型内部跨模态对齐能力的增强。更有趣的是,研究团队发现较大的模型(如7B参数版本)比较小的模型(如3B参数版本)展现出了更强的跨模态对齐能力,这可能是因为更大的参数空间为模型提供了更好的表达能力和跨模态关系捕捉能力。
这个发现颠覆了传统的观念,即认为要提升AI模型在多个模态上的表现,就必须使用包含所有模态的大量训练数据。相反,研究结果表明,通过专注于语言这个核心模态的训练,可以有效地激活和提升模型在其他模态上的潜在能力。
二、语言中心的全模态嵌入学习:一个全新的训练范式
基于对跨模态对齐现象的深入理解,研究团队提出了一个革命性的训练框架——语言中心的全模态嵌入学习(LCO-EMB)。这个框架的核心思想是将语言作为连接和统一所有其他信息类型的桥梁。
现代多模态AI模型的架构通常包含三个主要组件:针对不同信息类型的专门编码器(比如图像编码器、音频编码器)、一个投影器、以及一个语言解码器。在传统的训练方法中,研究者通常会同时使用各种类型的数据来训练整个模型。但LCO-EMB采用了一种截然不同的策略。
LCO-EMB的训练过程可以比作修理一台复杂的机器。传统方法就像同时拆开机器的所有部件进行修理,既复杂又容易出错。而LCO-EMB则像是专注于修理机器的核心控制单元(语言解码器),通过优化这个核心部件来提升整台机器的性能。
具体来说,研究团队在训练过程中冻结了模态编码器和投影器的参数,只对语言解码器进行微调。这种方法的好处是显而易见的:它保持了模型在预训练阶段建立的跨模态对齐结构,同时通过轻量级的调整来激活和强化这种对齐能力。
更重要的是,研究团队采用了一种叫做LoRA(低秩适应)的技术。如果把模型的参数比作一本厚重的百科全书,那么LoRA就像是在书页边缘添加注释,而不是重写整本书。这种方法可以在保持原有知识结构基本不变的前提下,添加新的理解能力。
LoRA技术的优势在于它能够最小化对原模型的扰动。这一点至关重要,因为过度的修改可能会破坏模型在预训练阶段建立的珍贵的跨模态对齐关系。研究团队通过实验验证了这一点:与全参数微调相比,LoRA不仅训练效率更高,而且在保持模型生成能力的同时,更好地保留了跨模态对齐结构。
LCO-EMB框架还有一个重要特点,就是它支持多模态变体。研究团队发现,在文本训练的基础上,添加少量精心选择的多模态数据可以进一步校准模型的嵌入空间,使其更好地适应下游任务的格式要求。这就像在掌握了基本技能后,再针对具体应用场景进行专门练习。
这种多模态变体的训练数据设计也很有讲究。研究团队没有盲目地使用大量多模态数据,而是精心构建了约94000个多模态训练样本,包括视觉文档、检索和组合性任务、多语言多样化文本数据,以及通用合成数据。这种精细化的数据配置策略确保了训练的效率和效果。
实验结果表明,LCO-EMB在多个权威基准测试中都取得了优异的成绩。在MIEB-Lite基准测试的51个任务中,LCO-EMB的多模态变体创造了新的最佳记录,而其文本版本也超越了许多先进的商业模型。更令人印象深刻的是,LCO-EMB使用的训练数据量只有其他方法的二十一分之一左右,这充分证明了该方法的效率和有效性。
三、生成-表示缩放定律:AI能力的意外关联
在深入研究LCO-EMB的过程中,研究团队发现了一个更加深刻和有趣的现象,他们将其命名为"生成-表示缩放定律"(GRSL)。这个定律揭示了AI模型的生成能力和表示能力之间存在着令人惊讶的正相关关系。
生成-表示缩放定律可以用一个简单但深刻的比喻来理解。考虑一个优秀的小说家和一个优秀的文学评论家之间的关系。通常我们会认为这是两种不同的技能:一个擅长创作故事,另一个擅长分析和理解故事。但现实中,我们经常发现那些最擅长写作的人往往也是最敏锐的文学评论家。他们对语言的深刻理解使他们既能创造出精彩的作品,也能精准地分析和评价其他作品。
研究团队通过大量实验验证了这一现象在AI模型中的存在。他们选择了多个不同规模和能力的多模态大语言模型,分别测试了这些模型在生成任务和表示任务上的表现。生成任务包括根据图像生成描述、回答视觉问题等;表示任务则包括图像检索、文档理解、语义相似性判断等。
实验涵盖了三个主要领域:基于OCR的图像-文本任务、视频-文本任务,以及音频-文本任务。在每个领域中,研究团队都发现了同样的模式:那些在生成任务上表现更好的模型,在经过相同的对比学习训练后,在表示任务上也会表现得更好。
以OCR相关任务为例,研究团队测试了模型在TextVQA、DocVQA、OCRBench和ChartQA等生成任务上的表现,同时也评估了它们在视觉语义文本相似性和文档理解等表示任务上的能力。结果显示,这两类任务的性能之间存在明显的正相关关系。
这种相关性在视频和音频领域同样存在。在视频任务中,那些在Video-MME和MVBench等生成基准上表现优异的模型,在MSR-VTT和ActivityNet等检索任务上也显示出了更强的能力。音频领域的实验结果也证实了同样的趋势。
更重要的是,研究团队为这一经验观察提供了严谨的理论解释。他们运用PAC-贝叶斯理论框架,证明了模型的生成能力实际上为其表示能力提供了一个理论上界。这个理论分析表明,更强的生成能力意味着模型能够捕获输入数据中更多的互信息,而这种信息捕获能力直接转化为更好的表示质量。
具体来说,研究团队建立了一个数学模型,将模型的期望表示风险与三个关键因素联系起来:生成瓶颈、优化低效性差距,以及微调成本。生成瓶颈项直接依赖于模型的生成质量,更强的生成能力会降低这个瓶颈,从而提供更好的表示性能潜力。
这个理论发现具有重要的实践意义。它表明,提升AI模型表示能力的一个有效途径是首先增强其生成能力。这为AI模型的训练和优化提供了一个新的视角:不是分别优化生成和表示能力,而是通过提升生成能力来间接但有效地提升表示能力。
四、SeaDoc挑战:在低资源语言中验证理论
为了进一步验证生成-表示缩放定律的普适性和实用性,研究团队设计了一个特别具有挑战性的实验:SeaDoc基准测试。这个测试专门针对东南亚低资源语言的视觉文档检索任务,可以说是对AI模型跨语言、跨模态理解能力的终极考验。
SeaDoc的设计理念就像是为AI模型设置了一个超级困难的"找茬游戏"。研究团队收集了5055页来自29本出版物的文档,涵盖泰语、越南语、马来语和老挝语四种东南亚语言。这些文档内容丰富多样,包括经济学、自然科学、技术、历史、政治、艺术、心理学、教育和国家报告等多个领域。
任务的设置更是独具匠心:给定一个英语查询问题,AI模型需要在这个庞大的多语言文档库中找到能够回答该问题的正确页面。这就像让一个只会说英语的人在一堆外语书籍中找到特定信息,难度可想而知。
为了确保测试的质量和公平性,研究团队采用了严格的数据构建流程。他们首先使用Gemini-2.5-Flash模型对每个PDF页面进行OCR识别、翻译成英语,并生成只能从该特定页面回答的英语查询。然后使用Qwen2.5-7B-Instruct模型进行质量筛选,最后由人工专家进行最终审核。经过这个严格的筛选过程,最终得到了1001个高质量的英语查询。
基于SeaDoc基准,研究团队进行了一个关键实验来验证生成-表示缩放定律。他们使用Qwen2.5-VL-3B作为基础模型,设计了不同的生成能力增强策略,然后观察这些策略对最终检索性能的影响。
实验包含了几个重要的对比条件。首先是基线模型,直接使用轻量级对比学习进行训练。然后是增强生成能力的变体,这些变体在对比学习之前先进行了额外的生成能力训练。生成能力训练使用了东南亚语言的OCR数据和通用领域的图像标注数据的混合。
考虑到多模态文档中的文字往往很小,需要更高的图像分辨率才能准确读取,研究团队还设置了高分辨率和低分辨率两种实验条件。低分辨率设置使用最大262144像素,而高分辨率设置使用了十倍大的2621440像素。
实验结果清晰地验证了生成-表示缩放定律的有效性。那些在生成任务上经过额外训练的模型,在随后的检索任务中表现得明显更好。特别值得注意的是,当使用高分辨率训练时,这种改进效果更加显著。这表明,提升模型在复杂视觉文本理解方面的生成能力,确实能够转化为更强的检索和匹配能力。
更有趣的是,研究团队发现仅使用OCR密集型数据进行训练可能会导致模型性能下降,但加入通用图像标注数据(如PixmoCaps)可以缓解这个问题。这说明在增强特定能力的同时,保持模型的通用对齐能力同样重要。
SeaDoc实验不仅验证了理论预测,还展示了这一发现的实际应用价值。对于服务不足的语言社区,这种方法提供了一条用较少资源开发高质量多模态AI系统的可行路径。通过先增强模型的生成能力,再进行轻量级的表示学习训练,可以获得比传统方法更好的效果。
五、技术实现的精妙之处
LCO-EMB框架的成功不仅来自于其创新的理论基础,更在于其精妙的技术实现细节。研究团队在模型架构选择、训练策略设计、数据配置等多个方面都展现出了深思熟虑的考量。
在模型选择方面,研究团队采用了三个具有代表性的多模态大语言模型作为基础架构:LLaVA-Next、Qwen2.5-VL和Qwen2.5-Omni。这些模型都遵循标准的多模态架构设计,包含模态特定的编码器、投影器和语言解码器。LLaVA-Next和Qwen2.5-VL主要支持图像和视频与文本的交互,而Qwen2.5-Omni则支持全模态输入,覆盖文本、图像、视频和音频。
在训练数据的设计上,研究团队展现出了极其精细的策略考量。对于纯文本设置,他们考虑了两种数据集配置:all-NLI和Scale-1M。all-NLI数据集结合了MNLI和SNLI两个经典的自然语言推理数据集,总共包含约27.6万个三元组,使用蕴含关系作为正样本,矛盾关系作为难负样本。Scale-1M则是一个精心策划的多语言平行语料库,包含100万个句子对,来源于20多个不同的多语言数据源。
Scale-1M的设计特别巧妙。研究团队通过整合多样化的描述性文本来模拟图像标题,旨在在没有直接图像监督的情况下激活图像表示能力。同时,通过集成多语言对来增强跨语言对齐,这种跨语言对齐能力可能会进一步增强跨模态对齐能力。
对于多模态设置,研究团队在all-NLI的基础上添加了约9.4万个合成多模态对,最终形成了约37万个三元组的训练集。这些多模态数据经过精心设计,包括视觉文档、检索和组合性任务、多语言文本数据,以及通用合成数据。
在超参数设置方面,研究团队采用了AdamW优化器,配合余弦学习率调度策略,峰值学习率为4×10^-4,批大小为768,训练2个周期。LoRA的秩和α参数对于文本版本设置为64和16,对于多模态版本设置为64和128。这些参数的选择都经过了仔细的实验验证。
研究团队还进行了详细的消融实验来验证各个组件的重要性。他们比较了LoRA与其他微调策略的效果,包括标准的CLIP风格对比微调、全参数微调,以及浅层投影等方法。结果表明,LoRA不仅在性能上表现最佳,在训练效率上也具有显著优势。
更深入的分析显示,LoRA的优势在于它能够在引入新知识的同时最小化对预训练权重的扰动。这种特性对于保持模型内在的跨模态对齐结构至关重要。相比之下,全参数微调虽然也能取得不错的结果,但由于对比损失与模型预训练目标的偏差,以及全参数调整对预训练参数的较大扰动,可能会破坏已建立的跨模态对齐关系。
在模型集成方面,研究团队还探索了模型汤(model soup)技术的应用。他们分别在all-NLI和Scale-1M数据上训练模型,然后通过平均权重的方式将两个模型合并。实验结果表明,这种集成策略能够有效整合两个模型的互补优势,在多个任务上都取得了更好的性能。
六、广泛的实验验证和卓越表现
为了充分验证LCO-EMB框架的有效性,研究团队在多个权威基准测试上进行了全面的实验评估。这些实验不仅涵盖了图像-文本嵌入任务,还扩展到了音频-文本和视频-文本嵌入任务,为该方法的通用性提供了强有力的证据。
在图像-文本嵌入任务方面,研究团队主要采用了MIEB-Lite基准测试,这是MIEB基准的官方轻量级版本,包含51个任务,涵盖八个主要类别。这些类别包括线性探测、检索(英语和多语言)、零样本分类、组合性评估、以视觉为中心的问答、文档理解、聚类,以及视觉语义文本相似性(英语和跨语言)。
MIEB-Lite的设计非常全面,每个类别都针对多模态嵌入模型的不同能力维度。视觉语义文本相似性任务通过将文本渲染为图像来测试视觉编码器的语义理解能力,使用斯皮尔曼相关系数作为评估指标。文档理解任务评估模型捕获视觉文档中布局感知文本语义的能力,使用nDCG@5作为评估指标。
实验结果令人印象深刻。LCO-EMB在MIEB-Lite的51个任务中始终超越了强基线模型,包括E5-V、VLM2Vec、Voyage-Multimodal-3、mmE5和GME等。特别值得注意的是,尽管LCO-EMB使用的训练数据量仅约37万对,比GME使用的800万数据少了约21倍,但其多模态变体仍然在MIEB上创造了新的最佳记录。
在具体的性能表现上,LCO-EMB展现出了在多个任务类别上的均衡优势。在传统上MLLM基础嵌入模型表现较弱的聚类、线性探测和零样本分类任务上,LCO-EMB也取得了具有竞争力的结果。这种全面的性能提升证明了该方法的有效性和通用性。
音频-文本和视频-文本嵌入任务的实验进一步验证了LCO-EMB的跨模态通用性。在音频任务上,研究团队在AudioCaps和Clotho数据集上进行了评估;在视频任务上,则使用了MSR-VTT和ActivityNet数据集。这些任务的性能提供了LCO-EMB在视觉和语言模态之外的普适性和有效性的补充证据。
研究团队还进行了详细的消融研究来理解各个组件的贡献。他们比较了使用不同训练数据源的效果,发现在all-NLI上训练的模型在视觉语义文本相似性和文档理解任务上表现优异,而在Scale-1M上训练的模型在线性探测和多语言图像检索任务上领先。通过模型集成技术,可以有效结合两种数据源的优势。
在训练策略比较方面,研究团队系统地对比了LoRA与其他微调方法的效果。实验包括使用800K PixmoCaps图像-标题对的标准CLIP风格对比微调、全参数微调,以及在输出后添加线性层的浅层投影方法。结果显示,CLIP风格基线的表现不如纯文本LoRA,需要50倍的训练时间,而浅层投影增加了参数但没有有效利用预训练的跨模态结构。
这些全面的实验验证不仅证明了LCO-EMB方法的有效性,也为理解多模态大语言模型的内在机制提供了宝贵的洞察。实验结果表明,通过专注于语言这一核心模态并采用参数高效的微调策略,可以在保持计算效率的同时显著提升多模态表示能力。
从数据效率的角度来看,LCO-EMB的表现尤其令人瞩目。仅仅使用27.6万的文本数据,该方法的纯文本变体就超越了许多使用大量多模态数据训练的先进模型。这种数据效率的提升对于资源受限的应用场景具有重要的实际意义。
说到底,这项研究为我们打开了一扇全新的门。过去我们总是认为,要让AI模型在多个领域都表现出色,就必须在每个领域都投入大量的训练资源。但阿里巴巴团队的发现告诉我们,语言可能是一把万能钥匙——只要把这把钥匙打磨得足够精良,它就能开启通往其他各种能力的大门。
更让人兴奋的是,他们发现的"生成-表示缩放定律"为AI模型的发展指出了一个全新方向。这意味着,未来我们可能不需要分别去训练"会说话的AI"和"会理解的AI",而是通过培养一个"说话越来越好的AI",自然而然地获得一个"理解能力越来越强的AI"。
这种发现对普通人的生活可能产生深远影响。未来的智能助手可能会变得更加高效和智能,而训练成本的降低也意味着这些先进技术能够更快地普及到日常应用中。从智能搜索到内容推荐,从多语言交流到跨媒体理解,这些技术进步都将让我们的数字生活变得更加便捷和丰富。
当然,这项研究也为AI领域的从业者提供了重要启示。它提醒我们,有时候最有效的解决方案可能不是最复杂的,而是最能抓住本质的。通过深入理解AI模型的内在工作机制,我们可能会发现更多意想不到的捷径和突破口。
对于那些关心AI技术发展的读者来说,这项研究展示了基础理论研究的重要价值。正是通过对AI模型内部机制的深入探索,研究团队才能发现这些隐藏的规律和联系。这再次证明了在追求应用突破的同时,持续投入基础研究的必要性。
Q&A
Q1:什么是语言中心的全模态嵌入学习?
A:语言中心的全模态嵌入学习(LCO-EMB)是阿里巴巴团队提出的AI训练方法,核心思想是以语言为中心来训练AI模型处理图片、音频、视频等多种信息的能力。就像只教孩子更好地理解语言,结果发现他在理解图片和音乐方面的能力也自动提升了。这种方法比传统方法使用的训练数据少21倍,但效果更好。
Q2:生成-表示缩放定律是什么意思?
A:生成-表示缩放定律是研究团队发现的一个重要规律,简单说就是AI模型生成文字的能力越强,它在搜索和理解任务上的表现就越好。就像一个擅长讲故事的人往往也更善于理解分析别人的故事一样。这个发现改变了传统观念,表明提升AI的生成能力是提升其理解能力的有效途径。
Q3:这项研究对普通人有什么实际意义?
A:这项研究将让未来的AI助手变得更智能更高效,同时降低技术开发成本,使先进AI技术能更快普及到日常应用中。比如智能搜索会更准确,多语言翻译会更流畅,图片和视频的理解会更精准。由于训练效率的提升,这些技术的普及速度也会加快,让更多人受益于AI技术的进步。
好文章,需要你的鼓励
谷歌DeepMind等顶级机构联合研究揭示,当前12种主流AI安全防护系统在面对专业自适应攻击时几乎全部失效,成功率超过90%。研究团队通过强化学习、搜索算法和人类红队攻击等多种方法,系统性地突破了包括提示工程、对抗训练、输入过滤和秘密检测在内的各类防护技术,暴露了AI安全评估的根本缺陷。
西蒙弗雷泽大学和Adobe研究院联合开发的MultiCOIN技术,能够将两张静态图片转换为高质量的过渡视频。该技术支持轨迹、深度、文本和区域四种控制方式,可单独或组合使用。采用双分支架构和分阶段训练策略,在运动控制精度上比现有技术提升53%以上,为视频制作提供了前所未有的灵活性和精确度。
英国国王学院研究团队开发了潜在精炼解码(LRD)技术,解决了AI文本生成中的速度与准确性平衡难题。该方法通过两阶段设计模仿人类思考过程:先让AI在连续空间中"深思熟虑",保持多种可能性的混合状态,然后"果断行动",逐步确定答案。实验显示,LRD在编程和数学推理任务中准确性提升最高6.3个百分点,生成速度提升最高10.6倍,为AI并行文本生成开辟了新路径。
清华大学团队开发的ViSurf是一种创新的大型视觉语言模型训练方法,巧妙融合了督导式学习和强化学习的优势。该方法通过将标准答案整合到强化学习过程中,让AI既能从正确答案中学习又能保持自主推理能力。实验显示ViSurf在多个视觉任务上显著超越传统方法,特别是在处理模型知识盲区时表现突出,同时有效避免了灾难性遗忘问题,为AI训练提供了更高效稳定的新范式。