
这项由MiroMind AI、悉尼大学、帝国理工学院以及多个研究机构联合开展的研究发表于2025年10月15日的arXiv预印本平台,编号为arXiv:2510.13515v1。研究团队由顾天成、杨楷城、张楷宸等多位来自不同机构的研究人员组成,其中张月怡和邓建康担任通讯作者。感兴趣的读者可以通过该论文编号在学术数据库中查询完整论文。
在人工智能领域,有一个看似简单却极其重要的任务:教会机器理解图片、文字、语音等不同类型信息之间的关系。就如同一个人能够同时理解一张照片的内容和对应的文字描述一样,AI系统也需要具备这种跨模态理解能力。这种能力被称为"多模态嵌入学习",它是许多AI应用的基础,从图像搜索到智能问答系统都离不开它。
过去,研究人员主要依靠一种叫做"批内负样本挖掘"的方法来训练这类AI系统。可以把这个过程比作厨师学习搭配食材:系统会拿一道菜和一些配菜进行比较,看哪些搭配合理,哪些不合理。但这种方法存在明显缺陷,就像厨师只能在有限的食材中选择,无法真正理解食材之间的细微差别,也难以找到真正具有挑战性的"错误搭配"来提升判断能力。
研究团队意识到,如果能让更"聪明"的AI系统来担任"美食评委",帮助判断哪些搭配更合理,训练效果会大大提升。他们提出了一个创新想法:利用大型多模态语言模型(MLLM)的强大理解能力,让它们充当"法官"的角色,为不同的查询-候选对进行语义匹配打分。这就像请米其林星级厨师来评判菜品搭配的合理性,显然比普通人的判断更加精准和可靠。
一、让AI"法官"来挑选训练素材
传统的训练方法面临两个核心挑战。第一个挑战是"食材库太小"的问题。以往的方法只能在一个批次内的样本中寻找负样本,这就像厨师只能从今天购买的有限食材中选择搭配,无法接触到更丰富多样的选择。第二个问题是"判断标准太粗糙",系统只能简单地判断两个内容是否匹配,无法理解它们之间更细致的语义差异。
为了解决这些问题,研究团队设计了一个名为"MLLM-as-a-Judge"的机制。这个机制的工作原理可以用"三步法"来理解。首先,系统会从全局范围内检索出可能具有挑战性的候选样本,就像从整个食材市场中挑选出那些看起来相似但实际不同的食材。接着,团队让经过精心训练的大型多模态语言模型担任"专业评委",对每一对查询和候选样本的语义匹配程度进行详细评分。最后,基于这些评分,系统能够筛选出真正高质量的训练样本,同时过滤掉那些可能误导学习的"假负样本"。
这种方法的巧妙之处在于,它能够识别出那些看似不匹配但实际上存在某种关联的样本对。比如,当查询是"一只在雪地里的哈士奇"时,传统方法可能简单地将"一群不同颜色的八只哈士奇"标记为负样本。但MLLM"法官"能够理解,虽然数量和颜色有差异,但两者之间确实存在语义关联,因此会给出一个介于0和1之间的连续评分,而不是简单的对错判断。
研究团队通过详细的指令来引导MLLM进行判断。他们会告诉模型:"我将为你提供一个查询和一个候选项,请评估候选项是否满足查询的要求。如果满足,请回答'Yes';如果不满足,请回答'No'。"然后,系统会根据模型输出"Yes"和"No"的概率来计算语义匹配分数。这种方法使得每个样本对都能获得一个精确的匹配度评分,为后续的训练优化提供了更丰富的监督信号。
二、基于软标签的分布对齐训练框架
有了MLLM"法官"提供的精确评分后,研究团队面临的下一个挑战是如何有效利用这些评分信息。传统的对比学习方法采用的是"硬对齐"策略,要求系统严格区分正样本和负样本,就像考试中的是非题一样,答案只能是对或错。但现实世界中的语义关系往往更加复杂,存在着各种程度的相似性和关联性。
为了解决这个问题,研究团队提出了一个基于"软标签"的分布对齐训练框架。这个框架的核心思想是让系统学习更加细致的语义区分能力。具体来说,系统不再简单地学习"这两个内容匹配还是不匹配",而是学习"这两个内容的匹配程度是多少"。
在这个框架中,系统会同时计算两个概率分布:一个是基于嵌入相似性的分布,另一个是基于MLLM语义匹配分数的分布。然后,训练的目标是让这两个分布尽可能接近。这就像训练一个学生,不仅要让他知道答案的对错,还要让他理解每个答案的合理程度,从而培养更加细致和准确的判断能力。
为了确保训练的稳定性和对称性,研究团队采用了JS散度(Jensen-Shannon Divergence)作为损失函数,而不是常用的KL散度。JS散度的优势在于它是对称的,这意味着无论从哪个方向计算两个分布的差异,结果都是一致的,这有助于模型训练的稳定性。
三、联合优化的重排序模型
除了改进基础的嵌入学习方法,研究团队还开发了一个名为UniME-V2-Reranker的重排序模型。这个模型的作用就像一个"精细筛选器",在初步检索结果的基础上进行更精确的排序。
重排序模型采用了"成对训练"和"列表训练"相结合的优化策略。成对训练类似于让模型进行"二选一"的选择题练习,系统需要在正样本和最难的负样本之间做出正确选择。而列表训练则更像是"多选排序题",系统需要从多个候选项中找出最合适的那一个,并给出正确的排序。
在成对训练中,研究团队会为每个查询构造两个配对:一个是查询与正确候选项的配对,另一个是查询与最难负样本的配对。模型需要学会对第一个配对输出"YES",对第二个配对输出"NO"。而在列表训练中,系统会从挖掘到的困难负样本中选择若干个候选项,将正确答案随机插入其中,然后要求模型输出正确答案的位置。
这种双重训练策略的好处是能够从不同角度提升模型的判断能力。成对训练注重培养模型的基础判断能力,而列表训练则进一步提升模型在复杂多选场景下的排序能力。两种训练方式的结合使得重排序模型能够在各种实际应用场景中表现出色。
四、全面的实验验证与性能分析
为了验证新方法的有效性,研究团队在多个基准测试上进行了广泛的实验评估。他们选择了MMEB(大规模多模态嵌入基准)作为主要评测平台,该基准包含36个不同的数据集,涵盖了分类、视觉问答、检索和视觉定位四大类任务。
实验结果显示,UniME-V2在各项任务上都取得了显著的性能提升。以Qwen2-VL-2B模型为例,与之前的最佳方法VLM2Vec相比,UniME-V2在整体性能上提升了3.0个百分点。更重要的是,在分布外(out-of-distribution)任务上,也就是模型没有见过的新任务类型上,UniME-V2的性能提升更加明显,达到了4.3个百分点。这说明新方法不仅能提升模型在已知任务上的表现,还能增强模型的泛化能力。
在具体的检索任务上,研究团队测试了短描述检索(如Flickr30K和MS-COCO数据集)、长描述检索(如ShareGPT4V和Urban1K数据集)以及组合式检索(SugarCrepe数据集)。结果表明,UniME-V2在长描述和组合式检索任务上的表现尤其出色。这是因为这类任务需要模型理解更复杂的语义关系,而MLLM"法官"提供的细致评分正好能够帮助模型学习这些复杂关系。
特别值得注意的是,在组合式检索任务上,UniME-V2相比之前的方法取得了显著提升。组合式检索是一个特别具有挑战性的任务,它要求模型不仅理解物体的属性,还要理解属性之间的组合关系。比如,模型需要区分"红色的汽车"和"汽车的红色部分"这样的细微差别。UniME-V2在这类任务上的优异表现证明了其强大的语义理解能力。
五、深入的消融实验与机制分析
为了更好地理解新方法中各个组件的作用,研究团队进行了详细的消融实验。这些实验就像拆解一台精密机器,逐一检验每个零件的重要性。
首先,他们验证了MLLM法官机制的有效性。实验表明,仅仅使用困难负样本挖掘(不使用软分数)就能带来1.5%的性能提升,而加入基于MLLM判断的软标签训练后,性能进一步提升了2.0%。这说明困难负样本的多样性和软标签提供的细致监督信号都对最终性能有重要贡献。
接着,研究团队比较了不同MLLM作为"法官"的效果。他们测试了Qwen2.5-VL-7B、InternVL3-8B和InternVL3-14B三个模型。结果显示,Qwen2.5-VL-7B的表现最佳,这主要归因于其在指令跟随训练阶段使用的数据分布与当前任务更加匹配。
研究团队还探索了困难负样本数量对性能的影响。实验表明,当困难负样本数量从4个增加到8个时,模型性能持续提升,但继续增加到10个时性能开始下降。这是因为过多的负样本会引入一些相对简单的样本,削弱了训练的有效性。这个发现为实际应用中的参数设置提供了重要指导。
在温度参数的选择上,研究团队发现0.02是最优值。温度参数控制着概率分布的尖锐程度,过低会使分布过于集中,过高则会使分布过于平滑,都不利于模型学习到准确的语义区分能力。
六、重排序模型的优势与应用效果
UniME-V2-Reranker在多个任务上都展现出了优异的性能,特别是在与现有重排序方法LamRA的对比中。在相同的实验设置下,UniME-V2-Reranker仅使用一半的训练数据就达到了更好的效果。这种效率优势主要来源于高质量困难负样本的使用,这些样本为模型提供了更加有效的学习信号。
在组合理解任务上,UniME-V2-Reranker的优势尤为明显。传统的重排序方法往往难以处理复杂的语义组合关系,而新方法通过MLLM的理解能力挖掘出的困难样本恰好涵盖了这些复杂情况,从而显著提升了模型的判别能力。
研究团队还展示了一些具体的应用案例。在图像分类任务中,当查询是识别"棕熊"时,UniME-V2能够准确地将"棕熊"排在"黑熊"之前,展现出对细致语义差别的理解能力。在视觉问答任务中,面对"这个熊和地板有什么共同点"这样的问题,模型能够理解问题中隐含的颜色比较关系,给出准确的答案。
实验结果还显示,UniME-V2在处理长文本描述时表现特别出色。这是因为MLLM"法官"能够理解复杂的语言描述,为模型提供更准确的训练信号。相比之下,传统方法在处理长文本时往往会因为语义复杂性而产生错误的训练信号。
七、技术创新的深层价值与影响
这项研究的核心价值不仅在于性能的提升,更在于它开创了一种新的训练范式。通过让更强大的AI系统指导相对简单系统的学习,这种"以强带弱"的方法为AI训练开辟了新的可能性。这就像让经验丰富的师傅指导学徒一样,能够传递更多微妙的经验和技巧。
从技术角度来看,软标签的引入代表了从二元判断向连续评分的重要转变。这种转变使得AI系统能够学习到更加细致和准确的语义理解能力,这对于构建真正智能的多模态系统具有重要意义。
研究团队通过可视化分析发现,经过新方法训练的模型在表示空间中展现出更好的聚类性质。不同类别的样本在嵌入空间中分离得更加清晰,而同一类别内的样本则聚集得更加紧密。这种空间结构的改善直接转化为了检索和匹配任务上的性能提升。
该方法的另一个重要贡献是提高了训练效率。通过更精确的困难样本选择和更有效的监督信号,新方法能够在相同的训练时间内达到更好的效果,或者用更少的训练资源达到相同的性能水平。这对于资源有限的研究团队和应用场景具有重要的实用价值。
结论
归根结底,这项研究展示了如何巧妙地利用AI系统的"内在智慧"来改进AI训练过程。通过让大型多模态语言模型充当"智能评委",研究团队解决了传统训练方法在样本多样性和语义理解精度方面的核心问题。这种方法不仅在技术上具有创新性,在实际应用中也展现出了显著的效果提升。
UniME-V2的成功证明了一个重要观点:AI系统的进步不仅来自于算法和架构的改进,也来自于训练策略和数据利用方式的创新。当我们能够更智能地选择训练样本,更精确地设计监督信号时,即使是相同的模型架构也能达到更好的性能。
这项工作的影响可能会超越多模态嵌入学习这一具体领域。它提供的"强模型指导弱模型"的训练思路可以应用到许多其他AI任务中,为整个AI研究社区提供了新的思考方向。同时,软标签训练和困难样本挖掘的结合也为对比学习等基础技术的改进指明了方向。
对于普通用户来说,这项研究意味着未来的AI应用将能够更准确地理解用户的多模态查询需求,无论是通过图片搜索文字,还是通过语音描述寻找视频,系统的理解和匹配能力都将得到显著提升。这将使得人机交互变得更加自然和高效,真正实现智能系统对人类意图的深度理解。
有兴趣深入了解技术细节的读者可以通过论文编号arXiv:2510.13515v1在相关学术数据库中查询完整论文,其中包含了更详细的实验数据和技术实现细节。
Q&A
Q1:UniME-V2中的MLLM-as-a-Judge机制具体是如何工作的?
A:MLLM-as-a-Judge机制就像请专业评委来打分一样。系统首先从全局范围内挑选出可能具有挑战性的候选样本,然后让训练好的大型多模态语言模型对每个查询-候选对的语义匹配程度进行评分。模型会根据指令判断候选项是否满足查询要求,输出Yes或No,系统再根据这两个回答的概率计算出0到1之间的连续评分,这个评分比传统的简单对错判断更加精确和有用。
Q2:为什么UniME-V2在组合式检索任务上表现特别好?
A:组合式检索需要理解复杂的语义组合关系,比如区分"红色汽车"和"汽车的红色部分"这样的细微差别。UniME-V2使用的MLLM"法官"具有强大的语言理解能力,能够准确识别这些复杂的语义关系,为训练提供更精确的监督信号。加上软标签训练让模型学会理解不同程度的匹配关系,而不是简单的对错判断,这使得模型在处理复杂语义组合时表现出色。
Q3:普通用户如何从UniME-V2技术中受益?
A:UniME-V2的改进将直接提升多模态AI应用的用户体验。当你用图片搜索相关文字内容,或者用语音描述寻找视频时,系统的理解和匹配能力会更加准确。特别是在处理复杂查询时,比如"找一张下雪天里单独一只哈士奇的照片",新技术能够更精确地理解你的具体需求,过滤掉那些相似但不符合要求的结果,让搜索和推荐更加精准高效。
好文章,需要你的鼓励
谷歌DeepMind等顶级机构联合研究揭示,当前12种主流AI安全防护系统在面对专业自适应攻击时几乎全部失效,成功率超过90%。研究团队通过强化学习、搜索算法和人类红队攻击等多种方法,系统性地突破了包括提示工程、对抗训练、输入过滤和秘密检测在内的各类防护技术,暴露了AI安全评估的根本缺陷。
西蒙弗雷泽大学和Adobe研究院联合开发的MultiCOIN技术,能够将两张静态图片转换为高质量的过渡视频。该技术支持轨迹、深度、文本和区域四种控制方式,可单独或组合使用。采用双分支架构和分阶段训练策略,在运动控制精度上比现有技术提升53%以上,为视频制作提供了前所未有的灵活性和精确度。
英国国王学院研究团队开发了潜在精炼解码(LRD)技术,解决了AI文本生成中的速度与准确性平衡难题。该方法通过两阶段设计模仿人类思考过程:先让AI在连续空间中"深思熟虑",保持多种可能性的混合状态,然后"果断行动",逐步确定答案。实验显示,LRD在编程和数学推理任务中准确性提升最高6.3个百分点,生成速度提升最高10.6倍,为AI并行文本生成开辟了新路径。
清华大学团队开发的ViSurf是一种创新的大型视觉语言模型训练方法,巧妙融合了督导式学习和强化学习的优势。该方法通过将标准答案整合到强化学习过程中,让AI既能从正确答案中学习又能保持自主推理能力。实验显示ViSurf在多个视觉任务上显著超越传统方法,特别是在处理模型知识盲区时表现突出,同时有效避免了灾难性遗忘问题,为AI训练提供了更高效稳定的新范式。