近日,ByteDance和浙江大学的研究团队联合发表了一篇引人注目的论文《MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query》,这项研究于2025年6月3日在arXiv平台上发布(arXiv:2506.03144v1)。研究团队由Wei Chow、Yuan Gao、Linfeng Li等多位来自ByteDance和浙江大学的研究者共同完成。
在我们日常购物时,你是否曾尝试这样搜索:"我想找一件和这张图片颜色相同,但材质像那张图片的T恤"?或者"帮我找一部和这个手机相同品牌,但存储容量更大的手机"?这种同时指定多个条件(既有文字描述又有图片参考)的搜索方式,在技术上被称为"多条件交错语义检索",而这正是MERIT项目的核心研究内容。
传统的搜索系统通常只能处理单一语言、单一图片或单一条件的查询,而真实世界中的产品搜索往往复杂得多。例如,用户可能需要同时指定产品的颜色、材质、风格等多个特征,有些特征只能通过图片来表达。市面上现有的系统在处理这种复杂查询时表现不佳,尤其在多语言环境下更是如此。
为了解决这个问题,研究团队创建了MERIT数据集——首个专为多语言多条件语义检索设计的基准数据集。这个庞大的数据集包含了320,000条查询和135,000个产品,覆盖了5种语言(英语、泰语、印尼语、越南语和马来语)和7个不同的产品类别(服装、电子产品、食品、家具等)。
研究团队在评估现有模型时发现了一个关键问题:现有模型往往过度关注全局语义信息,而忽略了查询中的特定条件元素。简单来说,这些模型能理解"这是在搜索T恤",但可能无法准确捕捉"要红色的"和"要棉质的"这些具体条件。
为解决这一问题,研究团队提出了CORAL(Contrastive-reconstruction for multimodal retrieval)框架,这是一种新型的微调方法,可以让预训练的多模态大语言模型更好地适应检索任务。CORAL通过两个关键机制来提升模型性能:一是"嵌入重建",帮助模型保留查询中的细粒度条件元素;二是"对比学习",帮助模型提取全面的全局语义信息。
实验结果表明,CORAL框架在MERIT数据集上比传统方法性能提升了45.9%,同时在8个已有的检索基准上也展现了强大的泛化能力。
研究团队还发现了一个有趣的现象:当将多个图片条件拼接成单一输入图片时,现有的基于多模态大语言模型的检索系统在R@1指标(检索结果第一个就是正确答案的比例)上表现比顺序输入多个图片的方式高出约16倍。这与多模态大语言模型在视觉理解任务上的表现规律相悖。研究团队推测,这可能是因为现有的检索数据集最多只包含一张图片,导致模型在处理交错输入时失去了有效处理能力。而在MERIT数据集上训练后,模型处理顺序输入的性能提升了14.3%,进一步验证了这一假设。
总的来说,MERIT项目通过提供一个新型数据集、识别现有方法的关键局限性,以及提出创新的微调框架,为多条件交错语义检索领域的未来研究奠定了坚实基础。这项研究不仅推动了技术进步,也有望在实际应用中提升用户的搜索体验,尤其是在多语言环境下的电子商务平台。
多语言多条件检索:为何如此重要?
语义检索是现代应用中的关键任务,它涉及从海量数据集合中找出能满足用户特定需求的信息。这项任务随着人工智能的发展变得愈发重要,因为它不仅能够帮助用户精确找回所需内容,还能减轻多模态大语言模型生成内容中可能出现的不准确性。
想象一下,你在网上购物时,希望找一件"与这张图片中衣服相同材质,但颜色像那张图片中的"产品。这种包含多个条件、同时涉及文字和图片的查询,就是研究团队所称的"交错多条件查询"。在实际生活中,这类查询非常常见,但现有技术却难以满足这种需求。
研究团队提出了两个基本问题:首先,我们如何全面评估现有模型在交错多条件语义检索任务中的能力?其次,是什么因素限制了这些模型的表现,我们又该如何提升其效果?
为了解答第一个问题,研究团队创建了MERIT数据集。这个数据集的建立并非易事。考虑到获取这类数据的挑战,研究团队采用了开放式属性标注来增加多样性,封闭式产品标注来提高精确度和召回率,并设计了三种采样算法来增强数据的丰富性和分布均匀性。经过多轮筛选,最终确定了这个包含320,000条查询的庞大数据集,整个标注过程投入了10,000小时的人工劳动。
至于第二个问题,研究团队评估了9种现有检索模型在MERIT数据集上的表现,发现尽管这些方法能有效解决已建立的语义检索任务,但在MERIT上的召回率仍然远低于预期。通过深入分析,研究团队发现这些方法忽略了查询中的特定条件元素,无法正确提取目标属性,并且误解了视觉内容。
这一局限性主要源于现有检索模型的训练方式。通常,这些模型通过对比学习微调预训练的多模态大语言模型,且仅在[EOS]标记(句子结束符)处应用监督,这导致模型优先关注全局语义信息,而不充分处理特定的条件元素,如产品描述中的材质属性或图像中的独特纹理。
为了克服这一限制,研究团队提出了CORAL框架。这个框架能同时通过多模态嵌入重建保留详细的条件元素,并通过对比学习有效提取全局语义。实验结果显示,与传统方法相比,CORAL在MERIT上的性能提升显著,达到了45.9%,其有效性在8个已建立的检索基准上得到了进一步验证。
MERIT数据集:多语言多条件检索的基准
MERIT数据集是首个专为交错多条件语义检索设计的多语言数据集。它包含135,000个产品,形成320,000个检索对,覆盖5种语言和7个不同的产品检索场景。
每个基本单元是一个产品,包含一张图片和由GPT-4o生成的相应标题。数据集被分为训练集和测试集,分别包含310,000和10,000个条目。每个搜索查询至少包含一个正样本(符合所有条件的产品)。
在数据收集过程中,所有数据都经过了精通这五种语言的标注者的人工筛选,并在收集过程中进行了多轮自动筛选。具体而言,数据集收集包括以下四个步骤:
首先是高质量产品选择。研究团队在保持多样性的同时,从内部数据集中精心选择了6个东南亚国家5种语言的热门产品,每个产品标题由GPT-4o生成。每个产品还根据流行度和美学评分进行筛选,以形成最终使用的产品库存。
其次是产品标注。为了适应多样化的现实世界搜索需求,研究团队需要获取各种细粒度的产品属性用于组合。然而,现实世界电子商务数据中的属性信息往往不足,导致对特定用户需求的检索效果欠佳。这一差距源于运营属性结构的有限属性丰富度与搜索相关性系统对精细、准确的产品属性信息需求之间的矛盾。因此,研究团队采用了开放式标注方法,随后通过统计分析进行属性划分,并基于这些派生属性对产品进行标记。
第三是搜索查询组成。为了同时提高数据集质量和多样性,研究团队实施了一种综合采样方法来构建检索对。这种方法整合了三种不同的方式:常规均匀采样、属性均匀采样和高相似度产品优先采样。此外,研究团队的管道还支持冷启动扩展,能够将数据集扩展到之前未见的产品类别。
最后是过滤和改进。研究团队引入了两阶段过滤过程,包括自动过滤和手动策划。自动过滤阶段采用基于规则的系统和统计方法来消除明显的不一致性和低质量样本,而手动过滤阶段则由专家标注者应用微妙的判断来确保语义连贯性和实际相关性。
研究团队在MERIT数据集上评估了9个最先进的检索模型,结果表明,现有检索方法难以处理交错多条件语义任务,即使是最好的Recall@1也只有12.05%。此外,研究团队还识别出几个关键见解:
首先是视觉条件的必要性。研究团队在CIRR、FashionIQ和MERIT上使用BGE-VL进行实验,报告了CIRR的R@1、FashionIQ的R@10和自己数据集的结果。如图6(a)所示,当用相应的文字说明替换图像进行检索时,FashionIQ和CIRR的性能没有显著下降。相比之下,在MERIT上,无论是替换图像为相应的文字说明(w/o image)还是移除产品标题(w/o title),性能都会大幅下降,其中移除图像导致了特别严重的73.9%的下降。这证明了MERIT数据集的有效性,表明图像和产品标题都是不可或缺的组成部分。
其次是交错支持。如表2所示,将多个图像连接成单一图像的方式明显优于顺序输入,如GME-Qwen2VL的连接方式在R@5上比其顺序版本提高了119.7%。这与预训练的多模态大语言模型支持交错图像输入的事实相矛盾,也与这些模型在视觉理解任务和零样本性能上的既定行为不符,在这些任务中,顺序处理通常能通过保留更多的图像信息而表现更好。研究团队推测,这种差异可能源于现有检索数据集最多只包含一张图像,可能导致多模态大语言模型失去了有效处理交错输入的能力。在MERIT上训练后,顺序输入性能提高了14.3%,进一步验证了这一假设。这凸显了MERIT作为首个交错语义检索数据集的重要性。
最后是分布外场景。研究团队评估了Qwen2.5-VL在三种分布外场景(类别OOD、语言OOD和属性OOD)上的表现,结果如图6(b)所示。具体数值可见附录中的表7、8、9。特别是在语言OOD场景中,与全训练(Mixed)相比,性能显示出明显的差距;然而,由于激活了多模态大语言模型的多语言能力,它仍然比零样本性能有显著提升。在类别和属性OOD场景中,OOD与全训练之间的性能差距相对较小,反映了数据集的多样性。
为什么现有模型表现欠佳?错误分析揭示真相
为了深入了解检索模型在MERIT上表现不佳的原因,研究团队首先分析了不同语言之间的成功率是否存在相关性。如图7(a)所示,统计结果显示不同语言之间的差异很小,尽管英语在多模态大语言模型的初始训练数据中占主导地位,但在这里并没有显示出明显优势。
接着,研究团队随机选择了500个查询,并从Qwen2.5-VL和InternVL 2.5获取解释,这两个模型都经过了全参数对比学习训练。专家标注者将误预测的根本原因分类为五类,详细内容可见附录E.5。
这些错误类型的分布如图7(b)所示,揭示属性和视觉理解错误占据了失败案例的最大比例。这一分析表明,这些方法忽略了查询中的条件元素,无法提取特定属性,并误解视觉内容。这可能源于面向检索的微调,其中多模态大语言模型优先考虑全局语义信息而非特定语义信息。此外,由于当前的检索数据集主要是基于单一图像的,现有方法无法利用交错多模态大语言模型的图像序列理解能力,正如在第3.3节中分析的那样。这种局限性可能导致在理解精确语义方面的失败,造成属性提取错误(导致属性错误)和视觉特征如图案的错误解释(导致视觉理解错误)。
CORAL:通过对比重建提升多模态检索能力
认识到忽略查询中特定条件元素是第3.4节强调的错误主要来源,研究团队在第4.1节中介绍了CORAL框架,以增强基于多模态大语言模型的检索器在处理交错多条件语义检索任务时的性能,方法是在将多模态大语言模型适应为检索模型的微调过程中整合视觉重建。
在深入CORAL之前,我们先了解一下预训练的多模态大语言模型是如何工作的。对于一个常见的多模态大语言模型,它有图像和文本输入。模型首先通过视觉表示骨干网络处理图像,输出一系列特征。然后,通过学习的投影器将这些特征映射为一系列嵌入。最后,将这些嵌入与文本提示嵌入连接起来,传递给语言模型。
语言模型生成输出隐藏状态,特别是[EOS]位置的隐藏层表示被标记为"heos"。最终,这些隐藏状态可以转换为文本输出。多模态大语言模型的训练目标是最小化给定图像和文本输入的预测生成文本的负对数似然。
CORAL框架是一种设计用于将预训练的多模态大语言模型适应为多模态检索模型的微调方法。它增强了视觉理解能力,同时保留了模型原有的语言理解能力。具体来说,对于一个预训练的多模态大语言模型,研究团队的微调方法如下:
首先是对比学习损失Lcl。研究团队采用InfoNCE损失进行监督对比学习。给定N个样本的批次,其中τ表示温度系数,qi表示查询样本,ki+是对应于查询i的正样本的编码向量,对比损失计算如下:
Lcl = -1/N ∑(i=1到N) log(exp(qi·ki+/τ) / ∑(j=1到N) exp(qi·kj/τ))
其次是视觉重建损失Lmse。研究团队采用一个随机初始化为BERT层的解码器。使用完整输入表示heos作为查询,计算原始未掩码嵌入和从解码器重建的嵌入之间的MSE损失:
Lmse = -1/N ∑(i=1到N) ||E - E||??, 其中E = Fvθ[MASKv(E); heos]
最后是掩码语言建模损失Lmlm。类似于视觉重建,研究团队使用解码器进行重建。为减少可训练参数,解码器与多模态大语言模型的语言建模头共享权重。掩码语言建模损失计算如下:
Lmlm = -1/N ∑(i=1到N) log P(xi | X), 其中xi = [Flθ[MASKl(E); heos]](i)
CORAL的整体训练目标公式为:
max(θ,θv,θl) L = Lcl + λ1Lreg + λ2Lrec
其中,Lreg和Lrec分别表示使用条件的[EOS]标记和目标自身的[EOS]标记作为注意力查询对检索目标进行重建。对于这两个术语,方程1中引用的注意力键和值都来自检索目标的嵌入。每个重建组件都包含图像重建和语言重建。
为了验证CORAL的有效性,研究团队在MERIT和8个已建立的检索任务上进行了实验。MERIT上的主要结果得出以下结论:
首先,嵌入重建对检索性能贡献显著。部分特征重建(表3的第6-11行)都能提升模型性能,与仅使用对比学习相比,多模态重建带来了45.9%的提升。
其次,多模态重建优于部分重建。比较表3的第6-9行和第10-11行,同时重建两种模态时性能更好。
第三,顺序输入优于图像连接。根据第3-5行和第11行的对比,顺序输入实现了更高的性能。研究团队推测,顺序表示比图像连接保留了更多信息,这与第3.3节的发现一致。
最后,全参数微调产生最佳结果。由于检索任务与预训练目标之间存在实质性差异,全参数微调通常产生更好的结果,这与先前工作的结论一致。
在八个检索任务上的结果如图9所示,研究团队的方法在这些任务上也实现了一致的改进,特别是在VisDial上,其方法比基线提高了181%。
总结:MERIT为多语言多条件检索开辟新天地
通过这项研究,ByteDance和浙江大学的团队为交错多条件语义检索领域带来了三个重要贡献:
首先,他们创建了MERIT,这是首个用于交错多条件语义检索的多语言数据集,并基于它提供了有见地的观察结果。
其次,他们识别了现有方法的关键局限性:这些方法仅关注全局语义信息,而忽略了查询中的特定条件元素,无法提取特定属性,并误解视觉内容。
最后,他们提出了CORAL,这个框架结合了嵌入重建来保留细粒度条件元素和对比学习来提取全面的全局语义,在MERIT数据集和八个标准基准上都展示了强大的性能。
研究还发现了一个有趣的现象:当将多个图像条件拼接成单一输入图像时,现有的基于多模态大语言模型的检索系统在R@1上的表现比顺序输入多个图像高出约16倍,这与多模态大语言模型在视觉理解任务上的表现规律相悖。研究团队推测,这可能是因为现有的检索数据集最多只包含一张图片,导致模型在处理交错输入时失去了有效处理能力。
总的来说,MERIT项目为交错多条件语义检索领域的未来研究奠定了坚实基础,推动了这一领域的技术进步,也有望在实际应用中提升用户的搜索体验,尤其是在多语言环境下的电子商务平台。随着这项技术的进一步发展,我们可以期待未来的搜索系统能更好地理解用户的复杂查询意图,提供更精准的搜索结果。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。