微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

当你的AI搜索引擎其实比你以为的聪明得多——威斯康星大学与韩国大学联合揭秘嵌入模型的隐藏潜力

多模态检索晚期交互单向量转多向量

当你的AI搜索引擎其实比你以为的聪明得多——威斯康星大学与韩国大学联合揭秘嵌入模型的隐藏潜力

作者：科技行者

2026-06-01 09:46

分享至：

SMART框架揭示单向量嵌入模型的中间隐状态已隐含局部匹配能力，无需训练即可转换为多向量检索，或通过轻量级微调超越专用多向量模型。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-01 09:46 • 科技行者

这项由威斯康星大学麦迪逊分校与韩国大学联合主导、NetApp公司参与的研究，以预印本形式于2026年5月24日发布在arXiv平台，论文编号为arXiv:2605.24938，研究方向属于信息检索领域（cs.IR）。感兴趣的读者可通过该编号在arXiv上查阅完整原文。

**一、从一个日常场景说起：为什么搜索有时候会"抓大放小"**

设想你正在用一款智能图书馆系统查找资料。你的问题是："中东与北非的监管框架和欧洲与中亚相比有什么不同？"图书馆里有一本报告，封面上写满了各种宏观经济词汇，整体内容和金融监管有关；但你真正需要的关键内容，其实藏在第47页的一张图表的图例里——那里有两个小小的标注："Europe and Central Asia"和"Middle East and North Africa"，就是这两行字，才能回答你的问题。

然而，图书馆的AI助手翻遍了一整本书，把所有内容压缩成一张"全书摘要卡"，然后用这张卡来判断哪本书和你的问题最相关。结果它找到的书都很"全局相关"，偏偏那本藏着关键图例的报告被排在了后面，因为单张摘要卡根本没有空间记录那两行小字。

这就是当今最先进的AI检索系统所面临的核心困境——而这项研究，正是围绕着如何解决这个问题展开的。

**二、摘要卡的困境：单向量模型的天然局限**

现代AI检索系统的工作方式，可以用一个打包快递的比喻来理解。无论你要运送的是一栋房子的所有家具、一整个图书馆的书籍，还是一部百科全书，快递公司只给你一个固定大小的纸箱——你必须把所有信息压缩进这一个箱子里，然后凭借这个箱子的"外观"来判断它和别人的箱子有多像。

在技术层面，这类系统被称为"单向量嵌入模型"。它的工作流程是这样的：把一段文字、一张图片或一段视频输入到一个大型神经网络（也就是深度学习模型），网络会对每一个词、每一个图像区块逐个处理，产生一系列中间表示（叫做"隐状态"）。但到了最后，所有这些丰富的中间信息都被压缩、合并到一个唯一的向量里——就好比把一本厚厚的百科全书煮成了一勺浓缩汤，然后用这勺汤的气味来判断它和另一勺汤有多像。

当你搜索某个宏观主题时，这勺浓缩汤确实很管用。但当你的问题依赖于书中某一页的某一个细节时，那个细节极可能在压缩过程中已经蒸发了。理论研究也证实了这一点：单向量模型能够可靠区分的查询组合数量，从根本上受限于向量的维度，当任务需要精细的局部证据时，它的能力就会触顶。

这就是为什么明明语义相关的文档，AI有时候就是找不到——不是因为答案不在那里，而是那个唯一的"摘要向量"根本没有足够的空间来容纳那个细节。

**三、多向量方案：解药有时比病更麻烦**

研究人员当然早就意识到了这个问题。一种解决思路是不再把内容压缩成一个向量，而是保留每一个词或图像区块各自的向量，让查询的每一个部分去和候选内容的每一个部分进行比对，找到最佳匹配——这种方式被称为"多向量检索"或"晚期交互"机制，最早由文本检索领域的ColBERT模型提出，后来被ColPali等多模态系统沿用。

这种方式效果确实更好，尤其在需要局部细节匹配的任务上表现突出。但它有一个让人头疼的代价：你必须从头到尾重新训练一个专门为多向量设计的模型。训练过程中，模型要对查询里的每一个词和候选内容里的每一个词进行两两比较，计算量随着文本长度的平方增长，这意味着训练成本极高，往往需要大规模的算力支持。而且，现有的多向量模型大多只关注局部匹配，反而丢失了单向量模型擅长的整体语义判断。换句话说，你解决了一个问题，却可能引入了另一个问题。

这就引出了这篇论文最核心的一个问题：有没有可能不重新训练，直接把一个现有的单向量模型"变成"一个多向量模型？

**四、意外发现：压缩前的草稿其实藏着宝藏**

研究团队的突破性发现来自于一个看似平常的观察。当一个单向量模型接受训练时，损失函数（也就是衡量模型表现好坏的标准）只作用在最终那个被压缩出来的向量上。但神经网络的运作方式决定了，要计算那个最终向量，模型必须先计算出所有中间层的隐状态——因为最终向量是由这些中间隐状态一步步推导出来的。

用更直白的方式说：即使老师只检查最终答案，学生在演算纸上留下的每一步草稿，也会因为"最终答案要答对"这个压力而被隐形地规范。草稿写得乱七八糟，最终答案自然也写不好；所以当最终答案被反复纠正时，那些草稿也在悄悄地被间接调教。

在数学上，这个过程可以用梯度流来描述：损失函数对最终向量的梯度，会通过链式法则反向传播到每一个中间隐状态。由于训练目标本身是基于余弦相似度（一种衡量两个向量方向有多接近的度量），这种间接的梯度监督会让中间隐状态也自然地朝着"适合用余弦相似度做检索"的方向排列。

这意味着，一个用单向量目标训练出来的模型，其内部的中间层隐状态，已经在不知不觉中被塑造成了适合做局部匹配的形状——虽然它从来没有被明确地训练来做这件事。这就好比一个学生平时只被检查最终答案，但因为答案总是对的，他的演算习惯也逐渐变得严谨规范，以至于你随时翻开他的草稿，都能从中找到有价值的推理步骤。

**五、SMART的诞生：让草稿直接参与评分**

基于这个发现，研究团队提出了SMART框架，全称是Single-to-Multi Adaptation for Retrieval Transformers，即"单向量到多向量的检索变换器适配"。

SMART的核心思路极其简洁：既然模型内部的中间隐状态已经具备了做局部匹配的几何结构，那就直接把它们拿来用，不需要额外训练。具体的做法是，在原有的单向量相似度评分之外，再计算一个"晚期交互分数"：对于查询里的每一个词（或图像区块），在候选内容的所有隐状态里找到与它最相似的那个，然后把所有查询词的这些最佳匹配分数取平均，得到一个衡量局部覆盖程度的分数。这种"每个查询词找自己最佳匹配"的方式，在专业术语里叫做MAXSIM运算。

最终，SMART把这个局部交互分数和原来的全局相似度分数直接相加，得到一个混合评分，用它来做最终的检索排序。两个分数都是基于同样的余弦相似度计算，因此可以无缝相加，不需要额外的缩放或参数调整，也不需要改动模型的任何权重——整个过程完全在推理阶段完成，就像给一道已经做好的菜在上桌前撒了一把新鲜的香料，完全不需要重新开火。

为什么要保留原来的全局分数而不是直接替换掉它？因为两个分数捕捉的是不同层面的信息。全局分数判断的是整体语义方向有没有跑偏，局部分数判断的是关键细节有没有被覆盖。一个好的检索结果既要整体方向对，又要关键细节到位；单独使用任何一个分数都可能出现偏差，合在一起才能相互补充。

**六、用一个玩具实验来验证核心假设**

在大规模测试之前，研究团队设计了一个精巧的"玩具实验"来直接验证他们的核心假设。

实验的设计思路是这样的：他们生成了40对视觉报告，每对报告包含一个正确答案文档和一个精心构造的"迷惑性"文档。每份报告都是一个5×5的图表面板网格，每个面板里有一个"代码"和一个"标记物"（由颜色和形状描述）的绑定关系，比如"代码H7Y标注了绿色星形标记"。迷惑性文档和正确文档包含完全相同的代码集合、完全相同的颜色形状集合、完全相同的布局结构，唯一的区别是代码和标记物之间的对应关系被打乱了——就好比两本书目录完全一样，但每个章节标题对应的页码全部被重新洗牌。

这样一来，判断哪份文档是正确答案，完全取决于能否识别出那个特定的局部绑定关系，而任何依赖整体内容的全局判断都会失效。总共生成了1000条查询，每条查询只需要在正确文档和迷惑文档之间做出选择，评价指标是成对准确率。

结果十分清晰：仅使用原始单向量分数时，模型选对的概率只有31.9%，比随机猜测（50%）还要低，说明全局相似度信号在这个场景下不仅没用，甚至还会产生系统性误导——因为两份文档的全局内容几乎一样，单向量模型反而会被那些共同元素搞混。

而当改用对中间隐状态做晚期交互的方式时，准确率提升到了56.8%，超过了随机猜测，证明了隐状态中确实保留了局部绑定的信息，而这些信息无法从压缩后的全局向量中可靠地获取。

研究团队还在同样的实验设置下比较了专门设计用来做多向量检索的模型：jina-embeddings-v4的多向量检索准确率为50.9%，ColPali为48.7%，都接近随机猜测。这说明即使是专门训练的多向量模型，在这种极端的局部绑定测试场景下也面临很大挑战，而从单向量模型隐状态中提取的局部信号，在这种设置下反而表现更好。值得注意的是，混合分数（42.6%）低于单独使用晚期交互（56.8%），这在这个特殊的对抗性实验里是预期内的结果：因为全局分数在这里是有系统性偏差的，把它加进来反而会拉低准确率。但这并不意味着混合分数在真实场景下也会表现更差——恰恰相反，在真实的检索任务里，全局语义信号是有价值的，两个分数加在一起才能发挥最大效果。

**七、真实基准测试：不训练，直接提升当前最强模型**

玩具实验之后，研究团队在一个大规模的真实多模态检索基准上做了全面测试——MMEB-V2，这是一个涵盖图像检索、视觉文档检索和视频检索等41个不同任务的综合评测集，被视为该领域的权威测试标准。

测试覆盖了五个不同的基础模型，从相对普通的VLM2Vec-V2.0到业界当前最强的Qwen3-VL-Embedding系列（2B和8B参数版本）。结果显示，在所有这些模型上，不做任何训练、只在推理阶段加上SMART的混合评分，均带来了稳定的性能提升。

对于VLM2Vec-V2.0，平均提升达到了2.54个百分点。对于已经非常强大的Qwen3-VL-Embedding-2B，平均提升接近1个百分点。即便是最强的Qwen3-VL-Embedding-8B，也从78.83%提升到了79.34%。这看起来也许不是惊天动地的数字，但要知道，在一个已经高度优化的顶尖模型上，不做任何训练就实现这样的提升，本身就是相当难得的事情。更重要的是，这种提升在所有任务类别上都是一致的：图像检索、视觉文档检索、视频检索，几乎没有例外。

视觉文档检索的提升尤为显著，因为这类任务最依赖局部细节——一份报告里的一张图表，一个页面里的一段文字，都可能是决定检索成功与否的关键。VLM2Vec的视觉文档检索能力在VDRv2子集上的提升幅度接近4个百分点，说明原本被压缩丢失的那些细节信息，通过SMART的局部交互被重新"找回"了。

视频检索方面，VLM2Vec提升了1.37%，Qwen3-VL-Embedding-2B提升了2.01%，Qwen3-VL-Embedding-8B提升了1.42%。GME系列因为没有专门训练视频理解能力，提升幅度较小，这也侧面说明SMART的效果来自于模型本身已有的能力，而非魔法——模型本来就能处理视频，SMART帮助它更好地利用已有信息；如果模型本来就不擅长视频，SMART也无能为力。

**八、轻量级适配器：用不到两小时的训练超越专门构建的多向量模型**

推理阶段的免训练提升已经很有吸引力，但研究团队并没有止步于此。他们进一步探索了一种极其轻量的训练方式：完全冻结原有模型的所有参数，只在最后一层隐状态之上额外训练一个小型线性变换层（加上层归一化和归一化操作），让这个小层专门负责把隐状态映射到更适合局部匹配的空间里。

整个训练过程只用了Colpali的公开训练数据集，在8块48GB显存的A6000显卡上，Qwen3-VL-Embedding-2B的这个轻量适配器只需要1小时50分钟就能训练完成。这种效率在深度学习领域相当罕见——通常训练一个多向量检索模型需要几天甚至几十个小时。

结果令人印象深刻：在视觉文档检索的综合评测上，加上这个适配器后，Qwen3-VL-Embedding-2B的平均分数从80.10提升到81.25，Qwen3-VL-Embedding-8B从82.88提升到83.89。更关键的是，这使得Qwen3-VL-Embedding-2B以0.34分的优势超过了jina-embeddings-v4——而后者是一个专门为多向量检索设计的4B参数模型，训练成本要高得多。换句话说，一个2B的单向量模型，加上不到两小时的轻量训练，就超越了一个专门从头训练的4B多向量模型。

这种效率上的优势，正是SMART框架最核心的价值所在：它利用的是模型本身已经隐含的能力，而不是从零开始构建新的能力，所以代价极小，收益却相当可观。

**九、从头训练的对比：节省20%时间，性能几乎持平**

为了真正回答"为什么不直接训练一个多向量模型"这个问题，研究团队做了一组完整的对比实验，自己训练了四个模型，统称为LamRA-Ret家族，所有模型都基于同样的Qwen3-VL-2B-Instruct基础模型，在同样的算力配置（8块80GB A100）和同样的训练数据上进行。

第一个模型LamRA-Single只使用标准的单向量训练目标，训练了4个epoch，耗时6.5小时；第二个模型LamRA-Multi只使用晚期交互的多向量训练目标，同样训练4个epoch，耗时12小时；第三个模型LamRA-Single-Convert是在LamRA-Single的基础上，使用SMART的混合评分目标继续训练1个epoch，总耗时9.5小时。

在视觉文档检索的综合评分上，LamRA-Single得了72.60分，LamRA-Multi得了78.31分，而LamRA-Single-Convert得了77.68分。LamRA-Single-Convert比LamRA-Multi少用了约20%的训练时间（9.5小时对比12小时），性能只差了0.63分，这个差距在实际应用中几乎可以忽略不计。

此外，在推理阶段对LamRA-Single应用SMART（不做任何额外训练）就能把分数从72.60提升到74.18，这1.6分的免费提升，对于一个只训练了单向量目标的模型来说相当可观。

这组实验给出的结论非常清晰：如果你已经有了一个单向量模型，可以用SMART在推理阶段直接提升它，不花一分训练成本；如果你愿意花一点点时间做轻量级适配，效果会进一步提升；如果你想要最强的多向量效果，用SMART目标微调比从头训练多向量模型要快20%，而且性能几乎没有损失。无论哪条路，SMART都是更划算的选择。

**十、可视化分析：SMART究竟在"看"哪里**

研究团队还对SMART的行为做了直观的可视化分析，帮助理解它究竟在做什么。

在图像检索任务中，他们展示了多个单向量模型检索失败但SMART成功的案例。比如一张城堡的查询图片，单向量模型检索到的结果是另一座外观相似的城堡——同样是石头建筑、同样有高塔、同样是中世纪风格，但不是同一座城堡。而SMART能够识别出正确的那座，原因在于它的局部交互捕捉到了特定的建筑细节：某种独特的塔楼结构、特定的入口形状、屋顶的具体样式。

通过可视化每个查询图像区块对应的候选图像最高相似度区块，可以清晰地看到：SMART的关注点不是均匀分布在整张图片上的，而是高度集中在语义上有意义的局部区域——塔楼、墙体结构、入口细节、屋顶轮廓。这说明局部交互确实在做有意义的局部对应，而不只是在做随机的噪声匹配。

回到最开始的那个经济报告例子：当查询是"中东和北非的监管框架与欧洲和中亚相比如何"时，单向量模型找到的文档在全局语义上确实相关，但遗漏了那份包含关键图例标注的报告。SMART通过局部交互，把查询文本中的"Middle East and North Africa"和"Europe and Central Asia"这两个短语，精确地匹配到了文档图表图例里对应的文字区域，从而把那份正确的报告找了回来。

**十一、层层解剖：哪一层的隐状态最有用**

研究团队还专门分析了模型不同层的隐状态对检索效果的贡献，使用的是Qwen3-VL-Embedding-2B这个28层的模型。

从第4层、第8层、第12层、第16层、第20层、第24层到第28层（最终层），他们测试了两种配置。第一种是让某一层的隐状态同时负责全局评分（扮演"摘要卡"）和局部交互，结果显示性能随层数几乎单调递增，第28层的表现最好，说明越深的层表示越成熟、越抽象，越适合做检索。

第二种配置是固定使用第28层的全局分数，只改变用于局部交互的隐状态所在的层。这里出现了一个有趣的发现：第20层的平均得分是80.16，比用第28层的80.10还要略高（虽然差异极小）。这说明当全局锚点已经由最终层提供时，用于局部交互的隐状态并不一定要来自最后一层——第20层及以后的层都能提供足够丰富的局部信息来辅助检索。更早的层（如第4层）在有最终层全局分数作为辅助的情况下，也已经能提供相当不错的局部信息，整体平均分达到了79.42，仅略低于使用第28层隐状态的结果。

这种分析揭示了一个重要的灵活性：SMART的设计并不要求严格使用最后一层隐状态做局部交互，这为未来的各种应用和优化提供了更大的操作空间。

**十二、哪些场景适合，哪些场景不适合**

研究团队对SMART的适用范围做了诚实的分析。SMART最适合的场景是那些需要精细局部对应的密集检索任务：图像检索、视觉文档检索、视频检索。在这些场景中，查询和候选内容之间的匹配往往依赖于特定的细节，全局相似度本身不足以做出准确判断。

相比之下，有几类任务并不适合直接应用推理阶段的SMART。分类和视觉问答任务的目标通常是一个低信息量的答案（比如"是猫"或"答案是43"），这种任务的答案很容易压缩成单个向量，强行加入局部交互反而可能引入噪声。图像视觉定位任务（在给定图片里找到某个区域）在开放语料库的检索设置下有固有的歧义性，容易产生误报。视频片段检索（找到视频里某个特定动作发生的时刻）需要的是整体时序理解，而不是逐帧的局部匹配，SMART的推理阶段版本在这类任务上效果有限。

此外，对于"组合图像检索"这类特殊任务（用一张图片加一段文字描述来检索另一张图片），研究团队做了一个小的改动：在推理时屏蔽查询图像的视觉标记，只保留文字标记参与局部交互，避免查询图像本身的视觉内容干扰检索结果，这个调整带来了显著的效果改善。

**十三、混合评分的必要性：两种信号缺一不可**

在附录中，研究团队通过一组消融实验验证了混合评分设计的必要性。他们训练了四个版本的模型：只使用单向量目标训练的LamRA-Single，只使用晚期交互目标训练的LamRA-Multi，以及同时使用两个目标（混合评分）训练的LamRA-Hybrid。

在视觉文档检索综合评分上，LamRA-Single得72.60，LamRA-Multi得78.31，而LamRA-Hybrid得79.10。混合训练的结果超越了仅使用多向量目标的结果，说明保留全局相似度信号对整体性能是有正向贡献的。这与直觉相符：好的检索既要"大方向对"，又要"细节到位"，两个信号的互补性在训练阶段同样成立。

更引人注意的是，LamRA-Hybrid的79.10几乎追平了专有的Qwen3-VL-Embedding-2B的79.27，尽管后者背后使用的训练数据规模和计算资源可能远超研究团队所拥有的条件。这说明在训练策略得当的情况下，有限资源下训练的模型，同样能够达到工业级的性能水平。

**结语：一场关于"已知而未用"的发现**

说到底，这项研究最有趣的地方不在于发明了什么全新的东西，而在于发现了一直存在却被忽略的东西。那些被压缩掉的中间隐状态，并没有真的消失；那些被认为"只用来最终输出"的中间计算，并没有被浪费——它们一直都在，只是没有人把它们拿来直接用于检索。

这种"已知而未用"的发现在科学史上并不罕见。很多时候，工具的局限不在于它缺少某种能力，而在于我们还没有找到正确的使用方式。SMART的贡献，就在于找到了一种几乎零代价的方式，把单向量模型内部本已具备的局部感知能力释放出来，让它在推理阶段就能发挥作用。

对于普通用户而言，这意味着未来使用AI搜索引擎、文档检索工具或图片检索系统时，那些现在有时会"抓大放小"的错误，将会更少地发生——不是因为AI变得"更聪明"了，而是因为它学会了把自己一直拥有的细心更好地发挥出来。

感兴趣的读者可以通过arXiv编号2605.24938获取完整论文，研究团队也已经在GitHub（HanSolo9682/SMART）开源了代码和模型权重，供研究者和开发者直接使用。

---

Q&A

Q1：SMART框架在推理阶段不需要训练，那它是如何提升检索准确率的？

A：SMART利用的是单向量模型内部中间层的隐状态。这些隐状态虽然不是最终输出的压缩向量，但在训练过程中通过梯度反向传播，已经被间接调整成适合做局部相似度匹配的形状。SMART在推理时直接对这些隐状态做MAXSIM晚期交互运算，计算查询每个词对候选内容最相似部分的匹配分数，再与原始全局分数相加，得到更全面的混合评分，从而在不改动任何模型参数的前提下提升检索效果。

Q2：SMART的轻量级适配器训练和从头训练一个多向量模型相比，具体节省了多少时间和资源？

A：在同等硬件条件下（8块A100 GPU），从头训练一个多向量模型（LamRA-Multi）需要12小时，而用SMART的方式只需先花6.5小时训练单向量模型，再花3小时做混合目标微调，总计9.5小时，节省约20%的训练时间。如果只训练轻量线性适配器（冻结主模型），Qwen3-VL-Embedding-2B仅需1小时50分钟，训练成本更低，且最终效果能超越专门训练的4B参数多向量模型jina-embeddings-v4。

Q3：SMART对所有类型的检索任务都有效吗？

A：不是。SMART最适合需要局部细节匹配的密集检索任务，比如图像检索、视觉文档检索和视频检索。对于分类、视觉问答等目标答案简单的任务，SMART可能引入噪声而没有收益。图像定位和视频片段检索在推理阶段也不适合直接使用SMART，原因在于这类任务要么存在歧义，要么需要整体时序理解而非局部区块匹配。

多模态检索晚期交互单向量转多向量

分享至