微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

阿姆斯特丹大学研究团队打破图像生成壁垒：让AI同时"读图"又"读文"，无需任何额外训练

图像生成多模态融合视觉概念对齐

阿姆斯特丹大学研究团队打破图像生成壁垒：让AI同时"读图"又"读文"，无需任何额外训练

作者：科技行者

2026-06-01 15:03

分享至：

阿姆斯特丹大学提出VCF方法，让Stable Diffusion在生成图像时同时接受图片与文字双重引导，无需重训底层模型，仅靠240万参数翻译官实现跨模态特征融合。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-01 15:03 • 科技行者

这项由荷兰阿姆斯特丹大学研究团队完成的研究，以预印本形式于2026年5月24日发布在arXiv平台，论文编号为arXiv:2605.25191v1，研究方向归属于计算机视觉领域。任何对原始论文感兴趣的读者，均可通过该编号在arXiv上查询完整内容。

一、从"说不清楚"到"一图胜千言"

你有没有遇到过这样的困境：脑海中有一幅清晰的画面，却完全不知道该怎么用文字描述它？或许你想让AI帮你画一张"像莫奈晚年油画风格、带有忧郁色调的猫咪图"，但即便你用尽了所有形容词，生成的结果依然和你心中那张图相差十万八千里。

这个问题在当下AI绘图已经相当普及的时代，依然是一道横亘在普通用户与理想结果之间的高墙。文字生成图像的模型固然强大，但它们只能"听"，却不能"看"——你无法把一张参考图片直接递给它说"就是这个感觉"。

阿姆斯特丹大学的研究团队正是为了解决这个问题而展开了这项研究。他们提出了一套名为"视觉概念融合"（Visual Concept Fusion，简称VCF）的方法，让原本只懂文字的图像生成AI，能够在你提供一张参考图片的同时，依然忠实地执行你的文字指令——而且全程不需要对AI进行任何专项的重新训练。

这是整个研究领域里第一个能够做到这一点的方法：在不改动底层AI模型的前提下，于生成图片的瞬间，同时接受图片和文字两种输入信号，让两者共同引导最终输出的画面。

二、现有方案为何总是差那么一口气

要理解这项研究有多难得，先要明白现有的方案各自卡在哪里。

当前最强大的图像生成AI，比如大名鼎鼎的Stable Diffusion，本质上是一个"从噪声里雕出画面"的系统。你给它一段文字描述，它会从一团随机的噪点出发，一步步去除噪声，最终"雕刻"出符合描述的图像。这个过程中，文字信息通过一种叫做"交叉注意力"的机制，持续引导着去噪方向。然而，这套机制天然只接受文字信号，视觉参考图片根本无法直接塞进去。

研究人员们并非没有尝试过解决方案。一类做法是让AI"重新上学"——针对特定的视觉风格或内容，重新训练模型的部分参数，让它记住并能复现那种风格。DreamBooth就是这类方法的代表，它需要对整个模型的8.6亿个参数进行调整，每换一个新风格就要重来一遍，耗时耗力。还有一类轻量化的方案，比如CustomDiffusion，虽然只需调整约7.5万个参数，但依然是每个新概念单独训练一次，没有通用性。更新的StyleDrop则需要约1000万个参数的迭代训练，且只能做风格迁移，没有办法同时接受文字和图片两路指令。

另一类做法试图完全跳过训练，直接在生成过程中动手脚。SDEdit等方法通过给参考图片加噪声再去噪来保留部分原图特征，但这样做的结果是最终画面的构图高度依赖原图，而不是你的文字描述。SkipInject通过操纵Stable Diffusion内部的特定连接层来转移风格，效果不错，但它本质上只处理单张图片，不适合结合文字提示来引导生成。

最直观的"暴力做法"是把参考图片的特征直接加权混入文字信号。然而，正是这种看似简单粗暴的方法，揭示了一个核心难题：图片特征和文字特征生活在两个完全不同的"语言体系"里，直接混合就像把中文词典里的词条按字面意思塞进英文句子——不光语法乱了，意思也全扭曲了。这种做法产生的图像，往往面目全非，既不像参考图，也不符合文字描述。

这就是VCF研究团队需要跨越的真正障碍。

三、VCF的核心思路：先学同一门语言，再一起说话

VCF的设计思路，可以用一个翻译官的比喻来理解。

Stable Diffusion内部有一套专门理解文字的"语言系统"，它是通过一个叫CLIP的模型把文字转换成特征向量（可以理解为一串代表文字含义的数字编码）。同样，CLIP也有一套处理图片的系统，可以把图片转换成另一串数字编码。问题在于，虽然这两套系统在训练时有所关联，但它们的"编码格式"并不完全一致——文字编码和图片编码生活在不同的数字空间里，分布规律差异很大。

VCF的解决方案是训练一个极其轻量的"翻译官"模块，负责把图片编码转换成和文字编码同一格式、同一语言的新编码。这个翻译官只有约240万个参数，相比Stable Diffusion的数亿参数，简直是沧海一粟。更关键的是，这个翻译官的训练完全独立于Stable Diffusion，不需要让大模型参与任何训练过程，整个训练过程在一台高性能显卡上两小时以内就能完成。

翻译官训练完毕后，整套VCF系统在实际使用时包含三个依次运转的环节。

四、三道工序：翻译、融合、精修

第一道工序是图像对齐，也就是翻译官发挥作用的阶段。

当你向VCF提供一张参考图片时，CLIP图像编码器会先把这张图片分解成一组"图片词条"（专业上叫图像tokens），每个词条携带图片某个局部区域的视觉信息。这些词条随即被送入那个轻量翻译官模块，翻译成与文字词条在同一数字空间里分布的"视觉词条"。

为了让翻译质量足够高，研究团队为翻译官设计了两种训练目标，让它同时从两个维度学习如何翻译准确。第一个目标叫InfoNCE损失，它负责从全局角度保证翻译后的图片编码与对应的文字编码在大方向上保持一致——就像要求翻译出来的句子和原文在整体含义上不南辕北辙。第二个目标叫交叉注意力重建损失，它负责从局部角度保证每个图片词条翻译后的细节结构不丢失——就像要求翻译不仅大意对，每个关键词的对应关系也要准确。两个训练目标按照0.2比1的比例加权混合，既保证全局方向感，又保留局部的细节保真度。

第二道工序是文图融合，解决翻译好的图片词条和原始文字词条如何组合在一起的问题。

研究团队尝试了三种不同的组合方式。最直白的一种叫"朴素融合"，就是把所有图片词条取个平均，得到一个代表整张参考图全局感觉的数值，然后按照一定比例把这个数值加到每个文字词条上。这种方法简单直接，但效果不好——用均值平均掉了所有图片细节，只剩一个模糊的整体印象，最终生成的图片嘈杂而缺乏语义一致性，实验结果显示它甚至经常退化成和纯文字生成差不多的效果。

第三种方式叫"交叉注意力融合"，让文字词条主动去"查阅"图片词条里的内容，把查阅结果按比例加回到文字词条上。这种方式确实能迁移一些参考图特征，但生成的图像往往比较嘈杂，有时会出现文字和图片都没有要求的奇怪内容。

表现最好的是中间那种方法，叫做"拼接融合"，也是VCF的主要方案。这种方法非常直接：把翻译好的图片词条原封不动地拼接在文字词条序列的末尾，形成一个更长的组合词条序列，然后一并送给Stable Diffusion。拼接不损坏任何一方的信息，文字词条保留完整的语义，图片词条也保持各自的视觉细节，两者并行存在于同一序列中，共同引导去噪方向。实验结果证明这种"最不折腾"的方案，反而在文字遵从度和参考图保真度之间取得了最佳的平衡。

第三道工序是提示噪声优化（Prompt-Noise Optimization，简称PNO），属于可选的精修环节，在正式生成图片前运行10到50步的迭代优化。

Stable Diffusion的生成过程，从一团随机噪声出发，在文字（现在加上了图片词条）的引导下，一步步去噪直至得到最终图像。对于固定的引导信号和固定的初始噪声，整个去噪轨迹是完全确定的——换句话说，最终图片由初始噪声和引导信号共同唯一决定。PNO正是利用这个特性，在正式去噪开始之前，反复微调这两者：一方面调整融合后的引导词条序列，另一方面调整初始噪声，让"优化后出发的那一刻"能够产生一张在CLIP空间里与参考图片更相似的最终图像。这个过程用CLIP来评分，不断向"与参考图更像"的方向调整，同时加入正则化约束防止噪声偏离正常分布太远。PNO不改变大模型，只是在每次使用时做几十步小优化，相当于在生成前帮系统做了一次"热身对焦"。

五、训练数据：只用了十分之一的COCO数据集

翻译官模块的训练使用的是微软COCO图文描述数据集的10%子集，大约6万对图文样本。COCO是一个常见的大规模数据集，每张图片配有5条人工撰写的描述，语言多样，涵盖了组合关系和风格描述，非常适合学习图文对齐。训练时每个epoch随机从那5条描述中取1条，以增强对文字表达方式变化的鲁棒性。训练过程在单张A100显卡上不到两小时完成，充分体现了这套方案的轻量化设计理念。

六、用数字说话：VCF确实做到了"两全其美"

研究团队用两个指标来衡量生成质量。一个是CLIP文本对齐得分，衡量生成图片与文字描述的语义吻合程度，分数越高说明AI越"听话"。另一个是LPIPS感知相似度，衡量生成图片与参考图在视觉上的相似程度，用的是VGG深度神经网络提取多层特征后对比的距离，分数越低说明与参考图越像。

实验以"一张猫咪的照片"作为统一文字提示，配合不同的参考图片，比较了三种方案的输出。结果显示，纯文字的Stable Diffusion得到了最高的CLIP得分（0.29），LPIPS则是最高的（0.78），说明它最"听话"，但完全不受参考图影响。朴素融合方案的CLIP得分（0.28）和LPIPS（0.77）都略有变化，但变化极小，证实了它几乎无法有效整合视觉参考的结论。VCF方案的CLIP得分下降到0.27，意味着它在某种程度上会让生成结果受参考图"拉偏"，但LPIPS降到了最低的0.76，证明它确实最贴近参考图的视觉感受。这个结果体现的是一种合理的权衡：当AI既要照着图又要照着文字时，两边都会有些妥协，VCF的妥协方向是让视觉参考更好地发挥作用。

七、消融实验：缺了哪块积木，效果就差在哪里

研究团队还拆开VCF的各个部件单独测试，以验证每个组件的必要性。

只用InfoNCE全局对齐损失训练翻译官时，生成的图片与参考图在视觉上几乎没有相似性，图片整体质量和纯文字生成相当。这说明仅靠全局方向对齐是不够的，翻译官的编码进入Stable Diffusion后，并不能有效引导交叉注意力机制——就像你学会了中英两种语言的整体语感，却没有学会具体词汇如何对应，翻译出来的文章意思对，但细节全错。

只用交叉注意力局部重建损失训练翻译官时，情况发生了有趣的逆转：生成图片与参考图高度相似，但文字描述的影响几乎被压制了。给一张狗狗的参考图、文字写着"猫咪"，结果生成出来的却是狗。给一张小女孩坐在花丛中的参考图，文字提示是"猫咪"，结果是一个坐在花丛中的小女孩——参考图完全"劫持"了生成结果。这意味着局部结构被保留了，却牺牲了文字语义的主导权。

只有把两种损失结合起来，InfoNCE提供全局方向感的约束，交叉注意力损失注入细粒度的视觉细节，翻译官才能训练出一种既能迁移视觉风格又不忽视文字意图的平衡能力。这组消融实验清晰地说明了为什么两项损失都不可或缺。

至于PNO的效果，研究团队也给出了定性展示。在没有任何融合的纯文字生成基础上加入PNO，图片就已经表现出向参考图靠拢的趋势，结构和色调都有改善。在结合了交叉注意力融合的VCF上加入PNO，有时候能有效压制融合引入的噪声和伪影（如图片整体变得更干净），有时候还能进一步强化特定的参考特征（比如橙色条纹猫的条纹变得更鲜明）。总体上，PNO在视觉质量和参考图贴近度上都有稳定的提升作用。

八、VCF特别擅长什么场景

有一个现象在实验中格外显著：当文字提示本身比较模糊或抽象时，VCF的价值格外突出。

研究团队用"一个从场景中浮现的迷人角色"这类非常宽泛的文字提示做了测试。纯文字的Stable Diffusion面对这类模糊描述时，往往产出结构松散、语义混乱的图像，不知道该生成什么好。加入图片参考后，VCF生成的角色立即变得清晰、有细节、视觉上具有吸引力——参考图的视觉概念填补了文字描述的模糊地带，让AI知道该"雕刻"成什么样子。

这个特性对创意工作者来说尤为实用。当你有明确的视觉概念，却难以用精确的文字表达时，一张参考图往往能胜过长篇大论的提示词工程。VCF的存在，让这种"说不清楚但能指给你看"的工作方式变得可行。

实验还显示，VCF能够迁移的视觉属性相当广泛，涵盖高层次的艺术风格（比如把绘画风格复现到新内容上）、中层次的构图特征（背景环境、物体关系）、以及低层次的视觉细节（色调、光影、深度感）。参考图的真实感程度也会传导到生成结果中——参考图越写实，生成结果越真实；参考图是手绘或版画风格，生成结果就带着对应的风格化质感。

九、这套方案还有哪些尚未解决的问题

研究团队在论文中坦诚地列出了几个当前方案的不足之处，这些坦诚本身也是这项研究严谨性的体现。

目前VCF没有机制让用户控制参考图的"哪些部分"被迁移。是只想借鉴色调，还是只想借鉴构图，还是想完整复现整体风格？这些都是用户可能有的诉求，但现在只能由模型自己决定哪些视觉特征会在最终图片里出现，不可预测性是真实存在的。

关于翻译官训练的消融研究范围也相对有限，目前只在COCO数据集的一个子集上做了实验，且每张图片每个epoch只用一条描述。换用Flickr30K等不同风格的数据集，或者采用不同的图文组合策略，是否能进一步提升对齐质量，研究团队表示尚未探索。

由于时间限制，研究团队也没有将VCF与SDEdit等已有的参考引导方法进行直接的定量对比，现有的量化比较仅限于纯文字基线和朴素融合基线，这在一定程度上限制了结论的说服力。

研究团队也提出了几个有价值的未来方向。其中一个思路是把VCF的语义条件化能力，与SkipInject那类操控U-Net内部跳跃连接的空间控制方法结合起来，让用户能够分别独立控制内容语义和空间构图，实现目前任何方法都无法达到的精细化控制——一方面指定"画什么感觉"，另一方面指定"怎么摆"。另一个方向是支持多张参考图片同时输入，让用户能同时借鉴来自不同图片的不同视觉属性。

归根结底，VCF这项工作展示了一条低成本、高灵活性的路径：不需要修改强大的底层模型，不需要为每个新概念单独训练，只需要训练一个轻巧的翻译官，然后用拼接这种最朴素的方式组合两种信号，就能让一个只懂文字的AI开始"看"图片。它的代价是在文字遵从度上有一点点妥协，换来的是视觉参考真实发挥了引导作用。这种权衡，在大量实际使用场景里，是完全值得的。

对于普通用户来说，这意味着未来的AI绘图工具，有望真正实现"一手图片一手文字"的双通道输入方式，而不再依赖冗长的提示词工程来近似你脑海中那幅已经清晰存在的画面。

---

Q&A

Q1：Visual Concept Fusion（VCF）和直接把图片特征混入文字提示有什么区别？

A：直接混合会因为图片特征和文字特征的"编码格式"差异太大而产生扭曲的输出，就像把不同语言的词条强行拼在一起。VCF先训练一个轻量"翻译官"把图片特征转换成与文字同格式的编码，再拼接在一起送给AI，有效消除了这种格式不匹配问题，生成图片既能反映参考图的视觉风格，又能遵循文字描述的内容要求。

Q2：VCF的翻译官模块需要多长时间训练，普通人能用上吗？

A：翻译官模块约240万参数，在单张A100显卡上使用COCO数据集10%的子集训练，不到两小时即可完成，远比需要数亿参数的DreamBooth等方案轻量。研究团队计划公开代码和训练好的翻译官权重，感兴趣的用户可通过arXiv编号arXiv:2605.25191v1找到原论文，后续跟踪代码发布情况。

Q3：VCF生成的图片和参考图会有多像？

A：VCF并非复制参考图，而是迁移其视觉属性，包括艺术风格、色调、构图感等。实验中LPIPS感知相似度指标显示VCF优于朴素融合和纯文字生成，但与此同时文字遵从度（CLIP得分）略有下降，说明存在一定权衡。效果范围从"带参考图色调和风格的猫咪"到"融合了参考图动物形态特征的混合形象"都有可能出现，目前无法精细控制迁移哪些视觉特征。

图像生成多模态融合视觉概念对齐

分享至