微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

字节跳动Seed团队新突破：让AI真正"看懂"文字里的图片，复杂多图生成不再翻车

多模态生成视觉语言交织图像一致性提升

字节跳动Seed团队新突破：让AI真正"看懂"文字里的图片，复杂多图生成不再翻车

作者：科技行者

2026-05-18 12:17

分享至：

字节跳动Seed团队提出INSET，将图片直接嵌入文字指令的对应位置，解决多图生成中对象混淆问题，配合1500万条训练数据，在复杂场景下显著超越现有开源模型。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-18 12:17 • 科技行者

这项由字节跳动Seed部门研发的研究成果以预印本形式于2026年5月12日发布，论文编号为arXiv:2605.12305，有兴趣深入了解的读者可通过该编号查询完整论文。

你有没有遇到过这样的情况：你想让AI帮你画一张图，图里要有你家的狗、你客厅的沙发、还有你上周买的那盏台灯，全都得出现在一个场景里，而且每件东西都要跟原来长得一模一样。结果AI交出来的作品里，狗的品种不对，沙发的颜色全错了，台灯更是凭空变成了另一个款式。这种"看图说话、说着说着就忘了图"的毛病，一直是当前AI图像生成领域的顽固问题。字节跳动Seed团队提出的新方法INSET（Images iN SEnTences，即"句子里的图片"），正是为了彻底解决这个麻烦而生的。

**一、问题出在哪里：AI为什么总是"记不住"你给的参考图**

要理解INSET的价值，先得搞清楚现有AI系统是怎么处理"多张参考图加文字描述"这类任务的，以及它们为什么会频繁出错。

现有的多数方法采用的是一种"先集中收货、后对号入座"的工作方式。具体来说，当你同时给AI提供三张图片和一段文字指令时，AI会把所有图片堆在指令的最前面，然后给每张图贴上一个编号标签，指令里再用"图片1里的狗"、"图片2里的花瓶"这样的说法来引用它们。这种方式看起来井井有条，但实际上给AI制造了一个巨大的认知负担。

打个比方：假设你是一位厨师，要按照一份菜谱做菜。现有方法相当于把所有食材堆在厨房角落，在菜谱里只写"用角落里的1号食材做汤底，用3号食材做点缀"。厨师每次用到食材时都要回头去角落翻找，随着食材越来越多，找错、用错的概率就越来越高。更要命的是，当指令很长、图片很多的时候，AI需要在遥远的文字描述和遥远的图片之间建立联系，这种"长距离配对"的难度随着图片数量的增加而急剧上升。结果就是：AI要么把某张图片的特征张冠李戴，要么干脆忽略掉某些图片，自己凭感觉发挥。

研究团队将这两个根本性缺陷总结得很清晰：其一是间接引用机制带来的长距离依赖问题，其二是现有训练数据太简单、太稀少，根本没有足够复杂的多图交织样本来训练AI应对复杂场景的能力。

**二、INSET的核心思路：把图片直接"嵌进"句子里**

INSET的解决方案在理念上出奇地直白：既然问题出在图片和文字分离上，那就干脆把它们合并在一起，让图片像词语一样直接出现在句子的对应位置。

还是用厨师的比喻来理解：INSET的做法相当于把菜谱改写成这样——"取[实物番茄]切片，与[实物罗勒叶]一同铺在[实物馅饼皮]上"。每一处提到食材的地方，直接把实物嵌入菜谱里，厨师完全不需要回头去角落找对应编号，一目了然，不可能搞混。

在技术实现上，INSET在处理指令时，遇到"狗"这个词，就直接在"狗"这个位置插入那张狗的图片的视觉特征；遇到"花瓶"，就在"花瓶"的位置插入花瓶图片的视觉特征。这样，文字描述和视觉信息天然地贴在一起，模型在理解指令时，不需要费力地在远处的文字和远处的图片之间架桥，因为它们本就并肩而立。

这种设计充分利用了Transformer（一种广泛用于AI的神经网络结构，可以理解为AI的"注意力系统"）的一个重要特性：它处理相邻信息的能力远强于处理距离遥远的信息。简单说，Transformer天生善于关注"附近的东西"，INSET正是顺应了这一特性，把需要关联的信息挪到彼此旁边，让模型的"注意力"能精准命中。

**三、架构设计：只保留"语义理解"，丢掉"像素复制"**

INSET在具体的模型结构上，是基于一个叫BAGEL的现有模型进行改进的。BAGEL本身采用了一种"混合Transformer"架构，包含两个分支：一个"理解分支"负责读懂图文交织的指令，另一个"生成分支"负责实际生成图像。INSET沿用了这套架构，但做了一个关键的修改。

通常，AI在读取参考图片时，会同时使用两种"眼睛"：一种叫ViT（视觉Transformer），专门提取图像的语义信息，也就是"这张图里有什么、是什么"；另一种叫VAE（变分自编码器），专门记录像素级别的细节，相当于把图片的每一个像素都精确保存下来。INSET的团队发现，保留VAE的像素级信息实际上会帮倒忙——因为AI会忍不住直接把参考图的像素"贴"到生成结果里，导致一种被研究者戏称为"图片粘贴"的问题：生成的图里，那只狗就像从参考图里剪下来硬贴上去的，毫无融合感，而且一旦你的文字指令要求它换个姿势或者换个光线，AI就完全无所适从。

于是INSET果断舍弃了VAE特征，只保留ViT提取的语义特征。这就好比告诉AI："你不需要记住那只狗每根毛发的排列，你只需要记住它是一只圆脸、竖耳朵、短腿的柯基犬就够了。"这样一来，AI既能保持对参考对象的识别一致性，又能灵活地根据文字描述调整姿态、角度和光线，而不是机械地复制粘贴。此外，VAE特征在序列里会占用大量的"位置"，把其他信息稀释掉，导致AI在处理多个对象时顾此失彼，而只用ViT特征则有效缓解了这一问题。

**四、推理时的双重引导：文字和视觉，谁来做主**

AI在生成图像时，有一个微妙的倾向：视觉信息太强势了，容易把文字指令给"盖住"。举个例子，你给了一张在沙发上打盹的猫的参考图，然后告诉AI"让这只猫站在海边"，AI可能会因为视觉参考太强烈，生成一张猫还是懒洋洋躺着的图，完全无视了"站在海边"的文字要求。

为了解决这个"视觉霸权"问题，INSET在生成图像时采用了一套两步走的引导策略。第一步，先在视觉信息存在的前提下，额外强化文字指令的影响力，让文字能够对视觉进行"纠偏"。第二步，再整体施加一个全局的生成强度控制。研究团队将文字增强系数设为4.0，全局引导系数设为1.5，这两个数值是经过调试确定的平衡点，能让最终生成的图像既保持参考图中对象的外观特征，又忠实地执行文字描述的要求。

**五、数据引擎：从真实世界挖掘1500万条复杂训练样本**

一个再好的模型架构，没有高质量的训练数据也是巧妇难为无米之炊。INSET的另一大贡献，就是构建了一套能自动生成海量、高质量、复杂交织数据的"数据工厂"。

现有的交织数据集普遍存在两个问题：要么规模大但质量差，图片和文字之间的关联松散随意；要么质量还可以，但样本太简单，往往只有两张图加一句简短的描述，根本无法训练AI应对复杂场景的能力。INSET的数据引擎则另辟蹊径，直接从真实的图片和视频出发，通过一套流水线自动生成复杂的交织指令。

从静态图片生成训练数据的流程分为三个阶段。首先，用一个强大的视觉语言模型（字节跳动自家的Doubao-Seed-1.6-Vision）对图片进行全局描述，生成一段覆盖整个场景的叙述文本，这相当于为后续步骤提供一个"场景剧本"。其次，同步进行精细的对象处理：同样用视觉语言模型检测图中的各个物体，得到它们的位置框和类别标签，然后用SAM（Segment Anything Model，一种能精确抠出任何物体的工具）为每个物体生成像素级别的精确轮廓，再用DAM（Describe Anything Model，一种能详细描述局部区域的工具）为每个物体生成细致的外观描述文字。最后，把全局描述和所有物体的详细信息一起交给一个大语言模型，由它把这些原材料"编织"成一段自然流畅的交织指令——在指令中每提到一个物体，就在对应位置嵌入该物体的图像标记，同时输出一个结构化的映射关系，标明每段文字描述对应哪个视觉标记。通过这套流程，研究团队从真实图片中生成了1000万条复杂样本，每条样本包含3到8个参考图像。

仅靠静态图片还不够，因为模型可能学会了一种偷懒的做法：直接把参考图里的物体"搬运"到生成图中，而不去理解文字要求的状态变化。为了打破这种惰性，数据引擎还专门从视频中挖掘训练数据。具体来说，研究团队从视频中抽取时间间隔较大的帧对，确保同一个物体在两帧之间发生了明显的变化（比如动作、姿势或形态的改变）。为了筛选出真正有意义的变化，他们先用一种传统图像匹配技术快速过滤掉几乎没有变化的帧对，然后再用一个轻量级视觉语言模型确认剩余帧对中的物体确实发生了实质性的语义变化（如从静止到奔跑，从闭合到展开）。通过这种方式，训练数据天然地包含了"根据文字指令改变物体状态"的示范：模型看到参考图里的物体长什么样，同时看到文字描述目标状态，就要学着生成一个既保持该物体身份特征又呈现新状态的图像。这部分视频数据共产出500万条样本，与图片数据的1000万条合并，总计达到1500万条高质量训练样本。

**六、InterleaveBench：给复杂多图生成任务设立一把"严格的尺子"**

为了公平、严格地评估各种方法在复杂多图生成任务上的表现，研究团队还专门构建了一个新的评测基准，命名为InterleaveBench。

他们觉得现有的评测基准太简单了——参考图数量少，场景关系也过于平铺直叙，不足以真正考验模型的能力。InterleaveBench的每个测试样本包含2到5张来自DreamBench++（一个已有的高质量图像生成评测数据集）的参考图，并配有需要逻辑空间推理和属性适应的复杂交织指令。所有样本都经过人工审核，确保指令合理、不存在逻辑冲突。

在评测指标上，传统的做法是用CLIP或DINO这类模型提取整体图像特征，然后计算相似度。但这种做法在多主体场景下很不可靠——它无法区分"图里的每只动物都和参考图里的对上了"和"图里的动物整体看起来差不多"之间的区别。InterleaveBench采用了更严格的"大模型担任评委"框架，从两个维度评估结果。第一个维度是图像一致性：让大模型逐一判断生成图中每个对象是否保持了参考图中的身份特征，评分从1到5分，同时明确要求评委不要因为合理的姿势或光线变化而扣分（这是真正理解指令的体现，而不是出错）。第二个维度是文字一致性：预先用大语言模型针对每条指令生成一批二元判断题（比如"图中的狗是否在沙发上？"），然后让视觉语言模型逐一回答这些问题，计算通过率，作为文字adherence的量化分数。

**七、实验结果：数量越多，优势越大**

研究团队将INSET与一批当前最强的开源和闭源模型进行了全面比较，包括GPT-4o、Nano Banana、Seedream 4.0（闭源）以及DreamOmni2、Flux-Kontext、Qwen Image、BAGEL（开源）。

结果相当抢眼。在整体表现上，INSET的图像一致性得分达到0.93，文字一致性得分达到0.75，不仅全面碾压所有开源竞争者，还与参数规模和算力消耗远超自己的闭源商业模型持平甚至部分超越。以最具挑战性的"五个对象"设定为例，INSET在图像一致性上以0.94的高分领先第二名开源模型整整0.29分，在文字一致性上同样领先0.24分。这个差距放在0到1的评分范围里，已经是相当悬殊的差异。

更值得关注的是一条规律：随着参考图片数量的增加，INSET相对于其他开源模型的优势在持续扩大。在只有两个对象时，INSET的领先幅度还相对有限；到了四个和五个对象时，其他开源模型的表现出现了明显的崩塌，而INSET却依然保持稳定甚至略有提升。这正好印证了研究团队的核心判断：传统的间接引用方法在复杂场景下会因为长距离依赖问题而雪崩，而INSET的就近嵌入设计从根本上规避了这个问题。

在文字一致性方面，INSET略微落后于部分闭源模型，研究团队也坦诚地指出，这主要是因为底层的文字生成能力受限于基础文生图模型的天花板，而非交织架构本身的问题。

定性的图像对比同样能直观看出差距。在同一组参考图和指令下，其他开源模型经常出现物体身份对调、动作描述执行失败、特定质感无法还原等问题，而INSET的生成结果则更稳定地保持了每个参考对象的外观特征，同时正确执行了文字指令中关于动作、位置和场景的要求。

**八、消融实验：每一个设计选择都有其用意**

为了验证INSET各个设计选择的贡献，研究团队做了一系列"控制变量"实验，逐一拆除某个组件，观察性能变化。

首先是图片位置的影响。用完全相同的训练数据，但改成传统的"图片前置、文字后引用"方式，结果整体图像一致性从0.93下降到0.88，文字一致性从0.75下降到0.66，且在对象数量增多时下降更明显。这直接证明了就近嵌入设计的有效性。

其次是视频数据的作用。去掉视频来源的训练样本，只用图片数据训练，图像一致性基本不变（0.91 vs 0.93），但文字一致性明显下滑（0.60 vs 0.75）。这说明视频数据专门强化了模型"按文字指令改变状态"的能力，弥补了纯图片数据训练模型在动态理解上的短板。

最后是VAE特征的影响。加入VAE像素特征后，图像一致性在少量对象时略有提升，但在四个和五个对象时急剧下降，文字一致性也全线下滑。这验证了"像素粘贴"问题的真实性：VAE特征虽然在简单场景下能给模型一些像素复制的捷径，但在复杂多对象场景下，这种捷径反而成了绊脚石。

**九、意外之喜：多模态图像编辑能力的自然涌现**

INSET原本是为多图生成任务设计的，但研究团队在实验中发现了一个有趣的"副产品"——在没有专门针对这一功能进行训练的情况下，INSET自然地获得了一种新型的图像编辑能力。

传统的AI图像编辑依靠纯文字指令来描述修改要求，比如"把画面里的雨伞换成一只猫玩偶"。但文字描述终究是模糊的，你说的"猫玩偶"到底是什么样的猫玩偶？胖的、瘦的、花纹是什么——纯文字根本说不清楚。INSET由于支持在指令中直接嵌入图片，编辑操作就可以变成这样："把画面里的雨伞换成[这张图里的猫玩偶]"——把那只你指定的、有具体外观特征的猫玩偶图直接放在指令里，AI就能准确理解你要的是哪种玩偶，生成的结果也会与你的参考图高度一致。

研究团队通过一组对比展示了这一能力：在相同的源图像和编辑指令下，只用文字指令时，模型对"猫玩偶"的理解依赖于训练数据中对这个词的泛化理解，结果可能偏离你的期望；而加入具体的参考图片后，模型准确地把那只特定设计的猫玩偶安置在了目标位置。这种"带图的编辑指令"能力是INSET架构设计的自然延伸，并非刻意设计，研究团队将其描述为训练过程中交织指令学习和文字引导编辑学习之间的"能力涌现"。

归根结底，INSET做的事情用一句话就能说清楚：它让AI终于能像人一样读图文交织的信息——看到文字里提到"那只狗"，眼睛就停在"那只狗"的图片上，而不是还得回头去数是哪个编号。正是这个看起来朴素的改变，让多图生成的质量出现了质的飞跃，也让一系列之前难以实现的应用成为可能。

这项研究也有其坦率承认的局限：在文字一致性上与顶级闭源商业模型还有一定差距，这主要取决于底层文生图基础模型的能力上限，而不是交织架构本身能完全解决的问题。随着基础模型的持续演进，这个差距大概率会进一步缩小。

说到底，把视觉内容当作一种"密集而富有表达力的语言符号"这一思路，为未来构建更自然、更统一的多模态AI系统提供了一条值得持续探索的路径。如果你对其中的技术细节感到好奇，可以通过论文编号arXiv:2605.12305查阅完整原文，那里有更详尽的架构图和实验数据等着你。

---

Q&A

Q1：INSET和传统多图生成AI有什么本质区别？

A：传统多图生成AI把所有参考图堆在指令开头，用"图片1的狗"这种方式引用，模型需要在遥远的图片和文字之间建立联系，图片多了就容易搞混或忽略。INSET则把每张图的视觉特征直接嵌入到指令中对应词语的位置，让"狗"这个词旁边就有狗的图，相当于把食材直接贴在菜谱对应的步骤上，模型不需要跑很远去找，自然就不会认错或漏掉。

Q2：INSET生成1500万条训练数据是怎么做到的？

A：数据引擎分两路：一路处理静态图片，先用AI生成全局描述，再检测并精确抠出每个物体、生成详细描述，最后用大语言模型把这些信息编织成带嵌入图片的自然指令，产出1000万条样本；另一路处理视频，抽取变化明显的帧对，让AI学会根据文字改变物体状态，产出500万条样本，合计1500万条。

Q3：INSET的多模态图像编辑和普通文字编辑指令有什么优势？

A：普通文字编辑只能用语言描述目标，比如"换成猫玩偶"，但哪种猫玩偶说不清楚。INSET支持在编辑指令里直接插入参考图片，可以明确指定"换成这张图里这个特定外观的猫玩偶"，AI能精确复现参考图中的细节，生成结果与期望高度一致，而不是凭泛化经验随机发挥。

多模态生成视觉语言交织图像一致性提升

分享至