微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

复旦大学出手：让AI真正"读懂"你的画面描述，告别张冠李戴的图像生成困境

文本到图像生成直接偏好优化组合生成能力提升

复旦大学出手：让AI真正"读懂"你的画面描述，告别张冠李戴的图像生成困境

作者：科技行者

2026-06-04 16:35

分享至：

复旦大学提出BiDPO方法，通过双模态偏好对比训练与区域引导机制，大幅提升AI绘图模型在复杂描述下的属性绑定和空间关系生成准确性。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-04 16:35 • 科技行者

这项由复旦大学上海市智能信息处理重点实验室与上海智能视觉计算协同创新中心联合开展的研究，于2026年5月以预印本形式发布，论文编号为arXiv:2605.28615，有兴趣深入探究技术细节的读者可以通过该编号查阅完整原文。

你有没有遇到过这样的场景：你告诉AI绘图工具"画一只红色的猫和一只蓝色的狗"，结果出来的图里蓝色的是猫、红色的是狗，或者干脆两只动物的颜色全混在一起？又或者你想要"三个苹果放在桌子左边"，AI给你画出来的是两个苹果、位置也不对？这种让人哭笑不得的状况，其实折磨着几乎所有使用过AI绘图工具的人。

复旦大学的研究团队花了相当多的心思来解决这个问题。他们提出了一套名为BiDPO的新方法，核心思路是教会AI模型更精准地理解文字描述与画面元素之间的对应关系，尤其是在复杂场景下——多个物体、各有不同属性、还有彼此之间的空间位置关系——能够准确地"对号入座"。

一、为什么AI画图这么难"听懂"复杂指令

先从根子上聊聊这个问题。现代AI绘图工具的原理，简单来说有点像一个极其复杂的"联想机器"。你输入一段文字，它在脑海中把文字和大量图片的关联全部搜索一遍，然后拼凑出一张符合描述的新图。这个过程对于简单描述（比如"一只猫"）效果很好，但当描述变得复杂时，比如"一只灰色的猫和一只绿色的老鼠"，AI就容易把"灰色"和"绿色"搞错配对，因为它并不真正"理解"哪个颜色词对应哪个动物，只是在做模糊的概率匹配。

学术界把这个难题称为"组合式文本到图像生成"，说的就是当提示词里涉及多个物体、多种属性以及物体间关系时，AI能否准确地把每个描述和对应的视觉元素正确配对。现有的一些解决方案虽然有效，但大多需要用户额外提供布局信息（比如告诉AI每个物体应该在图里的哪个位置），或者依赖超级大的语言模型来辅助理解，这些方法不但麻烦，还很费计算资源。

复旦大学的团队选择了一条不同的路：他们想让AI模型本身就能在只靠文字提示的情况下，真正搞懂复杂描述里的对应关系，不需要任何额外的辅助输入。

二、一个聪明的"纠错训练法"：让AI从对比中学习

研究团队采用的核心技术叫做"直接偏好优化"，英文缩写DPO，原本是用来训练语言模型的技术，让它从人类的喜好对比中学习——告诉AI哪个回答更好，哪个更差，让它慢慢往好的方向靠拢。

把这个思路搬到图像生成领域，可以用一个生动的比方来理解。假设你在教一个刚入职的美工助理。你给他看两张图：一张画的是"灰色猫和绿色老鼠"，正确匹配；另一张画的是颜色配反了的错误版本。然后你告诉他："第一张是对的，第二张是错的，记住这个区别。"通过大量这样的对比练习，助理逐渐就能掌握正确的对应规律。

不过，复旦的研究团队发现，之前把DPO用在图像生成上的方法只考虑了"图图对比"——用一张好图和一张差图做对比，让模型学会倾向于生成好图。这个方法忽略了文字这一端的对比：同一张图配正确描述和错误描述之间的差别，同样蕴含着巨大的学习价值。

于是，他们提出了"双模态DPO"，也就是BiDPO里"Bi"（双重）的由来。这套方法同时在图像层面和文字层面做对比训练。训练时，不仅要让模型在图图对比中学习（好图vs坏图），还要在文字对比中学习（好描述vs坏描述配上同一张图）。更妙的是，这两套文字层面的对比训练，实际上隐含地包含了图图对比的信息——两种文字训练合在一起，等价于同时告诉模型：对于正确描述，应该倾向于生成正确图；对于错误描述，应该远离那种错误图。整套逻辑形成了一个完整的闭环。

三、放大镜效应：让AI把注意力聚焦在关键区域

仅仅做双模态对比训练还不够。复旦团队发现，在训练复杂场景时，模型的注意力容易被分散——它在学习"猫的颜色是否正确"时，可能也在被背景、其他不相关物体分心。于是他们引入了一个"区域级引导"机制。

这个机制的原理类似于用一个放大镜圈出图片里的关键区域，然后告诉模型："在计算这次训练的得失分时，圈出来的这个区域权重加倍，其他背景区域权重减半。"具体实现上，研究团队会事先记录下每张训练图里各个物体所在的位置框（边界框），训练时在损失计算上给这些区域更大的权重，背景区域则权重降低到一半。

这样一来，模型就被强迫去关注那些真正涉及属性对比的关键区域——比如"猫身上的灰色区域"和"老鼠身上的绿色区域"——而不是漫无目的地学习整张图的统计规律。研究团队特别提到，对于需要整体理解的任务（比如数量统计、空间关系），他们没有使用这个区域引导机制，因为这类任务本来就需要全局视野。

四、从零造出一个高质量"对错样本库"

好的训练需要好的数据。研究团队发现，市面上根本没有现成的、高质量的、带区域标注的组合式图像偏好数据集，于是他们自己动手建了一个，取名BiComp。

整个数据集的构建过程就像一个精密的流水线工厂。第一步，从多个公开来源收集了约5万条和"组合描述"相关的图像文字对，这些描述涉及颜色、形状、材质、空间关系、动作关系以及数量等六个维度。之后用Flux图像生成模型把这些描述逐一生成对应图片，每条描述生成2到4张图。

第二步，生成的图片不一定完全符合原始描述，所以需要重新生成准确的描述。这个步骤颇为复杂：首先用DeepSeek-V3语言模型分析原始描述属于哪个维度；然后用DeepSeek-R1提取描述里提到了哪些具体物体；接着用Grounding DINO目标检测模型找到图片里这些物体的位置；再用SAM2分割模型精确圈出每个物体的形状；最后用Qwen2.5-VL这个视觉语言模型，对照圈出的区域，逐一描述每个物体的属性（比如颜色、形状、材质），并按照统一的模板合成新的准确描述。

第三步，在准确描述的基础上，生成"差描述"——故意把属性改错，比如把"灰色"改成"绿色"，或者把两个物体的颜色对调，或者把两个物体的颜色统一成同一种。然后用Qwen图像编辑模型，按照修改后的描述把原图也相应地修改，生成对应的"差图片"。这样，研究团队就同时拥有了"好图+好描述"和"差图+差描述"的完整配对。

第四步，质量把关。用Qwen2.5-VL对每张图片提问——比如"图中区域1的物体是灰色的吗？"——根据回答的置信度过滤掉质量不合格的样本。

最终，这个数据集包含了57474张原始图片和94502张编辑图片，覆盖颜色、形状、材质、空间关系、非空间关系（动作类）以及数量六个维度，是一个相当可观的规模。研究团队还额外引入了12000条来自VisMin公开数据集的真实照片数据，增加数据的多样性和真实感。

空间关系这个维度处理起来尤为特殊。要通过图像编辑来改变两个物体的空间位置关系，在技术上非常困难（比如把"猫在盘子左边"改成"猫在盘子右边"，这几乎要重新生成整张图）。所以研究团队对空间关系维度采用了不同策略：先用DeepSeek-V3把原始描述解析成一个包含位置布局的场景方案，再修改其中的空间关系，最后用CreatiLayout这个布局到图像的生成工具，直接根据修改后的布局生成两张不同的图。

五、实战成绩：超越众多知名模型的惊人提升

理论上说得再好，最终还是要靠实测结果说话。研究团队把BiDPO用于微调Stable Diffusion XL（SDXL）这个广为人知的基础模型，然后在四个学术界公认的评测基准上进行了测试。

在T2I-CompBench这个专门考察组合生成能力的基准上，SDXL经过BiDPO训练后，颜色属性绑定得分从58.90跳升到79.35，提升幅度超过20个百分点；形状属性绑定从46.90涨到60.47，提升约14个百分点；材质属性绑定从53.13升至71.36，提升约18个百分点。三项加起来平均约有17%的提升，效果相当显著。与此同时，空间关系和非空间关系（动作）方面也有小幅但稳定的提升。更值得一提的是，这些成绩超过了许多需要额外布局输入的专用方法，比如GLIGEN、LMD+和InstanceDiffusion，而BiDPO只靠纯文字提示就做到了这一点。

在GenEval这个考察复杂指令跟随能力的基准上，整体得分从0.53升至0.62，在"两个物体"子项上从0.68升至0.86，在"数量计数"子项上从0.42升至0.59。有意思的是，在"单物体"和"颜色"这两个子项上，BiDPO训练后的SDXL甚至超过了体量大得多的DALL-E 3和Flux.1-dev——这对一个经过轻量微调的小模型来说，算得上一个相当亮眼的结果。

在DPG-Bench这个考察语义对齐能力的综合基准上，整体得分从73.38提升到78.84，在实体、属性、关系等子项上都有3到5个百分点的稳定提升。在GenEval 2这个专门为测试现代模型而设计的更难基准上，原子级别的得分提升了6.6%，整体提示层面提升了1.8%。

研究团队还把BiDPO扩展到了SD3-Medium这个基于更新架构的模型上进行测试，结果同样令人满意——经过BiDPO训练的SD3-Medium在组合复杂度越高的场景中，提升越明显，在某些项目上甚至超过了Flux这个公认的强模型。这说明BiDPO并不是只对某一种特定模型有效，而是具有相当的通用性。

此外，研究团队还用HPSv2这个评估图像美学质量的工具进行了测试，结果发现BiDPO在提升组合准确性的同时，图像的视觉质量也有所改善，平均提升了2.65%。这说明这套训练方法并没有以牺牲画面美感为代价换取语义准确性，两者实现了同步提升。

六、拆解实验：每个设计环节究竟贡献了多少

研究团队还做了一系列对比消融实验，逐一验证BiDPO各个设计环节的实际贡献，结果非常清晰。

单纯的监督微调（SFT）——就是直接把好图喂给模型训练，不做任何偏好对比——几乎没有带来任何提升，在T2I-CompBench上的得分甚至比基线还略低。这说明仅仅是增加训练数据，在没有对比信号的情况下，对解决属性绑定问题几乎没有帮助。

只做图像层面的DPO对比（ImageDPO）有一定效果，颜色维度提升到67.39，但在数量计数子项上出现了明显退步（从50.08降至39.34），说明单靠图图对比，训练信号不够全面。

只做文字层面的DPO对比（TextDPO）则出现了灾难性的下滑，T2I-CompBench整体得分骤降至13.48，GenEval整体得分更是跌到4.71。原因在于，单靠文字偏好训练，完全缺乏视觉生成的引导信号，模型的图像生成能力严重退化，生成的图像质量极差。

两者结合的BiDPO（不带区域引导）则带来了大幅提升，T2I-CompBench整体得分达到53.10，GenEval整体得分达到60.71，充分说明双模态结合是关键。加上区域级引导之后，T2I-CompBench进一步提升1.2个百分点到54.37，GenEval提升1.4个百分点到62.14，说明区域引导机制能在双模态基础上带来额外的细粒度对齐能力。

归根结底，BiDPO的设计哲学可以用一句话概括：让模型同时从"图的对比"和"字的对比"中学习，还要在学习过程中用放大镜聚焦关键区域，缺一不可。

说到底，这项研究做的事情其实很直觉：教AI模型通过大量"对的和错的"对比样本来真正搞懂文字描述和图像元素之间的配对关系，而不是靠模糊的概率统计来碰运气。这种"双边对比+区域聚焦"的训练思路，相比之前的方法更加系统，也更直指问题核心。

对于普通用户来说，这项研究意味着在不久的将来，AI绘图工具在处理"红苹果和蓝杯子"、"三只狗坐在桌子左边"这类描述时，会越来越少地出现张冠李戴的错误，对复杂文字描述的理解和执行能力会更接近人类的直觉预期。当然，研究团队也坦承，在空间关系和数量统计这些维度上，提升幅度相对小于颜色、形状等属性维度，这些仍是值得继续深耕的方向。

研究团队提到，未来计划把BiDPO扩展到自回归式图像生成模型等更多架构上，探索其更广泛的适用性。有兴趣进一步了解技术细节的读者，可以通过论文编号arXiv:2605.28615查阅完整原文，相关代码也已在GitHub上公开。

Q&A

Q1：BiDPO和普通的Diffusion DPO有什么区别？

A：普通的Diffusion DPO只做图像层面的偏好对比，用好图和差图让模型学会倾向生成好图，但完全忽略了文字描述端的对比信息。BiDPO在此基础上增加了文字层面的对比训练，让模型同时学习"同一张图，正确描述vs错误描述"之间的差别，两套训练结合在一起还隐含了图像层面的对比信息，形成更完整的学习信号。此外BiDPO还加入了区域级引导机制，让损失计算重点关注图像中的关键物体区域，而非漫无目的地学习整张图。

Q2：BiComp数据集是怎么保证质量的？

A：BiComp数据集在构建流程末尾设有一个VQA（视觉问答）过滤环节。研究团队用Qwen2.5-VL这个视觉语言模型，根据每张图的标注信息自动生成针对性问题（比如"区域1里的物体是灰色的吗"），让模型给出0到1的置信度评分，不符合要求的样本直接剔除，以此确保留下来的图文对在属性描述上是准确一致的。

Q3：BiDPO训练后的模型视觉质量会下降吗？

A：不会，反而有所提升。研究团队用HPSv2美学评估工具在DrawBench上进行了测试，经过BiDPO训练的SDXL在概念艺术、照片、动漫和绘画四个类别上，平均美学得分提升了约2.65%。这说明BiDPO在改善组合语义准确性的同时，并没有以牺牲画面美感为代价，两者实现了同步改善。

文本到图像生成直接偏好优化组合生成能力提升

分享至