微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

Google DeepMind让AI图片生成变"百花齐放"：一个简单框架如何破解千篇一律的困局

图像生成多样性文本生成图片评估框架

Google DeepMind让AI图片生成变"百花齐放"：一个简单框架如何破解千篇一律的困局

作者：科技行者

2026-01-22 09:09

分享至：

Google DeepMind研究团队开发了首个专门评估AI图片生成多样性的框架，通过明确指定属性维度解决了传统评估方法的模糊性问题。研究基于超过24000个人工评估数据，发现Imagen 3和Flux 1.1在多样性表现最佳，同时验证了自动化评估方法的可靠性，为AI图片生成从"千篇一律"走向"百花齐放"提供了科学标准。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-01-22 09:09 • 科技行者

这项由Google DeepMind的Isabela Albuquerque领导、联合Ellison技术研究所Ira Ktena等研究者完成的突破性研究发表于2025年11月，论文编号为arXiv:2511.10547v1。感兴趣的读者可以通过该编号查询完整论文。

提到AI画画，很多人可能会有这样的体验：让AI画十张苹果，结果十张都长得差不多，颜色形状几乎一个模子刻出来的。这种"千篇一律"的问题其实是当前文本生成图片AI模型的通病。就像一个只会做一道菜的厨师，无论你怎么要求，做出来的菜总是那个味道。

这个问题看似简单，实际上却困扰着整个AI界。因为评判"多样性"本身就很主观——什么叫多样？是颜色不同就算多样，还是形状不同才算多样？就像你问十个人"这堆花哪个更好看"，可能会得到十种不同的答案。

更棘手的是，目前评估AI图片多样性的方法就像用一把尺子测量所有东西一样不够精准。现有的评估指标往往把"多样性"和"图片质量"混在一起，导致评判结果让人摸不着头脑。研究团队发现了一个有趣现象：如果不明确指定要比较什么方面的多样性，人类评估者的准确率竟然跟抛硬币差不多，只有30%左右。

为了解决这个难题，Google DeepMind的研究团队开发了一套全新的评估框架，就像为厨师制定了详细的评判标准。他们的核心思路很直接：评估多样性时必须明确指定要比较的具体属性。比如评估苹果图片时，要明确是比较颜色的多样性，还是形状的多样性，或者是背景的多样性。

研究团队首先设计了一套专门的人工评估模板。这个模板的巧妙之处在于将复杂的多样性评估分解成两个步骤：先让评估者数一数每组图片中有多少种不同的属性值，然后再比较哪组更多样。就像让人比较两个果篮哪个水果种类更丰富，先数种类再下结论，这样就避免了主观判断的偏差。

为了验证这套方法的有效性，研究团队创建了一个"黄金标准"测试集，包含10个概念和对应的变化属性，比如花朵的颜色、容器的材质、语言标牌的颜色等。他们让人工评估者使用不同的模板进行测试，结果发现明确指定属性的模板准确率能达到82.5%，而没有指定属性的模板准确率只有30%。这个差异就像有GPS导航和盲目开车的区别一样显著。

接下来，研究团队构建了一个包含86个概念-属性对的提示词集合。这些概念涵盖了日常生活中的各种物品，从食物饮料到自然景物，再到人造物品。每个概念都配有相应的变化属性，比如苹果对应颜色、树木对应种类、咖啡杯对应材质等。这就像为每种菜品制定了不同的评判维度，确保评估的全面性和针对性。

研究团队运用这套框架对五个知名的AI图片生成模型进行了全面评估，包括Imagen 3、Imagen 2.5、Muse 2.2、DALLE3和Flux 1.1。他们为每个模型的每个提示词生成了20张图片，然后随机组合成8张一组的图片集，通过侧面对比的方式让5名评估者进行评判。整个研究收集了超过24000个人工评估数据，规模相当庞大。

评估结果显示，Imagen 3和Flux 1.1在多样性方面表现最佳，而Imagen 2.5和Muse 2.2的表现相对较弱。有趣的是，这个排名与模型的发布时间基本吻合，新版本的模型在多样性方面确实有所改进。DALLE3的表现介于中间，比一些老模型好，但不如最新的两个模型。

除了人工评估，研究团队还深入研究了自动化评估方法。他们重点关注了Vendi Score这一广泛使用的多样性评估指标，测试了不同图片嵌入方法的效果。结果发现，选择合适的嵌入空间至关重要。当使用最优的嵌入方法时，Vendi Score能够达到约65%的准确率来捕捉人类对多样性的感知。当模型之间差异较大时，这个准确率能提升到80%左右。

研究还发现了一个意外的结果：基于ImageNet训练的传统图像分类模型（如Inception和ViT）在某些情况下比专门的多模态模型表现更好。这可能是因为这些模型善于识别图像中的相似性，而缺乏多样性往往表现为图像过于相似。相比之下，多模态模型虽然理论上应该更适合这个任务，但在实际表现中并未显示出明显优势。

为了进一步验证自动化方法的可靠性，研究团队还尝试使用最新的大型语言模型Gemini进行多样性评估。他们设计了专门的提示词，让Gemini分析两组图片在特定属性上的多样性差异。令人惊喜的是，最新版本的Gemini 2.5 Flash在这个任务上的表现甚至超过了人类评估者，准确率达到了92.6%。

研究团队特别强调了一个重要观点：评估多样性不能脱离图片质量。一个模型可以通过生成随机噪声来达到极高的多样性，但这样的多样性是没有意义的。因此，他们使用最先进的文本-图像对齐评估工具Gecko对所有模型进行了质量检测，确认参与比较的模型在图片质量方面都达到了相似的高水准，这样多样性比较才有意义。

这项研究的意义不仅仅在于提供了一套评估工具，更重要的是为AI图片生成的发展指明了方向。随着AI绘画技术的快速发展，人们对生成内容的期望也在不断提高。过去可能觉得AI能画出像样的图就很不错了，现在则希望AI能像人类艺术家一样创作出丰富多彩的作品。

从技术角度来看，这套框架为模型开发者提供了明确的改进目标。开发者可以根据具体的属性维度来优化模型，而不是盲目地追求某个综合指标。这就像给厨师提供了详细的菜谱评分标准，让他们知道应该在哪些方面下功夫。

从应用角度来看，这套框架对创意工作者和普通用户都很有价值。创意工作者可以根据自己的需求选择在特定属性上表现更好的模型，比如需要颜色多样性时选择某个模型，需要形状多样性时选择另一个模型。普通用户也能更好地理解不同AI工具的特点，做出更合适的选择。

研究还揭示了一个有趣的现象：人类对多样性的感知是相当一致的。当评估任务明确定义后，不同评估者之间的一致性非常高，Krippendorff的α系数都超过了0.8。这说明多样性虽然看似主观，但在特定语境下确实存在客观标准。

值得注意的是，这项研究也为解决AI生成内容的公平性问题提供了新思路。传统的公平性评估往往依赖于分类器，比如用性别分类器来检测生成图片中的性别多样性。而这套新框架提供了一种不依赖分类器的评估方法，避免了分类器本身可能存在的偏见问题。

说到底，这项研究解决的是一个看似简单实则复杂的问题：如何让机器理解人类对"多样性"的要求。就像教孩子画画，不能只说"画得多样一点"，而要具体说明是颜色要多样还是形状要多样。通过这种精确的指导，AI模型才能真正学会创造出令人满意的多样化内容。

这个框架的推出标志着AI图片生成进入了一个新阶段——从"能生成"到"生成得好"，从"千篇一律"到"百花齐放"。未来，我们有理由期待AI创作工具能够像人类艺术家一样，在保持高质量的同时展现出丰富的创造力和想象力。对于每个使用AI绘画工具的人来说，这意味着我们将拥有更强大、更可靠的创作伙伴，能够帮助我们实现更多元化的创意表达。

Q&A

Q1：这个AI图片多样性评估框架具体是怎么工作的？

A：这个框架的核心是明确指定评估的属性维度。比如评估苹果图片时，要明确是比较颜色多样性还是形状多样性。评估者先数每组图片中有多少种不同的属性值，然后比较哪组更多样。这种方法将评估准确率从30%提升到82.5%，就像从盲目判断变成了有标准的科学评估。

Q2：哪些AI图片生成模型在多样性方面表现最好？

A：根据超过24000个人工评估数据的结果，Imagen 3和Flux 1.1在多样性方面表现最佳，明显优于其他模型。DALLE3的表现居中，而Imagen 2.5和Muse 2.2表现相对较弱。有趣的是，这个排名基本与模型发布时间一致，说明新版本模型在多样性方面确实有进步。

Q3：为什么现有的AI图片生成模型容易出现千篇一律的问题？

A：主要原因是缺乏明确的多样性评估标准。就像一个只会做一道菜的厨师，AI模型在训练时如果没有明确的多样性指导，就容易学会生成相似的内容。加上传统评估方法把多样性和图片质量混在一起，无法准确指导模型改进。这个新框架通过明确属性维度，为模型优化提供了清晰方向。

图像生成多样性文本生成图片评估框架

分享至