微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 Google DeepMind让AI图片生成变"百花齐放":一个简单框架如何破解千篇一律的困局

Google DeepMind让AI图片生成变"百花齐放":一个简单框架如何破解千篇一律的困局

2026-01-22 09:09
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-01-22 09:09 科技行者

这项由Google DeepMind的Isabela Albuquerque领导、联合Ellison技术研究所Ira Ktena等研究者完成的突破性研究发表于2025年11月,论文编号为arXiv:2511.10547v1。感兴趣的读者可以通过该编号查询完整论文。

提到AI画画,很多人可能会有这样的体验:让AI画十张苹果,结果十张都长得差不多,颜色形状几乎一个模子刻出来的。这种"千篇一律"的问题其实是当前文本生成图片AI模型的通病。就像一个只会做一道菜的厨师,无论你怎么要求,做出来的菜总是那个味道。

这个问题看似简单,实际上却困扰着整个AI界。因为评判"多样性"本身就很主观——什么叫多样?是颜色不同就算多样,还是形状不同才算多样?就像你问十个人"这堆花哪个更好看",可能会得到十种不同的答案。

更棘手的是,目前评估AI图片多样性的方法就像用一把尺子测量所有东西一样不够精准。现有的评估指标往往把"多样性"和"图片质量"混在一起,导致评判结果让人摸不着头脑。研究团队发现了一个有趣现象:如果不明确指定要比较什么方面的多样性,人类评估者的准确率竟然跟抛硬币差不多,只有30%左右。

为了解决这个难题,Google DeepMind的研究团队开发了一套全新的评估框架,就像为厨师制定了详细的评判标准。他们的核心思路很直接:评估多样性时必须明确指定要比较的具体属性。比如评估苹果图片时,要明确是比较颜色的多样性,还是形状的多样性,或者是背景的多样性。

研究团队首先设计了一套专门的人工评估模板。这个模板的巧妙之处在于将复杂的多样性评估分解成两个步骤:先让评估者数一数每组图片中有多少种不同的属性值,然后再比较哪组更多样。就像让人比较两个果篮哪个水果种类更丰富,先数种类再下结论,这样就避免了主观判断的偏差。

为了验证这套方法的有效性,研究团队创建了一个"黄金标准"测试集,包含10个概念和对应的变化属性,比如花朵的颜色、容器的材质、语言标牌的颜色等。他们让人工评估者使用不同的模板进行测试,结果发现明确指定属性的模板准确率能达到82.5%,而没有指定属性的模板准确率只有30%。这个差异就像有GPS导航和盲目开车的区别一样显著。

接下来,研究团队构建了一个包含86个概念-属性对的提示词集合。这些概念涵盖了日常生活中的各种物品,从食物饮料到自然景物,再到人造物品。每个概念都配有相应的变化属性,比如苹果对应颜色、树木对应种类、咖啡杯对应材质等。这就像为每种菜品制定了不同的评判维度,确保评估的全面性和针对性。

研究团队运用这套框架对五个知名的AI图片生成模型进行了全面评估,包括Imagen 3、Imagen 2.5、Muse 2.2、DALLE3和Flux 1.1。他们为每个模型的每个提示词生成了20张图片,然后随机组合成8张一组的图片集,通过侧面对比的方式让5名评估者进行评判。整个研究收集了超过24000个人工评估数据,规模相当庞大。

评估结果显示,Imagen 3和Flux 1.1在多样性方面表现最佳,而Imagen 2.5和Muse 2.2的表现相对较弱。有趣的是,这个排名与模型的发布时间基本吻合,新版本的模型在多样性方面确实有所改进。DALLE3的表现介于中间,比一些老模型好,但不如最新的两个模型。

除了人工评估,研究团队还深入研究了自动化评估方法。他们重点关注了Vendi Score这一广泛使用的多样性评估指标,测试了不同图片嵌入方法的效果。结果发现,选择合适的嵌入空间至关重要。当使用最优的嵌入方法时,Vendi Score能够达到约65%的准确率来捕捉人类对多样性的感知。当模型之间差异较大时,这个准确率能提升到80%左右。

研究还发现了一个意外的结果:基于ImageNet训练的传统图像分类模型(如Inception和ViT)在某些情况下比专门的多模态模型表现更好。这可能是因为这些模型善于识别图像中的相似性,而缺乏多样性往往表现为图像过于相似。相比之下,多模态模型虽然理论上应该更适合这个任务,但在实际表现中并未显示出明显优势。

为了进一步验证自动化方法的可靠性,研究团队还尝试使用最新的大型语言模型Gemini进行多样性评估。他们设计了专门的提示词,让Gemini分析两组图片在特定属性上的多样性差异。令人惊喜的是,最新版本的Gemini 2.5 Flash在这个任务上的表现甚至超过了人类评估者,准确率达到了92.6%。

研究团队特别强调了一个重要观点:评估多样性不能脱离图片质量。一个模型可以通过生成随机噪声来达到极高的多样性,但这样的多样性是没有意义的。因此,他们使用最先进的文本-图像对齐评估工具Gecko对所有模型进行了质量检测,确认参与比较的模型在图片质量方面都达到了相似的高水准,这样多样性比较才有意义。

这项研究的意义不仅仅在于提供了一套评估工具,更重要的是为AI图片生成的发展指明了方向。随着AI绘画技术的快速发展,人们对生成内容的期望也在不断提高。过去可能觉得AI能画出像样的图就很不错了,现在则希望AI能像人类艺术家一样创作出丰富多彩的作品。

从技术角度来看,这套框架为模型开发者提供了明确的改进目标。开发者可以根据具体的属性维度来优化模型,而不是盲目地追求某个综合指标。这就像给厨师提供了详细的菜谱评分标准,让他们知道应该在哪些方面下功夫。

从应用角度来看,这套框架对创意工作者和普通用户都很有价值。创意工作者可以根据自己的需求选择在特定属性上表现更好的模型,比如需要颜色多样性时选择某个模型,需要形状多样性时选择另一个模型。普通用户也能更好地理解不同AI工具的特点,做出更合适的选择。

研究还揭示了一个有趣的现象:人类对多样性的感知是相当一致的。当评估任务明确定义后,不同评估者之间的一致性非常高,Krippendorff的α系数都超过了0.8。这说明多样性虽然看似主观,但在特定语境下确实存在客观标准。

值得注意的是,这项研究也为解决AI生成内容的公平性问题提供了新思路。传统的公平性评估往往依赖于分类器,比如用性别分类器来检测生成图片中的性别多样性。而这套新框架提供了一种不依赖分类器的评估方法,避免了分类器本身可能存在的偏见问题。

说到底,这项研究解决的是一个看似简单实则复杂的问题:如何让机器理解人类对"多样性"的要求。就像教孩子画画,不能只说"画得多样一点",而要具体说明是颜色要多样还是形状要多样。通过这种精确的指导,AI模型才能真正学会创造出令人满意的多样化内容。

这个框架的推出标志着AI图片生成进入了一个新阶段——从"能生成"到"生成得好",从"千篇一律"到"百花齐放"。未来,我们有理由期待AI创作工具能够像人类艺术家一样,在保持高质量的同时展现出丰富的创造力和想象力。对于每个使用AI绘画工具的人来说,这意味着我们将拥有更强大、更可靠的创作伙伴,能够帮助我们实现更多元化的创意表达。

Q&A

Q1:这个AI图片多样性评估框架具体是怎么工作的?

A:这个框架的核心是明确指定评估的属性维度。比如评估苹果图片时,要明确是比较颜色多样性还是形状多样性。评估者先数每组图片中有多少种不同的属性值,然后比较哪组更多样。这种方法将评估准确率从30%提升到82.5%,就像从盲目判断变成了有标准的科学评估。

Q2:哪些AI图片生成模型在多样性方面表现最好?

A:根据超过24000个人工评估数据的结果,Imagen 3和Flux 1.1在多样性方面表现最佳,明显优于其他模型。DALLE3的表现居中,而Imagen 2.5和Muse 2.2表现相对较弱。有趣的是,这个排名基本与模型发布时间一致,说明新版本模型在多样性方面确实有进步。

Q3:为什么现有的AI图片生成模型容易出现千篇一律的问题?

A:主要原因是缺乏明确的多样性评估标准。就像一个只会做一道菜的厨师,AI模型在训练时如果没有明确的多样性指导,就容易学会生成相似的内容。加上传统评估方法把多样性和图片质量混在一起,无法准确指导模型改进。这个新框架通过明确属性维度,为模型优化提供了清晰方向。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-