
这项由普林斯顿大学研究团队完成的工作发表于2026年6月,论文编号为arXiv:2606.11289,有兴趣深入了解的读者可以通过这个编号查询完整论文。研究团队开源了模型权重、训练代码和数据处理流程,将整个研究成果完全向公众开放。
你有没有想过,当你用AI生成一张图片时,背后那台"绘画机器"究竟是怎么炼成的?这个问题表面上看是技术问题,实际上却关系到整个AI研究圈的健康发展。如今最强的文生图模型——那些能根据一段文字描述画出精美图片的系统——大多是由大公司秘密训练出来的,就像某家餐厅的招牌菜,厨师只展示成品,从不公开食谱和食材来源。这种不透明带来了一个严重问题:当一个新模型比旧模型好时,研究人员根本搞不清楚到底是哪个改动起了作用。
普林斯顿大学的研究团队决定打破这种局面。他们花费了超过70万TPU小时(一种专门用于AI训练的计算资源),做了300多个受控实验,把文生图模型的每一个设计选择都仔细拆开研究,最终训练出了一个名为"i1"的3B参数(30亿参数,参数可以理解为模型的"记忆容量"和"思维复杂度")文生图模型,不仅公开了模型本身,还把所有训练数据、代码和详细步骤一起公开。更出乎意料的是,这个3B的小模型在多个权威评测中击败了参数量是它好几倍的竞争对手,包括17B参数的HiDream-I1和12B参数的FLUX.1 Dev。
这件事的意义,就好比一家小餐馆不仅公开了所有菜谱,还证明了用普通食材、按照正确步骤,同样能做出米其林级别的美食——贵不等于好,关键在于懂得怎么做。
一、为什么这件事比"又出了一个新模型"更重要
要理解这项研究的价值,得先了解当前文生图领域的一个怪圈。近年来涌现出了许多令人印象深刻的文生图模型,比如FLUX、Stable Diffusion 3、HiDream等,它们能生成极为逼真或富有艺术感的图片。然而,这些模型虽然公开了可以直接使用的"成品"(也就是模型权重),却几乎没有人说清楚自己用的是什么训练数据、做了什么关键的设计选择,以及为什么这样设计。
这就造成了一种奇怪的局面:每个新模型都声称自己比前辈更强,但研究人员想要在此基础上继续改进时,却发现完全无从下手,因为根本不知道"强"从何而来。而那些确实公开了所有信息的"完全开源"模型,性能又往往差得让人不好意思,与顶级模型之间存在巨大差距。
研究团队把这个困境比喻成一道经典难题:如果你同时改变了烹饪温度、食材配比和烹饪时间,最终蛋糕好吃了,你能说清楚到底是哪个改变起了决定性作用吗?大多数顶级模型就是这样,把所有改动一股脑打包,给你一个结果,不告诉你过程。
正因如此,研究团队的策略是:从一个基准设置出发,每次只改变一个变量,用科学实验的方式,把每一个设计选择的实际效果测量清楚。这种"控制变量"的方法在小学科学课上就教过,但在AI领域的顶级研究中却出奇地少见。
二、搭建实验厨房:基准模型和评测标准
研究团队的第一步,是搭建一个标准化的"实验厨房"——一个明确定义的基准模型,后续所有实验都以它为起点。
基准模型的核心结构建立在LightningDiT之上,这是一种扩散变换器架构(简单理解就是:把文字"翻译"成图片的神经网络引擎)。在这个基础上,研究团队使用了T5Gemma-2B作为文本编码器(负责"理解"输入的文字描述),用FLUX.2的VAE(可以理解为图像的"压缩解码器",负责把图片压缩成更易处理的形式,生成完成后再还原回来)处理图像。文字理解之后,通过一个称为"适配器"(adapter)的模块,将文字信息传递给图像生成网络。默认情况下,适配器只是一个简单的MLP,也就是几层基本的神经网络连接。
训练数据方面,团队使用了12个完全公开的数据集,其中包括7个真实图片数据集(比如ImageNet-22K、YFCC100M、RedCaps等)、3个合成图片数据集(比如Midjourney v6的图片集、FLUX-Reason)以及2个专门包含文字图片的数据集(TextAtlas和RenderedText)。所有训练图片的描述文字,都由Qwen3-VL-30B-A3B(一种视觉语言模型,可以"看懂"图片并生成描述)自动生成,而不是人工标注。
实验都在256×256分辨率的低分辨率预训练阶段进行,每次训练50万步。用三个主要指标来衡量模型表现:DPG-Bench(测试模型能不能按照复杂描述生成对应图片)、PRISM-Bench(测试图片质量和描述准确度)以及LongText-Bench(专门测试模型能不能在图片里清晰渲染出文字内容)。
三、第一道关卡:用什么方式"读懂"文字?
文生图模型的第一个核心问题是:怎么让机器真正理解用户输入的那段文字描述?负责这件事的是"文本编码器",它的作用类似于翻译官——把人类的语言转换成机器能处理的数字形式。
研究团队测试了十款不同的文本编码器,涵盖了几种主流类型。第一类是CLIP风格的编码器,比如FG-CLIP 2,这类模型专门为图文匹配任务训练,历史上曾是文生图的主力。第二类是编码器-解码器模型,包括T5Gemma和T5Gemma2系列,这类模型原本用于文本理解和翻译任务。第三类是纯解码器大语言模型,比如Qwen3系列,以及同样基于大语言模型的视觉语言模型Qwen3-VL系列。
实验结果出乎许多人的预料。当前AI界有一种流行的直觉认为:越新、越大的大语言模型,用作文本编码器效果就越好,毕竟它们的"理解能力"更强。然而,实验数据却显示,编码器-解码器结构的T5Gemma-2B和T5Gemma2系列,在DPG和LongText指标上反而全面超过了那些看起来更先进的解码器大语言模型和CLIP模型。更有意思的是,把T5Gemma-2B换成它的更大版本T5Gemma-9B,效果并没有变好,反而略有下降。指令微调(一种让模型更好地遵循指令的额外训练)的有无对结果影响也微乎其微。
由此研究团队得出第一个重要发现:在文生图任务里,文本编码器的类型比它的"智商高低"更关键,编码器-解码器结构天然更适合这个任务场景,而不是越大越新就越好。
四、多个"翻译官"比一个更好吗?
看到T5Gemma-2B独挑大梁的表现之后,自然会冒出一个问题:既然一个文本编码器能做到这么好,那如果同时用多个编码器、把多种语言理解方式结合起来,岂不是更好?事实上,FLUX、HiDream等顶级模型确实都使用了多个文本编码器的组合。
研究团队做了一系列组合实验,把T5Gemma-2B与其他编码器两两配对。结果确实,加上T5Gemma2-1B或者FG-CLIP 2之后,综合指标有所提升。但这里有一个关键疑问:提升是来自"多样化的理解视角",还是仅仅因为增加了更多参数(也就是更多的计算资源)?
为了回答这个问题,研究团队设计了一个聪明的对照实验:把同一个T5Gemma-2B的输出复制两份,一份用两个独立的适配器处理,另一份用一个共享适配器处理。结果显示,用两个独立适配器的效果,和真正组合两个不同编码器的效果几乎一样好;而用共享适配器(只增加序列长度、不增加参数)则几乎没有提升。这说明多编码器带来的好处,主要来自额外的适配器参数,而非编码器本身的多样性。
进一步的实验印证了这个猜想:把基础的MLP适配器(约260万参数)替换成由两个完整变换器模块组成的大适配器(每个模块约1720万参数),效果的提升幅度完全可以媲美使用多个编码器——而且内存占用和计算量都更小,因为序列长度没有增加。当使用了大适配器之后,再额外加上第二个文本编码器,带来的额外提升就微乎其微了。
这是第二个重要发现:用一个更强大的适配器来"消化"单个文本编码器的输出,比同时使用多个编码器更划算、更高效。
五、时间戳有多重要?去掉它,效果反而更好
扩散模型的工作方式有点像"洗照片的逆向过程"——先把图片加上噪声,变成一团雪花,然后逐步去噪,还原出清晰图片。在这个过程中,模型需要知道"现在去噪到哪一步了",负责传递这个信息的机制叫做AdaLN(自适应层归一化),它接受时间步信息(相当于告诉模型"现在处于第几步")和汇总的文字信息,以缩放和偏移的方式调整网络内部的计算。
AdaLN几乎是所有现代文生图模型的标配,但研究团队发现了一个反直觉的现象:去掉AdaLN,在使用小型MLP适配器的情况下,所有评测指标全面提升。当使用大型适配器时,去掉AdaLN的影响变得极小——几乎可以忽略不计。这说明当适配器足够强大,能充分处理文字信息时,AdaLN通过汇总文字嵌入传递信息的功能就变得多余;而AdaLN处理时间步信息的功能,对文生图任务的贡献也极其有限。
这个发现很重要,因为AdaLN会引入大量额外参数(在某些模型中占总参数量的近20%)。把这些参数节省下来,用在更有价值的地方,模型的效率就会大幅提升。i1最终选择完全去除AdaLN,让模型结构更加干净简洁。
六、骨架的形状:双流还是单流?
文生图的神经网络骨架,可以从"文字和图片怎么交流"的角度分成三大类。第一类是交叉注意力模型,文字和图片各自处理,图片在处理过程中通过特殊的"交叉注意力层"来"询问"文字信息,就像看着说明书组装家具。第二类是单流模型,文字和图片合并成一个序列,由同一套参数统一处理,类似把说明书和零件都放在同一张桌子上同时操作。第三类是双流MMDiT模型,文字和图片的序列合并在一起,但分别有各自专属的注意力和前馈层,类似两个协作的工人用各自的工具箱处理共享的材料。
研究团队在五种不同模型规模(参数量从约10亿到30亿不等)下,同时测试了这三种骨架结构。在DPG、PRISM和LongText三项指标上,双流MMDiT骨架在相同参数量下稳定取得最佳表现。这个结论在按训练计算量(FLOPs)来比较时也同样成立,证明双流结构的优势不是靠堆参数堆出来的。
除了骨架类型,研究团队还重新检验了一种几乎被现代模型遗忘的设计——"长跳跃连接"(long skip connections)。这个设计最早来自医学图像分割的经典网络U-Net,原理是把网络前半部分某些层的输出直接"跳过"若干层,与后半部分的对应层相加,相当于给信息传递开辟了一条"高速通道"。这种设计在扩散模型领域的早期有过探索,但在最近的主流模型中几乎销声匿迹。
实验数据表明,在三种骨架结构、五种模型规模、以及按FLOPs比较的多个维度上,加入长跳跃连接都能一致地提升模型表现。这对研究团队来说是一个意外之喜——一个被遗忘的老方法,在现代架构上依然非常有效。
七、图片描述的语言,决定了模型的"世界观"
模型的骨架设计只是成功的一半,训练数据的质量同样至关重要。文生图模型的学习方式,是大量观察"图片+描述"这样的配对,从中学会如何把描述转化为图片。那么,这些描述文字从哪里来、质量如何,就直接决定了模型能学到什么。
研究团队专门测试了五种不同的视觉语言模型作为"自动描述生成器"(captioner),分别是Qwen2-VL 2B、Qwen2.5-VL 3B、Qwen3-VL-2B、Qwen3-VL-4B以及Qwen3-VL-30B-A3B。在相同训练设置下,只改变生成描述的模型,下游文生图性能出现了显著差异。其中,Qwen3-VL-30B-A3B生成的描述质量最高,用它训练出的模型在DPG和PRISM上大幅领先于其他选项。进一步分析发现,性能更好的描述往往也更长、更详细,这暗示了一个规律:描述越丰富,模型学到的图文关联就越精准。
这个发现在实际操作中有很直接的意义:如果你想训练一个好的文生图模型,别随便找个小模型生成图片描述敷衍了事——这一步的投入,会直接体现在最终效果上。
八、短描述训练出来的模型,为什么看短文字"发懵"?
既然长描述更好,那是不是训练时只用长描述就行了?研究团队发现事情没这么简单,这里有一个有趣的"训练-推理不一致"陷阱。
当模型全程用长描述训练后,在测试阶段面对GenEval这个评测集时,性能出乎意料地差。GenEval的题目基本都是非常短的提示词,比如"a wine glass and a bear"(一个酒杯和一只熊)。研究团队发现,把同一句短提示词重复12遍输入给模型,性能会从0.17大幅跳升到0.49。这说明问题不在于模型不懂这些词,而在于模型习惯了长描述,面对短描述时不知道该怎么"发力",就像一个习惯写长篇作文的人,突然让他写微博140字,反而不知从何下手。
更优雅的解决方案是"提示词改写"(prompt rewrite):用一个大语言模型(Qwen3-4B)把短提示词自动扩充成长段落,再输入给文生图模型。实验证明,全程用长描述训练、推理时用改写后的长提示词,综合效果(GenEval得分0.73)明显优于所有"训练短描述"的方案。这说明正确的做法是:训练时坚持用长描述,推理时用语言模型把短提示词"翻译"成长描述,让两端的语言风格保持一致。
这个发现解释了为什么很多用户在使用文生图工具时,越详细的描述效果越好——模型确实是在"长文字环境"中成长的,你给它的信息越丰富,它发挥得越好。
九、数据集的"平等原则":多不如均
研究团队使用的12个数据集规模差异悬殊,最大的YFCC100M包含近1亿张图片,而最小的几个只有百万级别。如果按照"谁大谁主导"的方式混合训练,YFCC一家就占了总数据量的58%,其他数据集几乎成了陪衬。
为了研究数据配比的影响,研究团队先对每个数据集单独训练,了解各自的"特长":真实图片数据集(尤其是ImageNet-22K和YFCC)在DPG指标上表现最好;合成图片数据集(FLUX-Reason、Midjourney v6)对PRISM(图片美观度和细节)贡献最大;而文字图片数据集(TextAtlas)是唯一能在LongText(文字渲染)上取得好成绩的来源。这说明三类数据各有其不可替代的价值,缺少任何一类都会损害特定能力。
接下来,研究团队测试了不同的数据混合策略。他们设置了四个截断阈值,对采样权重超过阈值的数据集进行降权。结果非常清晰:阈值越低(也就是各数据集的权重越接近均等),模型的综合表现越好。当阈值设为120万(相当于所有数据集各平等采样120万张图片)时,效果最优。
进一步实验还发现,在等权重的基础上,把表现最差的iNaturalist数据集(主要是昆虫、植物等细分领域图片,过于狭窄)移除,所有指标都有小幅提升;但继续移除其他数据集,效果没有进一步改善。研究团队还测试了"把某一个数据集放大3倍或5倍"的策略,结果无一例外——任何单一数据集的放大都不能超越完全均等权重的基准。
这个发现可以用一句话概括:数据平衡比数据量更重要,每种类型的数据都要见到,但没有哪一种数据应该独占主导地位。
十、数据量多到够用就行,重复训练没那么可怕
一个让很多人感到意外的发现是,训练数据的"唯一性"并没有想象中那么重要。研究团队在ImageNet-22K数据集上做了一个实验:把数据集从1370万张图片一路下采样到40万张,然后在各个规模下训练模型。结果显示,从1370万缩减到40万张图片,性能几乎没有显著下降;只有进一步缩减到10万张时,才出现明显的性能崩塌。
在混合多个数据集的场景下,研究团队把每个数据集截断到只保留40万张图片,总计只使用了440万张独特图片(相比之前的8810万张),模型的综合性能下降极其轻微。这说明,只要数据集足够多样化,重复使用同样的图片(相当于翻来覆去多看几遍)并不会显著伤害模型能力。
这对实际训练有很实际的意义:不需要无止境地追求海量数据,合理规模、充分多样、重复利用,同样能训练出高性能的模型。
十一、从低分辨率到高分辨率:升维之路
完成了所有设计选择的研究之后,研究团队把最优的配置汇聚在一起,训练完整的i1模型。低分辨率(256×256)预训练跑了200万步,大约从50万步开始性能趋于稳定,到200万步时基本完全收敛。
接下来是从低分辨率到高分辨率的过渡。对于512分辨率的训练,数据只保留短边不小于512像素的图片,并将每个数据集截断至100万张,等权混合训练。对于1024分辨率,只保留5个数据集(FLUX-Reason、TextAtlas、RedCaps、GPT-Edit、Midjourney v6),因为只有这几个数据集的高分辨率图片够多。
一个有趣的发现是:512分辨率训练时,使用纯真实图片、纯合成图片或完整混合数据集,在LongText(文字渲染)指标上都能取得相近的提升效果,尽管真实图片和合成图片数据集里几乎没有文字内容。这说明,高分辨率生成能力并不依赖于同样高分辨率的文字训练数据——模型能从高质量的图片中自己学会如何在更高清的图像里渲染文字。换言之,高清训练数据不需要覆盖低分辨率预训练的所有内容类型,聚焦于高质量图片就够了。
推理阶段,模型使用CFG(分类器自由引导,一种增强文字和图片关联程度的技术)scale为12,并配合Rescale CFG防止图片过度饱和。所有输入提示词都通过一个定制化的大型提示词改写器处理,确保长度和风格与训练分布匹配。
十二、最终成绩单:小模型,大惊喜
在五个权威评测基准上,i1的最终成绩令人刮目相看。在GenEval(0.84)、DPG-Bench(86.73)、PRISM(70.1)、CVTG-2K(0.8531)和LongText-Bench(0.922)五项综合指标上,i1在所有"完全开源"模型中排名第一,而且领先幅度相当明显——平均绝对分数领先此前最好的完全开源模型29.5个百分点。
与更大的"仅开放权重"模型相比,i1同样表现出色:PRISM得分70.1超过了17B的HiDream-I1(66.1)和12B的FLUX.1 Dev(65.1);CVTG-2K和LongText得分也全面领先这些参数量更大的对手;DPG得分86.73同样高于FLUX.1 Dev的83.84。只有PRISM得分在74.2的Z-Image(6B)和73.9的Qwen-Image(20B)面前还有差距,但i1的参数量只有它们的一半甚至不到六分之一。
这份成绩单证明了一件重要的事:在文生图领域,把每个设计选择都研究清楚,比单纯堆砌更多参数更有效。而这一切,只用了公开数据集,没有任何私有数据。
---
说到底,i1这项工作的核心贡献不仅仅是"又出了一个好模型",而是给整个研究社区留下了一本真正可用的食谱。从文本编码器的选型,到适配器大小的权衡,从数据平衡策略到提示词长度的一致性处理,每一个设计决策背后都有扎实的实验数据支撑。
对普通用户来说,这项研究让人看到了AI工具可以变得更便宜、更透明、更可信——一个只有30亿参数的模型,在完全公开所有信息的前提下,依然能生成让人惊艳的图片。对研究人员来说,这项工作提供了一个真正可以站上去继续建造的地基,而不是一个只能仰望的黑箱。
值得思考的一个问题是:既然适当规模的公开数据就能达到如此效果,那些顶级商业模型的额外优势,究竟有多少来自数据的隐秘性,又有多少真的来自技术本身的创新?这个问题的答案,或许会在更多"完全开源"实验的推进中逐渐浮出水面。有兴趣深入探究的读者,可以通过arXiv编号2606.11289找到完整论文,所有实验细节和代码均已公开,欢迎亲自验证。
---
Q&A
Q1:i1模型用了哪些公开数据集训练?
A:i1训练数据完全来自公开数据集,包括ImageNet-22K、YFCC100M、RedCaps、Megalith、Pexels、Places365等7个真实图片数据集,FLUX-Reason、GPT-Image-Edit、Midjourney v6等3个合成图片数据集,以及TextAtlas和RenderedText两个文字渲染数据集,共约1.63亿张图片。
Q2:i1模型为什么去掉了AdaLN?
A:AdaLN是一种向模型注入时间步信息(即去噪进行到第几步)的标准机制,传统上被认为不可或缺。但实验发现,当文本适配器足够大时,AdaLN对文生图任务带来的增益微乎其微,而它会引入大量额外参数(约占总参数量的19%)。去掉AdaLN不仅降低了模型复杂度,在小适配器设置下反而还能提升性能,因此i1最终选择完全移除AdaLN。
Q3:i1的提示词改写功能是怎么工作的?
A:i1在生成图片时,会先用Qwen3-30B-A3B大语言模型将用户输入的提示词(无论长短)改写成75到150词的详细描述段落,然后再把改写后的长提示词输入到图像生成网络。这样做是为了弥合"训练时用长描述、用户输入短描述"之间的差距,实验证明这种方式比直接用原始短提示词效果显著更好,GenEval得分从0.17提升到0.73。
好文章,需要你的鼓励
腾讯混元提出CPPO方法,通过位置权重和累积前缀预算两个机制改进AI强化学习训练,在多个Qwen3模型的数学推理任务上超越现有方法,最大提升达5.56分。
PaperMentor是多伦多大学等机构联合开发的AI论文写作导师,通过12个专业智能体和40余份专家技能文件,在Overleaf中为科研人员提供行内批注式的写作建议。
论文揭示AI安全测试的"审计缺口":模型外表安全但内部可能脆弱,并提出潜在脆弱性分数(LVS)量化内部风险。
这项研究提出ICMIL框架,让AI通过在合成数据上预训练,无需针对新任务重新训练即可完成多示例学习分类,在十二个基准上超越需要调参的监督方法。