微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

普林斯顿大学发布开源"食谱"，3B参数文生图模型竟能打败17B巨无霸？

文本生成图像扩散变换器开源训练方案

普林斯顿大学发布开源"食谱"，3B参数文生图模型竟能打败17B巨无霸？

作者：科技行者

2026-06-17 17:47

分享至：

普林斯顿大学团队公开i1文生图模型完整训练食谱，3B参数通过300+受控实验优化设计，在五大评测中超越多个参数量更大的开源模型，完整开放权重、代码与数据。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-17 17:47 • 科技行者

这项由普林斯顿大学研究团队完成的工作发表于2026年6月，论文编号为arXiv:2606.11289，有兴趣深入了解的读者可以通过这个编号查询完整论文。研究团队开源了模型权重、训练代码和数据处理流程，将整个研究成果完全向公众开放。

你有没有想过，当你用AI生成一张图片时，背后那台"绘画机器"究竟是怎么炼成的？这个问题表面上看是技术问题，实际上却关系到整个AI研究圈的健康发展。如今最强的文生图模型——那些能根据一段文字描述画出精美图片的系统——大多是由大公司秘密训练出来的，就像某家餐厅的招牌菜，厨师只展示成品，从不公开食谱和食材来源。这种不透明带来了一个严重问题：当一个新模型比旧模型好时，研究人员根本搞不清楚到底是哪个改动起了作用。

普林斯顿大学的研究团队决定打破这种局面。他们花费了超过70万TPU小时（一种专门用于AI训练的计算资源），做了300多个受控实验，把文生图模型的每一个设计选择都仔细拆开研究，最终训练出了一个名为"i1"的3B参数（30亿参数，参数可以理解为模型的"记忆容量"和"思维复杂度"）文生图模型，不仅公开了模型本身，还把所有训练数据、代码和详细步骤一起公开。更出乎意料的是，这个3B的小模型在多个权威评测中击败了参数量是它好几倍的竞争对手，包括17B参数的HiDream-I1和12B参数的FLUX.1 Dev。

这件事的意义，就好比一家小餐馆不仅公开了所有菜谱，还证明了用普通食材、按照正确步骤，同样能做出米其林级别的美食——贵不等于好，关键在于懂得怎么做。

一、为什么这件事比"又出了一个新模型"更重要

要理解这项研究的价值，得先了解当前文生图领域的一个怪圈。近年来涌现出了许多令人印象深刻的文生图模型，比如FLUX、Stable Diffusion 3、HiDream等，它们能生成极为逼真或富有艺术感的图片。然而，这些模型虽然公开了可以直接使用的"成品"（也就是模型权重），却几乎没有人说清楚自己用的是什么训练数据、做了什么关键的设计选择，以及为什么这样设计。

这就造成了一种奇怪的局面：每个新模型都声称自己比前辈更强，但研究人员想要在此基础上继续改进时，却发现完全无从下手，因为根本不知道"强"从何而来。而那些确实公开了所有信息的"完全开源"模型，性能又往往差得让人不好意思，与顶级模型之间存在巨大差距。

研究团队把这个困境比喻成一道经典难题：如果你同时改变了烹饪温度、食材配比和烹饪时间，最终蛋糕好吃了，你能说清楚到底是哪个改变起了决定性作用吗？大多数顶级模型就是这样，把所有改动一股脑打包，给你一个结果，不告诉你过程。

正因如此，研究团队的策略是：从一个基准设置出发，每次只改变一个变量，用科学实验的方式，把每一个设计选择的实际效果测量清楚。这种"控制变量"的方法在小学科学课上就教过，但在AI领域的顶级研究中却出奇地少见。

二、搭建实验厨房：基准模型和评测标准

研究团队的第一步，是搭建一个标准化的"实验厨房"——一个明确定义的基准模型，后续所有实验都以它为起点。

基准模型的核心结构建立在LightningDiT之上，这是一种扩散变换器架构（简单理解就是：把文字"翻译"成图片的神经网络引擎）。在这个基础上，研究团队使用了T5Gemma-2B作为文本编码器（负责"理解"输入的文字描述），用FLUX.2的VAE（可以理解为图像的"压缩解码器"，负责把图片压缩成更易处理的形式，生成完成后再还原回来）处理图像。文字理解之后，通过一个称为"适配器"（adapter）的模块，将文字信息传递给图像生成网络。默认情况下，适配器只是一个简单的MLP，也就是几层基本的神经网络连接。

训练数据方面，团队使用了12个完全公开的数据集，其中包括7个真实图片数据集（比如ImageNet-22K、YFCC100M、RedCaps等）、3个合成图片数据集（比如Midjourney v6的图片集、FLUX-Reason）以及2个专门包含文字图片的数据集（TextAtlas和RenderedText）。所有训练图片的描述文字，都由Qwen3-VL-30B-A3B（一种视觉语言模型，可以"看懂"图片并生成描述）自动生成，而不是人工标注。

实验都在256×256分辨率的低分辨率预训练阶段进行，每次训练50万步。用三个主要指标来衡量模型表现：DPG-Bench（测试模型能不能按照复杂描述生成对应图片）、PRISM-Bench（测试图片质量和描述准确度）以及LongText-Bench（专门测试模型能不能在图片里清晰渲染出文字内容）。

三、第一道关卡：用什么方式"读懂"文字？

文生图模型的第一个核心问题是：怎么让机器真正理解用户输入的那段文字描述？负责这件事的是"文本编码器"，它的作用类似于翻译官——把人类的语言转换成机器能处理的数字形式。

研究团队测试了十款不同的文本编码器，涵盖了几种主流类型。第一类是CLIP风格的编码器，比如FG-CLIP 2，这类模型专门为图文匹配任务训练，历史上曾是文生图的主力。第二类是编码器-解码器模型，包括T5Gemma和T5Gemma2系列，这类模型原本用于文本理解和翻译任务。第三类是纯解码器大语言模型，比如Qwen3系列，以及同样基于大语言模型的视觉语言模型Qwen3-VL系列。

实验结果出乎许多人的预料。当前AI界有一种流行的直觉认为：越新、越大的大语言模型，用作文本编码器效果就越好，毕竟它们的"理解能力"更强。然而，实验数据却显示，编码器-解码器结构的T5Gemma-2B和T5Gemma2系列，在DPG和LongText指标上反而全面超过了那些看起来更先进的解码器大语言模型和CLIP模型。更有意思的是，把T5Gemma-2B换成它的更大版本T5Gemma-9B，效果并没有变好，反而略有下降。指令微调（一种让模型更好地遵循指令的额外训练）的有无对结果影响也微乎其微。

由此研究团队得出第一个重要发现：在文生图任务里，文本编码器的类型比它的"智商高低"更关键，编码器-解码器结构天然更适合这个任务场景，而不是越大越新就越好。

四、多个"翻译官"比一个更好吗？

看到T5Gemma-2B独挑大梁的表现之后，自然会冒出一个问题：既然一个文本编码器能做到这么好，那如果同时用多个编码器、把多种语言理解方式结合起来，岂不是更好？事实上，FLUX、HiDream等顶级模型确实都使用了多个文本编码器的组合。

研究团队做了一系列组合实验，把T5Gemma-2B与其他编码器两两配对。结果确实，加上T5Gemma2-1B或者FG-CLIP 2之后，综合指标有所提升。但这里有一个关键疑问：提升是来自"多样化的理解视角"，还是仅仅因为增加了更多参数（也就是更多的计算资源）？

为了回答这个问题，研究团队设计了一个聪明的对照实验：把同一个T5Gemma-2B的输出复制两份，一份用两个独立的适配器处理，另一份用一个共享适配器处理。结果显示，用两个独立适配器的效果，和真正组合两个不同编码器的效果几乎一样好；而用共享适配器（只增加序列长度、不增加参数）则几乎没有提升。这说明多编码器带来的好处，主要来自额外的适配器参数，而非编码器本身的多样性。

进一步的实验印证了这个猜想：把基础的MLP适配器（约260万参数）替换成由两个完整变换器模块组成的大适配器（每个模块约1720万参数），效果的提升幅度完全可以媲美使用多个编码器——而且内存占用和计算量都更小，因为序列长度没有增加。当使用了大适配器之后，再额外加上第二个文本编码器，带来的额外提升就微乎其微了。

这是第二个重要发现：用一个更强大的适配器来"消化"单个文本编码器的输出，比同时使用多个编码器更划算、更高效。

五、时间戳有多重要？去掉它，效果反而更好

扩散模型的工作方式有点像"洗照片的逆向过程"——先把图片加上噪声，变成一团雪花，然后逐步去噪，还原出清晰图片。在这个过程中，模型需要知道"现在去噪到哪一步了"，负责传递这个信息的机制叫做AdaLN（自适应层归一化），它接受时间步信息（相当于告诉模型"现在处于第几步"）和汇总的文字信息，以缩放和偏移的方式调整网络内部的计算。

AdaLN几乎是所有现代文生图模型的标配，但研究团队发现了一个反直觉的现象：去掉AdaLN，在使用小型MLP适配器的情况下，所有评测指标全面提升。当使用大型适配器时，去掉AdaLN的影响变得极小——几乎可以忽略不计。这说明当适配器足够强大，能充分处理文字信息时，AdaLN通过汇总文字嵌入传递信息的功能就变得多余；而AdaLN处理时间步信息的功能，对文生图任务的贡献也极其有限。

这个发现很重要，因为AdaLN会引入大量额外参数（在某些模型中占总参数量的近20%）。把这些参数节省下来，用在更有价值的地方，模型的效率就会大幅提升。i1最终选择完全去除AdaLN，让模型结构更加干净简洁。

六、骨架的形状：双流还是单流？

文生图的神经网络骨架，可以从"文字和图片怎么交流"的角度分成三大类。第一类是交叉注意力模型，文字和图片各自处理，图片在处理过程中通过特殊的"交叉注意力层"来"询问"文字信息，就像看着说明书组装家具。第二类是单流模型，文字和图片合并成一个序列，由同一套参数统一处理，类似把说明书和零件都放在同一张桌子上同时操作。第三类是双流MMDiT模型，文字和图片的序列合并在一起，但分别有各自专属的注意力和前馈层，类似两个协作的工人用各自的工具箱处理共享的材料。

研究团队在五种不同模型规模（参数量从约10亿到30亿不等）下，同时测试了这三种骨架结构。在DPG、PRISM和LongText三项指标上，双流MMDiT骨架在相同参数量下稳定取得最佳表现。这个结论在按训练计算量（FLOPs）来比较时也同样成立，证明双流结构的优势不是靠堆参数堆出来的。

除了骨架类型，研究团队还重新检验了一种几乎被现代模型遗忘的设计——"长跳跃连接"（long skip connections）。这个设计最早来自医学图像分割的经典网络U-Net，原理是把网络前半部分某些层的输出直接"跳过"若干层，与后半部分的对应层相加，相当于给信息传递开辟了一条"高速通道"。这种设计在扩散模型领域的早期有过探索，但在最近的主流模型中几乎销声匿迹。

实验数据表明，在三种骨架结构、五种模型规模、以及按FLOPs比较的多个维度上，加入长跳跃连接都能一致地提升模型表现。这对研究团队来说是一个意外之喜——一个被遗忘的老方法，在现代架构上依然非常有效。

七、图片描述的语言，决定了模型的"世界观"

模型的骨架设计只是成功的一半，训练数据的质量同样至关重要。文生图模型的学习方式，是大量观察"图片+描述"这样的配对，从中学会如何把描述转化为图片。那么，这些描述文字从哪里来、质量如何，就直接决定了模型能学到什么。

研究团队专门测试了五种不同的视觉语言模型作为"自动描述生成器"（captioner），分别是Qwen2-VL 2B、Qwen2.5-VL 3B、Qwen3-VL-2B、Qwen3-VL-4B以及Qwen3-VL-30B-A3B。在相同训练设置下，只改变生成描述的模型，下游文生图性能出现了显著差异。其中，Qwen3-VL-30B-A3B生成的描述质量最高，用它训练出的模型在DPG和PRISM上大幅领先于其他选项。进一步分析发现，性能更好的描述往往也更长、更详细，这暗示了一个规律：描述越丰富，模型学到的图文关联就越精准。

这个发现在实际操作中有很直接的意义：如果你想训练一个好的文生图模型，别随便找个小模型生成图片描述敷衍了事——这一步的投入，会直接体现在最终效果上。

八、短描述训练出来的模型，为什么看短文字"发懵"？

既然长描述更好，那是不是训练时只用长描述就行了？研究团队发现事情没这么简单，这里有一个有趣的"训练-推理不一致"陷阱。

当模型全程用长描述训练后，在测试阶段面对GenEval这个评测集时，性能出乎意料地差。GenEval的题目基本都是非常短的提示词，比如"a wine glass and a bear"（一个酒杯和一只熊）。研究团队发现，把同一句短提示词重复12遍输入给模型，性能会从0.17大幅跳升到0.49。这说明问题不在于模型不懂这些词，而在于模型习惯了长描述，面对短描述时不知道该怎么"发力"，就像一个习惯写长篇作文的人，突然让他写微博140字，反而不知从何下手。

更优雅的解决方案是"提示词改写"（prompt rewrite）：用一个大语言模型（Qwen3-4B）把短提示词自动扩充成长段落，再输入给文生图模型。实验证明，全程用长描述训练、推理时用改写后的长提示词，综合效果（GenEval得分0.73）明显优于所有"训练短描述"的方案。这说明正确的做法是：训练时坚持用长描述，推理时用语言模型把短提示词"翻译"成长描述，让两端的语言风格保持一致。

这个发现解释了为什么很多用户在使用文生图工具时，越详细的描述效果越好——模型确实是在"长文字环境"中成长的，你给它的信息越丰富，它发挥得越好。

九、数据集的"平等原则"：多不如均

研究团队使用的12个数据集规模差异悬殊，最大的YFCC100M包含近1亿张图片，而最小的几个只有百万级别。如果按照"谁大谁主导"的方式混合训练，YFCC一家就占了总数据量的58%，其他数据集几乎成了陪衬。

为了研究数据配比的影响，研究团队先对每个数据集单独训练，了解各自的"特长"：真实图片数据集（尤其是ImageNet-22K和YFCC）在DPG指标上表现最好；合成图片数据集（FLUX-Reason、Midjourney v6）对PRISM（图片美观度和细节）贡献最大；而文字图片数据集（TextAtlas）是唯一能在LongText（文字渲染）上取得好成绩的来源。这说明三类数据各有其不可替代的价值，缺少任何一类都会损害特定能力。

接下来，研究团队测试了不同的数据混合策略。他们设置了四个截断阈值，对采样权重超过阈值的数据集进行降权。结果非常清晰：阈值越低（也就是各数据集的权重越接近均等），模型的综合表现越好。当阈值设为120万（相当于所有数据集各平等采样120万张图片）时，效果最优。

进一步实验还发现，在等权重的基础上，把表现最差的iNaturalist数据集（主要是昆虫、植物等细分领域图片，过于狭窄）移除，所有指标都有小幅提升；但继续移除其他数据集，效果没有进一步改善。研究团队还测试了"把某一个数据集放大3倍或5倍"的策略，结果无一例外——任何单一数据集的放大都不能超越完全均等权重的基准。

这个发现可以用一句话概括：数据平衡比数据量更重要，每种类型的数据都要见到，但没有哪一种数据应该独占主导地位。

十、数据量多到够用就行，重复训练没那么可怕

一个让很多人感到意外的发现是，训练数据的"唯一性"并没有想象中那么重要。研究团队在ImageNet-22K数据集上做了一个实验：把数据集从1370万张图片一路下采样到40万张，然后在各个规模下训练模型。结果显示，从1370万缩减到40万张图片，性能几乎没有显著下降；只有进一步缩减到10万张时，才出现明显的性能崩塌。

在混合多个数据集的场景下，研究团队把每个数据集截断到只保留40万张图片，总计只使用了440万张独特图片（相比之前的8810万张），模型的综合性能下降极其轻微。这说明，只要数据集足够多样化，重复使用同样的图片（相当于翻来覆去多看几遍）并不会显著伤害模型能力。

这对实际训练有很实际的意义：不需要无止境地追求海量数据，合理规模、充分多样、重复利用，同样能训练出高性能的模型。

十一、从低分辨率到高分辨率：升维之路

完成了所有设计选择的研究之后，研究团队把最优的配置汇聚在一起，训练完整的i1模型。低分辨率（256×256）预训练跑了200万步，大约从50万步开始性能趋于稳定，到200万步时基本完全收敛。

接下来是从低分辨率到高分辨率的过渡。对于512分辨率的训练，数据只保留短边不小于512像素的图片，并将每个数据集截断至100万张，等权混合训练。对于1024分辨率，只保留5个数据集（FLUX-Reason、TextAtlas、RedCaps、GPT-Edit、Midjourney v6），因为只有这几个数据集的高分辨率图片够多。

一个有趣的发现是：512分辨率训练时，使用纯真实图片、纯合成图片或完整混合数据集，在LongText（文字渲染）指标上都能取得相近的提升效果，尽管真实图片和合成图片数据集里几乎没有文字内容。这说明，高分辨率生成能力并不依赖于同样高分辨率的文字训练数据——模型能从高质量的图片中自己学会如何在更高清的图像里渲染文字。换言之，高清训练数据不需要覆盖低分辨率预训练的所有内容类型，聚焦于高质量图片就够了。

推理阶段，模型使用CFG（分类器自由引导，一种增强文字和图片关联程度的技术）scale为12，并配合Rescale CFG防止图片过度饱和。所有输入提示词都通过一个定制化的大型提示词改写器处理，确保长度和风格与训练分布匹配。

十二、最终成绩单：小模型，大惊喜

在五个权威评测基准上，i1的最终成绩令人刮目相看。在GenEval（0.84）、DPG-Bench（86.73）、PRISM（70.1）、CVTG-2K（0.8531）和LongText-Bench（0.922）五项综合指标上，i1在所有"完全开源"模型中排名第一，而且领先幅度相当明显——平均绝对分数领先此前最好的完全开源模型29.5个百分点。

与更大的"仅开放权重"模型相比，i1同样表现出色：PRISM得分70.1超过了17B的HiDream-I1（66.1）和12B的FLUX.1 Dev（65.1）；CVTG-2K和LongText得分也全面领先这些参数量更大的对手；DPG得分86.73同样高于FLUX.1 Dev的83.84。只有PRISM得分在74.2的Z-Image（6B）和73.9的Qwen-Image（20B）面前还有差距，但i1的参数量只有它们的一半甚至不到六分之一。

这份成绩单证明了一件重要的事：在文生图领域，把每个设计选择都研究清楚，比单纯堆砌更多参数更有效。而这一切，只用了公开数据集，没有任何私有数据。

---

说到底，i1这项工作的核心贡献不仅仅是"又出了一个好模型"，而是给整个研究社区留下了一本真正可用的食谱。从文本编码器的选型，到适配器大小的权衡，从数据平衡策略到提示词长度的一致性处理，每一个设计决策背后都有扎实的实验数据支撑。

对普通用户来说，这项研究让人看到了AI工具可以变得更便宜、更透明、更可信——一个只有30亿参数的模型，在完全公开所有信息的前提下，依然能生成让人惊艳的图片。对研究人员来说，这项工作提供了一个真正可以站上去继续建造的地基，而不是一个只能仰望的黑箱。

值得思考的一个问题是：既然适当规模的公开数据就能达到如此效果，那些顶级商业模型的额外优势，究竟有多少来自数据的隐秘性，又有多少真的来自技术本身的创新？这个问题的答案，或许会在更多"完全开源"实验的推进中逐渐浮出水面。有兴趣深入探究的读者，可以通过arXiv编号2606.11289找到完整论文，所有实验细节和代码均已公开，欢迎亲自验证。

---

Q&A

Q1：i1模型用了哪些公开数据集训练？

A：i1训练数据完全来自公开数据集，包括ImageNet-22K、YFCC100M、RedCaps、Megalith、Pexels、Places365等7个真实图片数据集，FLUX-Reason、GPT-Image-Edit、Midjourney v6等3个合成图片数据集，以及TextAtlas和RenderedText两个文字渲染数据集，共约1.63亿张图片。

Q2：i1模型为什么去掉了AdaLN？

A：AdaLN是一种向模型注入时间步信息（即去噪进行到第几步）的标准机制，传统上被认为不可或缺。但实验发现，当文本适配器足够大时，AdaLN对文生图任务带来的增益微乎其微，而它会引入大量额外参数（约占总参数量的19%）。去掉AdaLN不仅降低了模型复杂度，在小适配器设置下反而还能提升性能，因此i1最终选择完全移除AdaLN。

Q3：i1的提示词改写功能是怎么工作的？

A：i1在生成图片时，会先用Qwen3-30B-A3B大语言模型将用户输入的提示词（无论长短）改写成75到150词的详细描述段落，然后再把改写后的长提示词输入到图像生成网络。这样做是为了弥合"训练时用长描述、用户输入短描述"之间的差距，实验证明这种方式比直接用原始短提示词效果显著更好，GenEval得分从0.17提升到0.73。

文本生成图像扩散变换器开源训练方案

分享至

0赞

好文章，需要你的鼓励

推荐文章

大语言模型
强化学习
新型算法

2026-06-17 17:36

腾讯混元AI强化学习新突破：让AI学习时"先想后行"，避免越学越偏

腾讯混元提出CPPO方法，通过位置权重和累积前缀预算两个机制改进AI强化学习训练，在多个Qwen3模型的数学推理任务上超越现有方法，最大提升达5.56分。
人工智能
自然语言处理
多智能体系统

2026-06-17 17:18

多伦多大学推出AI写作导师，帮你在Overleaf里改出一篇顶会论文

PaperMentor是多伦多大学等机构联合开发的AI论文写作导师，通过12个专业智能体和40余份专家技能文件，在Overleaf中为科研人员提供行内批注式的写作建议。
人工智能安全
大型语言模型
潜在脆弱性评估

2026-06-17 17:08

斯坦福等高校研究：AI安全"表面过关"背后，可能藏着一颗随时被引爆的"定时炸弹"

论文揭示AI安全测试的"审计缺口"：模型外表安全但内部可能脆弱，并提出潜在脆弱性分数（LVS）量化内部风险。
人工智能
多示例学习
新型算法

2026-06-17 16:50

柏林工业大学团队让AI无需"刷题"就能看懂病理切片——一种全新的"举一反三"医学图像分类方法

这项研究提出ICMIL框架，让AI通过在合成数据上预训练，无需针对新任务重新训练即可完成多示例学习分类，在十二个基准上超越需要调参的监督方法。

腾讯混元AI强化学习新突破：让AI学习时"先想后行"，避免越学越偏

腾讯混元AI强化学习新突破：让AI学习时"先想后行"，避免越学越偏

2026-06-17 17:36

多伦多大学推出AI写作导师，帮你在Overleaf里改出一篇顶会论文

多伦多大学推出AI写作导师，帮你在Overleaf里改出一篇顶会论文

2026-06-17 17:18

斯坦福等高校研究：AI安全"表面过关"背后，可能藏着一颗随时被引爆的"定时炸弹"

斯坦福等高校研究：AI安全"表面过关"背后，可能藏着一颗随时被引爆的"定时炸弹"

2026-06-17 17:08

柏林工业大学团队让AI无需"刷题"就能看懂病理切片——一种全新的"举一反三"医学图像分类方法

柏林工业大学团队让AI无需"刷题"就能看懂病理切片——一种全新的"举一反三"医学图像分类方法

2026-06-17 16:50

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情链接

京ICP证15039648号京ICP备15039648号-9 京公网安备 11010802021500号

北京第二十六维信息技术有限公司（至顶网）版权所有。 | 联络我们

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱: jubao@zhiding.cn 　网上有害信息举报专区：https://www.12377.cn