香港大学联合香港中文大学、北京航空航天大学和阿里巴巴的研究团队,在2025年9月发布了一项突破性研究成果。这项名为"FLUX-Reason-6M & PRISM-Bench"的研究发表于arXiv预印本平台(论文编号:arXiv:2509.09680v1),感兴趣的读者可以通过该编号在arXiv官网查阅完整论文,相关数据集和代码也已在GitHub和Hugging Face平台开放获取。
当我们要求AI绘制一幅"夕阳下骑自行车的小猫戴着巫师帽在云朵上穿行"这样充满想象力的画面时,目前最先进的开源AI绘画工具往往会产生奇怪的结果:小猫可能没有巫师帽,自行车可能悬浮在奇怪的位置,或者整个画面看起来毫无逻辑。这是因为现有的AI绘画模型缺乏像人类艺术家那样的推理能力——它们无法理解为什么某些元素要以特定方式组合,也不明白如何处理复杂的空间关系和情感表达。
这个问题困扰着整个AI绘画领域。虽然像GPT-Image和Gemini这样的闭源商业模型表现出色,但开源模型在面对复杂、详细的创作要求时常常力不从心。研究团队深入分析后发现,问题的根源在于两个关键缺失:首先,缺乏大规模、高质量、专注于推理能力训练的开源数据集;其次,缺乏一个能够全面评估AI绘画模型真实能力的测评标准。
为了解决这些问题,香港大学的研究团队投入了15000个A100 GPU天的计算资源,耗时4个月,创建了迄今为止最大规模的AI绘画推理数据集。这个名为FLUX-Reason-6M的数据集包含600万张高质量图像和2000万条双语(中英文)描述文本,专门用于教会AI模型进行复杂的视觉推理。
一、突破传统局限:六大特征重新定义AI绘画能力
研究团队没有简单地收集更多图片,而是从根本上重新思考了AI绘画模型需要掌握哪些核心能力。他们将现代AI绘画的挑战分解为六个相互关联的特征维度,就像为一位全才艺术家制定的技能清单。
想象力(Imagination)是第一个维度,专门训练AI创造超现实、奇幻或抽象概念的能力。这类数据包含了违反物理定律或将完全不同概念奇妙结合的场景描述。比如"一座由玻璃建成的城市,光之河流在其中流淌"这样的描述,要求AI不仅要理解现实中的城市和河流,还要能够创造性地重新组合这些概念,产生全新的视觉体验。这种训练让AI具备了突破字面理解的创造性思维。
实体描述(Entity)维度聚焦于知识基础的准确呈现。当用户要求AI绘制"梅西在世界杯决赛中过人"这样的场景时,模型需要准确识别和描绘特定的真实世界对象、人物或知名实体。这要求AI不仅要掌握视觉技巧,还要具备丰富的世界知识,能够准确再现各种真实存在的事物及其特征。
文字渲染(Text Rendering)解决了AI绘画中的一个老大难题。传统的生成模型在处理图像中的文字时经常出现拼写错误、位置不当或根本无法辨认的问题。这个维度专门收集能够成功融合清晰可读英文文字的图像,对应的文本描述明确指出文字内容、样式和在图像中的具体位置。比如描述"一个标着'FLUX-Reason-6M'的霓虹灯招牌",让AI学会精确的文字控制能力。
风格表现(Style)维度建立了一个庞大而多样的艺术与摄影风格库。这些数据明确参考特定艺术运动(如立体主义、印象主义)、视觉技巧(如长曝光、鱼眼镜头)甚至著名艺术家的美学特征。通过这种训练,AI能够理解并成功应用各种艺术风格,就像掌握了多种绘画技法的艺术家。
情感表达(Affection)维度专门训练AI将抽象的情感概念转化为具体的视觉表现。这类数据使用富有感染力的语言描述情绪、感受或氛围,如"宁静孤独的感觉"或"混乱而充满喜悦的市场场景"。对应的图像通过色彩搭配、光线处理和主题表情等视觉元素,将这些无形的情感概念转化为有形的视觉符号。
构图安排(Composition)维度关注场景中对象的精确排列和相互作用。这些描述使用明确的空间定位语言,包括方位词(如"在...下面"、"在...后面"、"紧邻")和相对位置关系。对应的图像提供了正确执行这些复杂空间指令的清晰示例,让AI学会处理精确的构图要求。
这种多标签设计的巧妙之处在于,一张图像可以同时属于多个特征类别。以"埃菲尔铁塔以梵高《星夜》风格呈现"为例,这张图像既属于实体类别(准确描绘地标建筑),也属于风格类别(模仿艺术家风格)。这种有意的重叠确保模型能够学会融合不同类型的推理能力,就像人类艺术家会自然地结合多种技巧一样。
二、生成链式思维:让AI像人类艺术家一样思考创作过程
FLUX-Reason-6M数据集的最大创新在于引入了"生成链式思维"(Generation Chain-of-Thought,简称GCoT)的概念。这种方法彻底改变了AI学习绘画的方式,从简单的图文对应关系升级为深度的创作逻辑理解。
传统的AI绘画训练就像教学生照着样本临摹,只告诉他们"这是什么",但从不解释"为什么这样画"。而GCoT方法则像一位经验丰富的艺术导师,不仅展示作品,还详细解释创作的每一个决策过程。
具体来说,当面对一张小狗坐在粉色盒子里的图像时,传统方法只会提供简单描述:"一只可爱的约克夏犬坐在标有'Fabulous'的粉色盒子里,戴着匹配的粉色蝴蝶结。"而GCoT方法则会提供详细的创作推理过程:"这幅作品巧妙地运用了色彩协调原理,粉色盒子、蝴蝶结和周围装饰形成统一的色彩主题。小狗的棕白相间毛色与暖色调背景形成恰当对比,突出了主体。构图上采用居中对称设计,小狗的爪子轻搭在盒子边缘,增加了画面的动感和亲和力。周围的羽毛和花朵营造出梦幻氛围,整体传达出纯真、可爱的情感基调。"
这种训练方式让AI不仅知道画什么,更重要的是理解为什么这样画。模型学会了分析空间关系、艺术选择、色彩搭配、情感基调和构图平衡等创作要素之间的内在逻辑。这就像教会AI掌握了艺术创作的"内功",而不仅仅是表面的"招式"。
研究团队使用强大的Qwen-VL模型来生成这些详细的推理链条。该模型接收图像和所有类别特定的描述作为输入,然后生成一个详细的逐步推理过程。这个过程不仅解释图像中的元素,还揭示这些元素如何相互作用,为什么存在特定的布局,以及支配场景构成的构图和语义原则。
三、精密的数据制作流水线:打造工业级训练资源
创建如此庞大而高质量的数据集需要一个精密设计的制作流水线。研究团队将整个过程分为四个主要阶段,每个阶段都经过精心设计以确保最终数据的质量和一致性。
第一阶段是建立高质量的视觉基础。不同于简单收集网络图片,研究团队选择使用FLUX.1-dev这一先进的图像生成模型作为合成引擎。他们首先利用视觉语言模型结合Laion-Aesthetics数据集中的图像,重写原始说明文字,创造出高质量且描述准确的文本提示。这种方法避免了网络爬取数据中常见的质量不一致和风格混乱问题。
但这种策略在两个特征类别上存在明显不足:想象力和文字渲染内容严重缺乏。针对想象力类别,研究团队设计了一个渐进式创意培养过程。他们首先使用Gemini-2.5-Pro生成200个高概念、富有想象力的种子提示。然后采用创意扩展技术:随机选取其中10个提示作为上下文示例输入Qwen3-32B,并提高模型的温度参数以最大化创意输出,鼓励产生新颖的概念关联。这个过程产生了大量极具创意的文本说明,经过FLUX.1-dev渲染后,为数据集注入了超现实和奇幻的视觉内容。
对于文字渲染类别,团队开发了一个三阶段的挖掘-生成-合成流水线。首先,他们使用强大的Qwen2.5-VL-32B系统性地从Laion-2B数据集中挖掘包含清晰可读文字的图像。接着,对每个验证过的富含文字的图像,再次利用Qwen-VL的描述能力生成高保真的新说明。这些说明精确描述文字内容、视觉呈现方式以及图像中的上下文关系。最后,这些以文字为中心的说明被输入FLUX.1-dev进行最终合成,产生的图像中渲染的文字与精制说明直接对应,形成文字渲染类别的高质量训练数据。
第二阶段是VLM驱动的质量筛选和多维度评分。面对800万张初始合成图像,团队设计了多层级的筛选系统。首先进行基础质量筛选,使用Qwen-VL作为自动化质量保证检查员,分析每张图像的基本清晰度和结构一致性,识别并丢弃存在过度模糊、干扰噪点或显著结构扭曲的图像。
然后进行强大的多维度分类。团队使用Qwen-VL根据预定义的六个特征对每张筛选过的图像进行评估。采用量化评分系统,模型为每个特征分配1到10的相关性分数,而不是简单的二元分类。通过为每个特征设置精心校准的阈值,系统最终确定图像的类别归属。这个系统专门设计用于多标签分类,能够准确识别单张图像属于多个特征的情况。
考虑到文字渲染的独特挑战,团队还实施了专门的字体质量筛选。即使高质量的生成模型也会产生难以辨认或上下文错误的文字。为确保数据集为这一困难任务提供清晰可靠的信号,他们再次使用Qwen-VL作为严格的字体质量检查员,对标记为文字渲染类别的图像执行详细扫描,筛选出任何包含低对比度、扭曲或无意义文字的实例。
第三阶段是VLM驱动的密集说明生成和推理框架构建。通过建立高质量分类图像基础后,下一个关键阶段是生成丰富的多维度说明并构建生成链式思维。这个过程从传统说明范式转变为结构化且具有推理意识的注释框架。
团队的注释策略核心是利用VLM的先进多模态推理能力,为每张图像生成高度针对性的类别特定说明。与产生通用描述的传统方法不同,他们的方法为每张图像的特定特征生成详细说明。例如,处理实体图像时,Qwen-VL被指导生成优先考虑场景中特定对象、地标或人物准确识别和详细描述的说明。相反,对于风格类别的图像,生成的说明强调艺术技巧、视觉美学和定义艺术特色的风格元素。
生成链式思维合成是注释过程的核心步骤。为了构建这些推理过程,团队采用精心的融合策略,将Qwen-VL与完整上下文(即图像加上所有类别特定说明)一起提供。这种全面的输入使模型能够合成详细的逐步推理链条,不仅阐明图像中存在的元素,还揭示这些元素如何相互作用、为什么存在特定布局,以及支配场景构成的构图和语义原则。
最终阶段是原始说明整合和大规模双语发布。为了在策划的推理信号之外扩大泛化能力,研究团队重新整合了Laion-Aesthetics中能够可靠描述FLUX.1-dev合成图像的高质量传统说明。他们使用Qwen-VL作为对齐评判员,评分每个原始Laion说明与其配对FLUX图像之间的语义对应关系。分数超过校准阈值的说明被保留作为额外监督,确保覆盖多样化的自然语言表达,同时避免图像-说明漂移。整合原始说明、类别特定说明和GCoT注释后,语料库总计达到2000万个独特说明。
为了实现资源民主化并促进国际合作,团队使用Qwen的先进翻译能力对整个说明语料库进行了全面中文翻译。每个原始说明、类别特定说明和GCoT说明都被翻译成中文。然而,对于文字渲染类别,他们实施了关键的内容保护策略:为了保持任务的语义完整性,图像中预期渲染的特定英文文字在翻译的说明中保持原始形式。这种双语框架使FLUX-Reason-6M成为最大且最易获取的双语T2I推理数据集之一。
四、PRISM-Bench:全方位测评AI绘画的真实能力
仅仅创建庞大的训练数据集还不够,研究团队意识到还需要一个能够准确评估AI绘画模型真实能力的测评标准。现有的评测基准往往过于简单或只关注少数几个维度,无法有效区分先进模型之间的细微差别。于是,他们开发了PRISM-Bench(精确且强健的图像合成测量基准),这是一个包含七个独立测试轨道的综合评估框架。
PRISM-Bench的设计哲学是"细致入微,人类对齐"。传统评测方法常常依赖简单的CLIP分数或目标检测器,这些工具容易达到饱和状态,无法真正区分模型的实际表现差异。PRISM-Bench采用了一种革命性的方法:利用先进视觉语言模型(GPT-4.1和Qwen2.5-VL-72B)的认知判断能力作为人类判断的代理,实现细致入微且与人类评估高度一致的模型性能分析。
七个测试轨道中的前六个直接对应FLUX-Reason-6M数据集的六个特征:想象力、实体、文字渲染、风格、情感和构图。第七个轨道是独特且具有挑战性的"长文本"测试,利用GCoT说明来测试模型处理复杂指令的能力。每个轨道包含100个精心选择和构建的提示,总计700个多样化、代表性强且具有挑战性的双语提示。
每个轨道的100个提示分为两组,各50个,设计用于测量模型性能的不同方面。第一组通过系统化采样直接来自FLUX-Reason-6M数据集,确保广泛的代表性。为了避免选择偏差并确保广泛覆盖,团队没有使用简单的随机采样,而是采用语义聚类和分层采样方法。具体地,对每个类别收集FLUX-Reason-6M数据集中得分最高的前10000个提示,然后使用K-Means算法将提示分为50个不同的语义聚类。每个聚类代表该类别内的独特概念主题。他们从每个聚类中选择最接近聚类质心的一个提示作为该语义主题最具代表性的示例。
第二组50个提示来自精心策划,专门针对每个轨道的特定挑战性方面。对于想象力轨道,团队将想象概念划分为几个主要类别,如物理不可能性和超现实叙述,然后使用大语言模型从一个或多个类别中随机选择元素生成相应提示。实体轨道策划了不同类别实体的列表:著名地标、特定动植物物种、历史人物和品牌对象,然后利用大语言模型随机选择一到三个实体生成相应提示。
文字渲染轨道设计了不同长度的文字内容、不同字体样式以及表面和位置组合。风格轨道定义了四个主要风格类别,包括艺术运动、媒介、摄影技术和数字现代美学,总共25种详细风格,为每种风格生成2个提示。情感轨道使用Plutchik的情感轮作为基础来源,选择八种主要情感及其温和和强烈形式。构图轨道构建了包括颜色、数量、尺寸、空间关系等属性池,每次生成时从各个池中抽取几个属性,让大语言模型自由组合创建具有多个对象及各种关系的提示。
长文本轨道从FLUX-Reason-6M数据集中选择50张高质量图像及其所有对应说明,将这些输入Gemini2.5-Pro进行长文本扩展,最终产生50个具有挑战性的提示。所有生成的提示都经过人工审查,确保它们明确、语法正确且逻辑合理,从而保证评估的公平性和挑战性。
五、评估协议:让AI评判AI的创新方法
PRISM-Bench的评估方法代表了AI绘画测评领域的一次重大创新。传统评估方法的问题在于过于粗糙——简单询问"图像是否匹配提示?"无法捕捉每个类别的特定挑战。研究团队认识到,针对不同轨道需要专门设计的评估标准,就像不同类型的艺术作品需要不同的评判标准一样。
团队为每个轨道设计了专门的评估提示,确保评估能够针对性地关注该轨道的核心挑战。想象力轨道的评估重点是模型是否成功合成了描述的新颖或超现实概念,奖励对想象创意的创造性和连贯诠释。实体轨道基于对特定命名真实世界实体的准确渲染进行对齐评分,包括它们的关键定义特征和上下文。
文字渲染轨道采用严格的评分标准,专注于可读性、拼写准确性以及指定文字在图像中的精确定位。风格轨道指导VLM评估生成图像对明确请求的艺术或摄影风格的忠实度,检查特征技术。情感轨道的评估集中于图像是否通过颜色、光线和主体表情等视觉线索有效传达了指定的情绪、情感或氛围。
构图轨道的VLM评估强调验证对象的空间排列、它们的相对位置、颜色外观以及文本规定的正确对象计数。长文本轨道测量模型从复杂多句GCoT提示中融入高密度细节的能力。
每个生成的图像,VLM都会提供一句话的理由说明和基于相应轨道特定标准的1分(极差对齐)到10分(完美对齐)的评分。这种针对性方法使得能够更精确和有意义地测量模型在每个不同类别中的能力。
除了对齐度评估,PRISM-Bench还采用统一的美学评估。与对齐度指标不同,图像美学评估在所有七个轨道中使用单一的统一指令集。这是因为美学质量——包括光线、色彩和谐、细节和整体视觉吸引力等因素——是独立于特定提示内容的通用属性。VLM为每张图像分配一句话理由和从1分(极低质量)到10分(专业质量)的美学评分。
通过系统性地将此协议应用于领先闭源模型和开源模型生成的图像,研究团队收集了全面的结果。每个模型在每个轨道上的表现被报告为相应100个提示的平均对齐分数和美学分数。这两个指标的平均值代表模型在该轨道上的综合表现,所有7个轨道的总体平均分数代表模型的最终表现,提供了当前T2I生成状态的清晰且可操作的概览。
六、震撼的测评结果:揭示AI绘画的真实水平
研究团队对19个先进图像生成模型进行了全面测评,结果既令人印象深刻又发人深省。这些模型包括最新的闭源商业模型如Gemini2.5-Flash-Image和GPT-Image-1,以及顶级开源模型如Qwen-Image、SEEDream 3.0和FLUX系列。
整体表现方面,闭源模型确实展现了明显的优势。GPT-Image-1以86.3分的总分位居榜首,紧随其后的是Gemini2.5-Flash-Image的85.3分。这两个模型在几乎所有评估轨道上都超越了其他竞争对手,证明了大型科技公司在AI绘画领域的技术积累和资源投入确实产生了显著效果。
然而,开源模型的表现也不容小觑。以Qwen-Image为首的竞争性阶梯正在形成,虽然与顶级模型仍有明显的性能差距,但这些模型代表了开源社区的重大飞跃。HiDream-I1-Full和FLUX.1-Krea-dev也取得了优异成绩,表明该领域正在快速进步。模型系列内部的演进也很明显,SDXL相比SD1.5显示出实质性改进,而更新的SD3.5-Large进一步缩小了与顶级模型的差距。
分轨道分析揭示了更多有趣的发现。在想象力轨道上,Gemini2.5-Flash-Image以88.6分大幅领先,GPT-Image-1以86.4分紧随其后。这表明领先闭源模型在创意理解和诠释方面具有更高级的能力。Qwen-Image的表现也很出色,但像SD1.5这样的老模型表现很差,经常生成普通或扭曲的图像,无法捕捉提示的想象精髓。
实体轨道上,GPT-Image-1凭借88.2分在这一领域表现卓越,展示了其强大的内部知识库和高保真渲染能力。Gemini2.5-Flash-Image和SEEDream 3.0也表现良好。这个轨道对世界知识基础较弱的模型来说很有挑战性,突出了大规模高质量训练数据对于准确真实世界描绘的重要性。
文字渲染轨道的结果最为令人关注,因为它对几乎所有T2I模型来说都是一个重大挑战。该基准证实了这一点,这个类别在所有轨道中获得了最低的整体分数。值得注意的是,像Bagel和JanusPro这样的自回归模型在这个轨道上表现很差,突出了自回归架构在文字渲染任务中的内在局限性。即使是表现最好的GPT-Image-1,在这个轨道上也只获得了74.5分,显示出即便是最先进的模型在这个基础能力上仍有很大改进空间。
风格轨道上,GPT-Image-1表现出卓越的性能,获得了93.1分。大多数现代模型在这个轨道上表现相对较好,对请求风格显示出高保真度。这些模型的高分表明,相比文字渲染等其他任务,捕捉风格精髓的能力更加成熟。
情感轨道展现了顶级模型在捕捉情绪和氛围方面的非凡能力。Gemini2.5-Flash-Image以92.1分的出色表现领先,GPT-Image-1和Qwen-Image紧随其后。值得注意的是,FLUX.1-dev在这个类别中获得了最高的美学分数,表明其生成的图像在视觉传达情感方面特别有效,即使提示对齐度略低。
构图轨道上,GPT-Image-1以92.8分的高分大幅领先,充分展示了其解析和执行复杂空间指令的能力。Gemini2.5-Flash-Image以90.5分紧随其后。顶级开源模型在这个领域具有很强竞争力,Qwen-Image的得分几乎与Gemini2.5-Flash-Image相同,表明复杂构图理解方面的差距正在缩小。HiDream-I1-Full和FLUX.1-dev等模型也展现了强大的构图能力,顶级表现者之间的小差异表明构图控制正在成为现代图像生成系统的一项成熟能力。
长文本轨道的评估结果清楚地区分了顶级模型。Gemini2.5-Flash-Image获得了最高分81.1分,GPT-Image-1和SEEDream 3.0也表现相对较好。然而,与其他轨道相比,所有模型的整体分数都明显较低,表明在遵循复杂多层指令生成高质量图像的能力方面还有很大改进空间。这突出了FLUX-Reason-6M旨在解决的推理差距问题。
七、中文能力测试:意外的发现
研究团队还专门创建了PRISM-Bench-ZH来评估模型处理中文提示的能力,结果揭示了一些意想不到的发现。GPT-Image-1以87.5分确立了其主导地位,在想象力、实体、风格、情感和构图等大多数轨道上始终领先,展示了在响应中文提示时的卓越创意诠释、知识基础和空间排列能力。
SEEDream 3.0和Qwen-Image展现了强大的竞争力,在所有轨道上都表现出色,经常与领导者表现接近。特别值得注意的是SEEDream 3.0和Qwen-Image在文字渲染方面的表现,这与英文文字生成中观察到的普遍弱点形成鲜明对比。其中,SEEDream 3.0和GPT-Image-1共享最高平均分,SEEDream 3.0获得最高美学分数,表明其具有渲染高质量中文字符的能力。
这些模型的强大表现验证了基准设计中使用文化适应性中文提示的有效性,并突出了处理中文字体方面的重大进展。研究团队展示了不同模型在中文文字渲染方面的具体例子,可以看到GPT-Image-1在文字的清晰度和整合性方面表现最佳,而其他模型虽然能够生成中文字符,但在精确度和自然融入画面方面仍有改进空间。
与英文测试结果一致的是,长文本轨道仍然是所有模型面临的最大挑战。虽然GPT-Image-1在这个类别中再次领先,但普遍较低的分数突出了理解和合成冗长、多面向中文指令的实质性障碍。这进一步强调了像FLUX-Reason-6M这样专注于推理的数据集对于解决现有差距和训练下一代真正智能T2I模型的迫切需要。
八、深远影响:改变AI绘画的游戏规则
这项研究的意义远远超出了单纯的技术突破,它为整个AI绘画领域设立了新的发展方向和评价标准。从数据集规模来看,FLUX-Reason-6M耗费的15000个A100 GPU天计算资源,使其可能成为成本最高的开源数据集,为开源社区提供了以前只有大型工业实验室才能获得的宝贵资源。
在技术创新方面,生成链式思维(GCoT)的概念彻底改变了AI学习绘画的方式。这种方法不仅教会模型"画什么",更重要的是让模型理解"为什么这样画",这种深层推理能力的培养将AI绘画从简单的图像复制提升到了真正的艺术创作层面。未来基于这种数据集训练的模型将具备更强的创造性和逻辑性,能够处理更加复杂和抽象的创作要求。
评估标准的革新同样具有深远意义。PRISM-Bench建立的精细化、多维度评测体系,使用先进视觉语言模型作为人类判断代理的方法,为整个AI绘画领域提供了更加科学和全面的能力评估工具。这种评估方法的出现,将推动整个行业从追求简单的视觉效果转向追求真正的艺术创作能力。
对于开源社区来说,这项研究的公开发布具有里程碑意义。完整的数据集、评测基准和评估代码的开放,大大降低了AI绘画研究的准入门槛。世界各地的研究者现在都能够基于这个强大的基础开发更先进的模型,加速整个领域的发展进程。这种开放创新的模式将有助于缩小开源模型与闭源商业模型之间的性能差距。
从实际应用角度来看,这项研究揭示的技术方向将深刻影响未来AI绘画工具的发展。具备推理能力的AI绘画模型将能够更好地理解用户的创作意图,处理更加复杂的场景描述,并在创作过程中展现出更强的逻辑一致性和艺术表现力。这将极大地扩展AI绘画的应用范围,从简单的图片生成扩展到复杂的创意设计、教育培训、娱乐内容制作等众多领域。
特别值得注意的是,这项研究对文字渲染这一长期技术难题的关注,一旦在未来版本中得到有效解决,将开启全新的应用可能。能够准确生成包含文字的图像对于广告设计、教育材料制作、多媒体内容创作等领域具有巨大价值。
说到底,这项来自香港大学团队的研究不仅仅是技术层面的进步,更是AI绘画领域发展理念的重大转变。它从关注单纯的图像质量转向追求深层的创作推理能力,从封闭的商业竞争转向开放的协作创新,从简单的功能实现转向系统的能力培养。这种转变将推动整个AI绘画领域向着更加智能、更加实用、更加贴近人类创作思维的方向发展。
研究团队在论文中坦承,即便是最先进的模型在面对复杂任务时仍有显著改进空间,这种诚实的态度和持续改进的承诺,为整个AI绘画领域的健康发展指明了方向。未来,我们可以期待基于这项研究成果开发出的新一代AI绘画工具,将真正实现从"能画"到"会画",从"模仿"到"创造"的跨越。对于每一个对AI艺术创作感兴趣的人来说,这项研究标志着一个激动人心的新时代的开始。有兴趣深入了解技术细节的读者,可以通过arXiv:2509.09680v1查阅完整的研究论文,或访问项目的GitHub页面和Hugging Face数据集页面获取相关资源。
Q&A
Q1:FLUX-Reason-6M数据集有什么特别之处?为什么要花这么大代价制作?
A:FLUX-Reason-6M是全球首个专门训练AI绘画推理能力的大规模数据集,包含600万张高质量图像和2000万条双语描述。它的特别之处在于引入了"生成链式思维"技术,不仅告诉AI画什么,还详细解释为什么这样画。研究团队花费15000个A100 GPU天的计算资源,是因为传统数据集只能让AI模仿,而这个数据集能教会AI像人类艺术家一样思考创作过程。
Q2:PRISM-Bench测评结果显示哪些AI绘画模型表现最好?
A:测评结果显示GPT-Image-1以86.3分位居第一,Gemini2.5-Flash-Image以85.3分紧随其后。开源模型中Qwen-Image表现最佳。有趣的是,所有模型在文字渲染方面都表现较弱,而在风格模仿和构图安排方面相对较强。这说明AI绘画技术在不同能力维度上发展并不均衡,仍有很大改进空间。
Q3:普通用户如何从这项研究中受益?
A:这项研究的开源发布将推动整个AI绘画领域的技术进步,普通用户很快就能体验到更智能的AI绘画工具。未来的AI将能更好理解复杂创作要求,生成逻辑更合理、细节更丰富的图像。特别是在处理包含文字的图像创作、复杂场景构图等方面会有显著改善,让AI真正成为每个人都能使用的智能创作助手。
好文章,需要你的鼓励
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。
谷歌DeepMind团队开发的GraphCast是一个革命性的AI天气预测模型,能够在不到一分钟内完成10天全球天气预报,准确性超越传统方法90%的指标。该模型采用图神经网络技术,通过学习40年历史数据掌握天气变化规律,在极端天气预测方面表现卓越,能耗仅为传统方法的千分之一,为气象学领域带来了效率和精度的双重突破。