这项由香港科技大学韩涛、上海人工智能实验室徐望寒、龚俊超、乐晓宇,以及悉尼大学周鲁平等研究者组成的国际团队的研究成果,发表于2025年9月12日的arXiv预印本平台(论文编号:arXiv:2509.10441v1)。感兴趣的读者可以通过https://github.com/taohan10200/InfGen访问项目代码和演示。
目前的AI图像生成就像用老式相机拍照一样,每次只能生成固定尺寸的图片。当你想要更高分辨率的图像时,系统就需要花费大量时间进行复杂计算,生成一张4K图片往往需要超过100秒的等待时间。这种限制就好比你有一台打印机,每次只能打印A4纸大小的照片,如果想要更大尺寸,就必须重新设置整个打印系统。
研究团队发现了这个问题的根本原因:现有的扩散模型在生成高分辨率图像时,计算需求会随着分辨率的平方而增长。也就是说,分辨率提高一倍,计算时间可能增长四倍,这种指数级的增长使得生成高分辨率图像变得极其缓慢和昂贵。
为了解决这个难题,研究团队提出了一个巧妙的解决方案——InfGen。这个方法的核心思想就像是重新设计了图像生成的流水线。传统方法就像是一个厨师必须根据不同餐具尺寸重新烹饪整道菜,而InfGen的方法更像是先烹饪出一份精华浓缩的菜品,然后用一个特殊的"放大器"将其完美地适配到任何尺寸的餐具中。
具体来说,InfGen将图像生成过程分为两个阶段。第一个阶段仍然使用现有的扩散模型生成一个固定尺寸的"内容表示",这个表示就像是照片的精华版本,包含了所有重要的视觉信息。第二个阶段则使用一个全新设计的生成器,将这个固定尺寸的表示转换成任意分辨率的最终图像。这个生成器采用了基于变换器的架构,通过交叉注意力机制来处理不同分辨率的图像生成需求。
一、技术创新的核心思路
InfGen的设计理念可以用一个生动的比喻来理解。想象你是一位建筑师,传统的方法要求你为每一种不同大小的房子都重新设计完整的建筑图纸和施工方案。而InfGen的方法则是先设计一个包含所有核心要素的"建筑基因",然后用一个智能的"建筑机器人"根据不同的地块大小,将这个基因自动扩展成相应尺寸的完整建筑。
这种方法的巧妙之处在于,它将"内容创造"和"尺寸适配"这两个原本绑定的过程完全分离开来。内容创造部分仍然由经过大量训练的扩散模型负责,确保生成内容的质量和多样性。而尺寸适配部分则由一个专门设计的轻量级生成器处理,这个生成器的核心任务就是将固定尺寸的内容表示"翻译"成任意目标分辨率的图像。
为了实现这个目标,研究团队设计了一个创新的架构。这个架构的工作原理就像是一个精密的翻译系统。系统首先将固定尺寸的潜在表示作为"关键词"和"数值",然后根据目标图像的尺寸创建相应数量的"查询令牌"。这些查询令牌就像是空白的画布块,需要从潜在表示中获取信息来填充自己。
通过多头自注意力机制,每个查询令牌都会与潜在表示进行"对话",根据相似性计算来决定应该获取哪些信息。这个过程就像是每个画布块都在向原始图像询问:"我应该画什么颜色?""我需要什么纹理?""我应该表现哪个部分的细节?"原始图像会根据每个位置的特点给出相应的答案。
二、解决位置信息的巧妙设计
在这个系统中,一个关键挑战是如何让不同尺寸的图像块正确地理解自己应该显示原始内容的哪个部分。这就像是给一群工人分配任务,每个工人负责建造建筑物的一小部分,但他们需要知道自己负责的是哪个部分,以及这个部分与整体的关系。
传统的位置编码方法就像是给每个工人一个固定的工号,但当建筑物大小发生变化时,这些工号就失去了意义。研究团队提出了一个创新的"隐式神经位置嵌入"方法,这种方法就像是给每个工人一个智能的GPS系统,无论建筑物多大,都能准确定位自己的位置和任务。
这个位置编码系统的工作过程相当巧妙。首先,系统将每个位置的二维坐标标准化到统一的尺度上,这就像是将不同大小的地图都缩放到相同比例。然后,系统将这些二维坐标转换为三维球面坐标,这种转换能够更好地捕捉空间关系,就像是从平面地图切换到地球仪视角。
接下来,系统使用傅里叶变换将这些坐标映射到高维空间,这个过程就像是给每个位置添加了丰富的"指纹信息",让系统能够区分出极其细微的位置差异。最后,一个专门训练的神经网络将这些高维特征转换为最终的位置编码,这些编码会被整合到注意力机制的查询和键值中,指导图像生成过程。
三、训练策略与数据处理
为了训练这个复杂的系统,研究团队采用了一个精心设计的策略。他们从LAION-Aesthetic数据集中选择了1000万张高分辨率图像作为训练数据,这些图像的分辨率都超过1024×1024像素。经过进一步筛选,他们获得了500万张分辨率超过2048×2048的高质量图像。
训练过程就像是教授一个学生如何将简笔画扩展成详细的艺术作品。系统首先学习如何将高分辨率图像压缩成固定尺寸的潜在表示,然后学习如何从这个表示重建出原始分辨率的图像。为了处理各种不同的图像尺寸和纵横比,训练过程中会随机裁剪图像到不同大小,让系统适应各种输出需求。
考虑到高分辨率图像训练的巨大计算开销,研究团队将训练分为两个阶段。第一阶段处理512×512到1024×1024分辨率的图像,使用32的批量大小进行50万次迭代训练。第二阶段则处理512×512到2048×2048分辨率的图像,将批量大小减少到8,进行10万次迭代训练。整个训练过程在8块A100 GPU上进行了15天。
训练的损失函数结合了多个组件,包括L1重建损失、感知损失和对抗损失。L1损失确保重建图像与原始图像在像素级别的相似性,感知损失确保高层特征的一致性,而对抗损失则通过一个PatchGAN判别器来提高图像的真实感和细节质量。
四、超分辨率外推技术
为了处理超过训练分辨率的极高分辨率需求,研究团队还开发了一个"训练无关的分辨率外推"方法。这个方法就像是一个智能的放大镜系统,能够将图像分步骤地放大到任意分辨率。
这个外推过程的工作原理相当巧妙。系统从一个64×64的潜在表示开始,首先生成一个中等分辨率的图像,比如2048×2048。然后将这个图像重新编码回潜在空间,再次应用InfGen生成器来产生更高分辨率的输出。通过这种迭代过程,系统可以逐步达到4K甚至更高的分辨率。
研究团队通过大量实验确定了每次外推的最佳缩放比例。对于64×64的潜在空间,他们建议每次缩放不超过2倍,这样可以确保生成质量的稳定性。通过多次迭代,最终分辨率可以达到原始分辨率的64倍,这意味着从512×512的基础分辨率可以扩展到超过30000×30000的超高分辨率。
五、实验结果与性能评估
研究团队进行了全面的实验来验证InfGen的性能。他们将InfGen与多个现有的高分辨率图像生成方法进行了比较,包括ScaleCrafter、Inf-DiT和UltraPixel等最新技术。
在图像质量评估方面,研究团队使用了多个标准指标,包括FID(Fréchet Inception Distance)、sFID、精确度和召回率。由于标准FID需要将图像下采样到299×299分辨率进行测试,这可能会丢失高分辨率图像的细节信息,研究团队采用了UltraPixel提出的方法,将高分辨率图像裁剪成多个299×299的补丁进行测试,用FIDp、sFIDp等指标来更准确地评估高分辨率生成性能。
实验结果显示,InfGen在各种分辨率下都显著优于现有方法。以DiT-XL/2模型为例,在3072×3072分辨率下,InfGen实现了41%的FID改善。对于SD1.5模型,在相同分辨率下获得了44%的性能提升。这些改进幅度相当可观,表明InfGen确实能够有效提升现有扩散模型的高分辨率生成能力。
更令人印象深刻的是InfGen在推理速度方面的优势。传统方法生成一张2048×2048分辨率的图像可能需要20-255秒不等,而InfGen只需要约5.4秒(包含4.9秒的扩散模型推理时间和1.9秒的InfGen解码时间)。对于4K分辨率的图像,InfGen的总用时控制在10秒以内,相比之前最快的方法提升了10倍以上的速度。
六、即插即用的通用性设计
InfGen最吸引人的特点之一是其出色的通用性。这个系统就像是一个万能的图像输出设备,可以与任何使用相同潜在空间的扩散模型无缝配合。研究团队在多个知名模型上验证了这一点,包括DiT-XL/2、SiT-XL/2、MaskDiT、MDTv2和FiTv2等。
这种即插即用的特性意味着,研究者和开发者无需重新训练他们现有的扩散模型,只需要将VAE解码器替换为InfGen,就能立即获得任意分辨率的图像生成能力。这就像是给现有的相机系统安装了一个智能镜头,立即具备了变焦和高分辨率拍摄功能。
在与现有图像标记器的对比实验中,InfGen展现了竞争性的重建性能。虽然InfGen需要处理比传统VAE更复杂的任务(从固定尺寸潜在表示生成任意分辨率图像),但其在PSNR和SSIM等重建质量指标上仍然达到了可比较的水平。这证明了InfGen在增加功能的同时,并没有牺牲基本的图像重建质量。
七、实际应用与未来前景
InfGen的应用前景相当广阔。在内容创作领域,设计师和艺术家可以先用较低分辨率快速预览和调整创意,然后一键生成高分辨率的最终作品,大大提升工作效率。在游戏和虚拟现实开发中,开发者可以根据不同设备的显示能力动态生成相应分辨率的纹理和背景,实现更好的跨平台兼容性。
在实际的文本到图像生成任务中,InfGen展现了令人满意的性能。用户可以输入文本描述,系统首先使用扩散模型在潜在空间中生成内容表示,然后由InfGen将其转换为任意分辨率的图像。整个过程保持了原始扩散模型的语义理解能力和创造性,同时获得了灵活的分辨率控制能力。
研究团队提供的可视化结果显示,即使在相同的内容表示基础上生成不同分辨率的图像,InfGen也能保持良好的语义一致性和视觉连贯性。从512×512到3072×3072的不同分辨率版本中,主要对象和场景结构保持稳定,而细节和纹理则随着分辨率的提升而变得更加丰富和清晰。
八、技术局限性与改进方向
尽管InfGen展现了出色的性能,但研究团队也诚实地指出了一些技术局限性。首先,虽然InfGen大大减少了高分辨率生成的时间,但对于超高分辨率(如8K以上)的生成,迭代外推过程仍然需要较长时间。其次,当前的训练数据主要来源于自然图像,对于某些特殊领域(如医学图像、卫星图像等)的适应性还需要进一步验证。
另外,InfGen的性能很大程度上依赖于底层扩散模型的质量。如果原始扩散模型生成的内容表示质量不高,InfGen也难以产生高质量的高分辨率输出。这意味着InfGen更多的是一个增强工具,而不是替代现有扩散模型的完整解决方案。
研究团队还注意到,在某些极端纵横比的图像生成中,InfGen可能会出现边缘效应或内容重复的问题。这主要是因为训练数据中极端纵横比的图像相对较少,导致模型在这些情况下的泛化能力有限。
说到底,InfGen代表了AI图像生成领域的一个重要进步。它成功地将"生成什么"和"以什么分辨率生成"这两个原本纠缠在一起的问题分离开来,为高分辨率图像生成提供了一个全新的解决思路。更重要的是,这种方法具有极好的通用性和实用性,可以立即提升现有系统的能力,而无需大规模的重新训练或架构调整。
虽然仍然存在一些技术挑战需要克服,但InfGen已经为AI图像生成的未来发展指明了一个有希望的方向。随着计算资源的进一步优化和算法的持续改进,我们有理由相信,任意分辨率的高质量图像生成将很快成为AI系统的标准功能,而不再是一个技术难题。对于普通用户而言,这意味着更快、更灵活、更高质量的AI图像创作体验即将到来。
Q&A
Q1:InfGen是什么?它与传统AI图像生成方法有什么区别?
A:InfGen是香港科技大学等机构开发的新型AI图像生成系统,它的创新在于将"内容生成"和"分辨率调整"分离开来。传统方法就像每次都要重新烹饪整道菜,而InfGen先制作一份"精华浓缩版",再用专门的生成器适配到任意分辨率,这样大大提高了效率。
Q2:InfGen生成高分辨率图像的速度到底有多快?
A:InfGen生成4K分辨率图像只需要10秒以内,相比传统方法的100多秒提升了10倍以上。具体来说,生成2048×2048分辨率图像约需5.4秒,比之前最快的方法UltraPixel还要快4倍。这种速度提升主要得益于避免了在高分辨率潜在空间中进行多步去噪处理。
Q3:普通用户能否使用InfGen?它对现有AI图像生成工具有什么影响?
A:InfGen具有"即插即用"特性,可以直接升级现有的扩散模型如SDXL、DiT等,无需重新训练。研究团队在GitHub上提供了代码,技术人员可以集成到现有系统中。对普通用户来说,这意味着未来的AI图像生成工具将能更快地生成任意分辨率的高质量图片。
好文章,需要你的鼓励
OpenAI团队的最新研究揭示了大语言模型产生幻觉的根本原因:AI就像面临难题的学生,宁愿猜测也不愿承认无知。研究发现,即使训练数据完全正确,统计学原理也会导致AI产生错误信息。更重要的是,现有评估体系惩罚不确定性表达,鼓励AI进行猜测。研究提出了显式置信度目标等解决方案,通过改革评估标准让AI学会诚实地说"不知道",为构建更可信的AI系统指明方向。
字节跳动AI实验室提出"逆向工程推理"新范式,通过从优质作品反推思考过程的方式训练AI进行创意写作。该方法创建了包含2万个思考轨迹的DeepWriting-20K数据集,训练的DeepWriter-8B模型在多项写作评测中媲美GPT-4o等顶级商业模型,为AI在开放性创意任务上的应用开辟了新道路。
ByteDance Seed团队开发的UI-TARS-2是一个革命性的AI助手,能够通过观看屏幕并用鼠标键盘操作电脑,就像人类一样完成各种任务和游戏。该系统采用创新的"数据飞轮"训练方法,在多项测试中表现出色,游戏水平达到人类的60%左右,在某些电脑操作测试中甚至超越了知名AI产品,展现了AI从对话工具向真正智能助手演进的巨大潜力。