2025年5月,西湖大学的孙鹏、浙江大学的江毅以及西湖大学的林涛共同发表了一篇名为《统一连续生成模型》(Unified Continuous Generative Models)的研究论文。这篇发表在arXiv预印本平台(arXiv:2505.07447v1)上的研究,为人工智能图像生成领域带来了重要突破。感兴趣的读者可以通过https://github.com/LINs-lab/UCGM访问他们开源的代码。
一、连续生成模型:AI绘画的不同流派
想象一下,如果AI绘画是一门艺术,那么现在有两大流派:一种是"多步流派",它像一位谨慎的画家,需要从模糊草图逐步细化,通常需要数十甚至上千步才能完成一幅精美画作;另一种是"少步流派",它如同天才速写师,只需几笔就能勾勒出惊艳作品。前者代表是扩散模型(Diffusion)和流匹配模型(Flow-matching),后者则以一致性模型(Consistency)为主要代表。
这两大流派虽然各有千秋,但长期以来被视为完全不同的技术路线,研究人员分别为它们开发独立的算法和方法。这种分裂状态造成了两大问题:一是缺乏统一理解,导致各流派的进步无法互相借鉴;二是算法兼容性差,为一种模型设计的方法往往无法应用于另一种模型。
西湖大学和浙江大学的研究团队提出的统一连续生成模型(UCGM)就像是一位艺术理论家,找到了连接这两大流派的共通原理,建立了一个既能训练出多步绘画大师,也能培养少步速写天才的统一框架。
二、UCGM:连接AI绘画流派的桥梁
UCGM框架由两部分组成:统一训练器(UCGM-T)和统一采样器(UCGM-S)。这就像是一套完整的艺术教学系统,既有训练方法,也有创作技巧。
统一训练器:一套教学大纲适用所有学生
统一训练器基于一个参数化为λ∈[0,1]的一致性比率(consistency ratio)的训练目标。这就像艺术学校的教学大纲可以根据学生特点调整侧重点:
当λ接近0时,训练出的模型更接近多步流派的特性,适合细致入微的创作; 当λ接近1时,模型则向少步流派靠拢,专长于快速成图。
更妙的是,这套统一训练方法不受限于特定的"绘画风格"(噪声调度),无需为每种风格重新设计教学方法。研究团队还设计了"自助增强"技术,这就像给学生配备了更高级的绘画工具,显著提高了训练效率和模型质量。
统一采样器:适合所有艺术风格的创作技巧
统一采样器则是一套能与各种模型兼容的采样算法,无论是用UCGM-T训练的模型,还是其他流派训练出的模型,都能受益。它特别引入了两个创新:
估计外推:这就像艺术家预判下一笔的效果,大大提高了生成质量同时减少了所需步骤。 随机性引入:为生成过程增加一定随机因素,就像画家的即兴发挥,增加作品多样性。
三、UCGM的理论基础:统一数学框架
在UCGM的技术核心,研究团队建立了一个基于传输系数{α(·), γ(·), α(·), γ(·)}和参数λ, ρ, ν的数学框架。这些看似复杂的符号背后,是一个精妙的统一理论。
想象这样一个比喻:如果AI图像生成是一次从简单到复杂的旅程,那么:
α(t)和γ(t)决定了在旅途中每个时间点你所处的位置
α(t)和γ(t)指导你应该往哪个方向走
λ决定你是走"直达快车"还是"多站慢车"
ρ控制旅途中的随机探索程度
ν则决定采用哪种导航算法
通过不同的参数组合,这个统一框架可以表示所有主流的连续生成模型。例如,当我们选择特定的参数配置时,UCGM就变成了扩散模型;换一组参数,它又变成了流匹配模型;再换一组,它就成了一致性模型。这就像一个变形金刚,能根据需要变身成不同的角色。
四、实验成果:UCGM的显著优势
研究团队在多个数据集上进行了大量实验,特别是在ImageNet-1K的256×256和512×512分辨率图像生成任务上,证明了UCGM的强大能力。
在多步生成任务上,UCGM-T训练的模型在ImageNet 256×256上使用675M参数的扩散Transformer模型,能够在20步采样中达到1.30的FID分数(FID越低表示生成质量越高),而在少步场景下,同样的模型架构在仅2步采样时也能达到1.42的FID。
更令人印象深刻的是,当UCGM-S应用于预训练模型时,能显著提升性能。例如,将UCGM-S应用于一个在250步采样下达到1.26 FID的预训练模型,仅需40步就能将FID提升至1.06。这就像是一位艺术顾问,能够指导已有的艺术家用更少的笔触创作出更精美的作品。
实验还表明,UCGM在少步生成场景下表现尤为出色。在512×512分辨率上,UCGM训练的模型在仅使用2步采样时就能达到1.75的FID,超越了许多专门为少步生成设计的模型。这相当于一位速写大师能在几秒钟内勾勒出惊艳的画作。
五、UCGM的关键创新点
自助增强技术:训练与采样的双重提升
UCGM引入的自助增强技术是一大创新。在训练时,这种技术通过修改目标分数函数,使模型能够生成高质量样本而无需依赖计算昂贵的无分类器引导(CFG)技术。这就像是让学生在练习时就掌握了高级技法,毕业后自然能创作出色作品。
在采样时,自助增强则通过估计外推等方法显著提升生成质量。研究发现,当外推比率κ在[0.2, 0.6]范围内时,效果最佳,这能在保持质量的同时大幅减少所需步骤。
λ参数的魔力:一个旋钮控制多种可能
实验结果显示,λ参数是控制模型行为的关键。当λ=1时,模型在极少步骤(如2步)下达到最佳性能;而λ=0.5时,则在中等步数(如16步)时表现最好。这就像一个可调节的艺术风格旋钮,能根据需要在精细与速度之间找到最佳平衡点。
研究团队还通过可视化中间生成样本发现:λ=1的模型在生成过程早期就能达到高视觉逼真度,而λ=0.5的模型则在中后期才达到高质量。这种洞察帮助用户根据实际需求选择最适合的模型配置。
六、UCGM的广泛适用性
UCGM不仅适用于特定模型或数据集,而是展示了惊人的通用性。研究表明,它能与各种传输类型(如线性、三角流、随机等)兼容,适应不同的模型架构(如DiT、UViT、EDM2-UNet等)和各种自动编码器(SD-VAE、VA-VAE、E2E-VAE等)。
特别值得一提的是,UCGM-S能无缝地应用于使用其他方法训练的预训练模型,这就像是一种通用的艺术提升技术,能让各种风格的艺术家都受益。例如,它能将一个需要250步采样的DDT-XL/2模型优化到仅需100步,同时还略微提升了生成质量。
七、结语:UCGM对AI生成领域的深远影响
西湖大学和浙江大学研究团队的UCGM框架不仅是技术上的创新,更是连续生成模型理解和应用方式的范式转变。通过建立统一的数学框架,UCGM不仅打破了不同生成模型流派间的壁垒,还为未来研究提供了更广阔的视角。
对于普通用户来说,UCGM意味着更快速、更高质量的AI图像生成。无论是需要极少步骤的快速预览,还是追求极致质量的精细生成,UCGM都能提供相应的解决方案。这种灵活性使AI图像生成技术能更好地适应各种实际应用场景,从创意设计到内容创作,再到科学可视化。
随着UCGM代码的开源,我们可以期待看到更多基于此框架的创新应用和进一步改进。这项研究不仅推动了AI生成模型的技术进步,也为我们思考不同AI技术间的内在联系提供了宝贵启示。
归根结底,UCGM向我们展示了,看似不同的技术路径背后往往有共通的原理。通过发现并利用这些共性,我们能够构建更强大、更灵活的AI系统,为人工智能的未来发展开辟新的可能。
好文章,需要你的鼓励
现代大语言模型就像一栋拥有数百个房间的豪华大厦,每个房间(或称为"层")都执行特定的功能,共同协作完成复杂的语言理解和生成任务。然而,这些模型的规模已经变得如此庞大,以至于只有拥有高端计算资源的机构才能负担得起它们的运行成本。这就像一辆耗油量极大的豪华跑车,普通人负担不起它的燃料费用。
想象一下,当你在解答一道复杂的数学题时,你不仅需要给出答案,还需要详细解释每一步推导的理由,不能有任何逻辑跳跃或假设——这就是形式化数学推理的严格要求。
想象一下日常生活中我们使用的语音助手,比如Siri或ChatGPT。它们通常是这样工作的:你问一个问题,它回答,然后安静地等待你的下一个指令。这就像是一个只会被动回应的服务员,永远等待你的呼唤。而Voila团队认为,真正高级的AI助手应该更像一个时刻准备着的好朋友或队友,能够自然地融入你的生活节奏中。
想象一下,你正在参加一场料理比赛,有两位评委。第一位评委只给你一个分数,而第二位评委会详细解释你的菜品在口感、创意和技巧上的表现如何,然后才给出最终评价。显然,第二位评委的反馈对于你改进厨艺更有帮助。伊利诺伊大学研究团队正是秉持这一理念,开发了能像第二位评委那样工作的AI评估系统。