微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 SenseFlow:香港科技大学团队突破性提升大规模文本生成图像模型的高效蒸馏技术

SenseFlow:香港科技大学团队突破性提升大规模文本生成图像模型的高效蒸馏技术

2025-06-06 09:18
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-06 09:18 科技行者

在人工智能图像生成领域的最新突破中,一支由香港科技大学的Jun Zhang教授领导、来自香港科技大学、SenseTime Research、清华大学和香港中文大学的联合研究团队开发了一种名为"SenseFlow"的创新技术。这项研究已于2025年5月31日提交至arXiv(arXiv:2506.00523v1),针对如何更高效地蒸馏大规模文生图模型提出了全新解决方案。

想象一下,你有一位厨艺精湛的大厨朋友(大型扩散模型),他能做出美味佳肴,但每次都需要几十个繁琐步骤和几小时的烹饪时间。而SenseFlow就像是一本神奇食谱,让你只需4个简单步骤就能复制出几乎相同品质的美食,大大节省时间和精力。

近年来,基于扩散和流匹配的文本到图像生成模型取得了惊人进展,如Stable Diffusion(SD)1.5、SDXL、SD 3.5和FLUX等。这些模型能生成高质量图像,但需要执行多个去噪步骤(通常是几十步到上百步),消耗大量计算资源和时间。模型规模越大,生成过程就越耗时,这严重限制了它们在实际应用中的便捷性。

为解决这个问题,研究人员开发了各种"蒸馏"方法,试图将复杂模型的能力压缩到只需几步就能运行的简化版本中。其中,分布匹配蒸馏(DMD)系列方法在蒸馏标准扩散模型(如SD 1.5和SDXL)方面表现出色。然而,当应用于更大规模、基于流匹配的模型(如SD 3.5 Large和FLUX.1 dev)时,这些方法常常面临收敛困难和训练不稳定等问题。

这就是SenseFlow登场的地方。研究团队首先深入分析了为什么现有DMD方法在大模型上表现不佳,然后提出了三个关键创新来解决这些问题:隐式分布对齐(IDA)、段内引导(ISG)以及基于视觉基础模型的判别器。让我们一起深入了解这项突破性研究的细节。

一、理解问题:为什么现有方法在大模型上失效?

想象你正在学习一位世界级艺术家的绘画技巧。传统的学习方法(如DMD)在学习普通画家的技巧时表现良好,但遇到达芬奇或毕加索这样的大师时就力不从心了。为什么会这样?

研究团队发现,在现有的分布匹配蒸馏(DMD)方法中,存在三个关键瓶颈:

首先是稳定性问题。当应用到更大规模的模型时,即使使用两时间尺度更新规则(TTUR)这种在小模型中有效的策略,训练过程也经常无法稳定收敛。想象你在走钢丝,模型越大,钢丝就越细越不稳定,即使你放慢速度(使用TTUR),仍然很容易失去平衡。

其次是采样效率问题。传统DMD方法使用均匀分布的时间步来进行训练和推理,没有考虑到在去噪轨迹中不同时间步的重要性是不同的。这就像按固定间隔对一条山路进行采样,但实际上弯道和陡坡需要更密集的采样点,而平直路段则可以稀疏采样。

第三是判别器设计过于简单。现有方法中的判别器缺乏通用性,难以适应不同规模和架构的模型。这就像用同一把尺子去测量从小溪到大海的各种水体,显然不够灵活和精确。

二、SenseFlow的核心创新:解决大模型蒸馏的三大难题

针对上述三个关键瓶颈,研究团队提出了三个创新解决方案,形成了SenseFlow的核心框架。

### 隐式分布对齐(IDA):让训练更稳定

在分布匹配蒸馏中,有两个关键组件:生成器和假分布网络。生成器负责生成图像,而假分布网络则负责估计生成器分布的得分函数。虽然它们通过不同的目标函数进行优化,但长期目标高度一致:都是为了建模一个接近真实数据分布的生成器分布。

然而,在实践中,由于假分布网络需要追踪一个快速变化且不可靠的信号(生成器分布),特别是在早期训练阶段,这种追踪过程容易不稳定,导致拟合不足、漂移或梯度不对齐,尤其是当模型规模较大时。

为解决这个问题,研究团队引入了隐式分布对齐(IDA)机制。具体来说,在每次生成器更新后,他们部分地将假分布网络的参数向生成器方向对齐:

φ ← λ · φ + (1 - λ) · θ

这里φ是假分布网络的参数,θ是生成器的参数,λ是一个控制对齐程度的超参数(默认设为0.97)。

这就像两个登山者在攀登同一座山峰,但走不同的路线。IDA相当于定期让走得更慢的登山者(假分布网络)参考走得更快的登山者(生成器)的路线,以避免迷路或走入死胡同。这种方法允许我们将教师模型稳定的监督信号间接传播到假分布网络,防止它被早期训练中的漂移目标误导。

实验表明,将IDA与相对较小的TTUR比率(如5:1)结合使用,就能显著提高训练稳定性和整体性能。研究结果显示,即使在高TTUR比率(如20:1)下,没有IDA的训练曲线仍然表现出严重的振荡,而加入IDA后,训练过程变得更加平稳。

### 段内引导(ISG):重新定位时间步重要性

传统DMD2方法的另一个局限是固定时间步监督。在典型设置中,生成器只在少数预定义的时间步(例如,τ ∈ {249, 499, 749, 999})上进行训练。这种固定设计引入了两个主要问题:

首先,生成器无法从轨迹的其余部分获得训练信号,导致对完整轨迹的泛化能力较差;其次,每个监督时间步的有效性高度依赖于它在轨迹中的位置——相邻时间步可能表现出截然不同的预测误差。

为了更好地理解扩散轨迹中不同时间步的局部可靠性,研究团队可视化了1000个均匀分布时间步的归一化一步重建损失。他们发现,随着时间t的增加,去噪误差ξ(t)并不是单调增长的,而是表现出明显的局部振荡,特别是在区间t ∈ [0.8, 1.0]内。这表明即使同一区域内的相邻时间步,其去噪精度也可能有显著差异,这意味着它们对整体去噪过程的相对"重要性"并不均匀。

针对这个问题,研究团队提出了段内引导(ISG)方法,将教师模型的去噪重要性重新定位到一小组选定的粗时间步中。对于每个粗时间步τi,他们构建了一个段内引导,方法是随机采样一个中间时间步t1 ∈ (τi-1, τi)。

具体操作流程是:教师模型通过从τi到t1的去噪生成xt1,然后生成器继续从t1到τi-1的去噪过程,产生引导目标xtar。同时,生成器也直接从τi到τi-1生成xτi-1。然后应用L2损失来最小化xg和xtar之间的差距,其中梯度仅通过生成器路径传播。

这相当于在蹦极过程中,不仅关注起点和终点,还在中途设置一个检查点,确保整个跳跃过程都遵循最佳轨迹。这使得每个锚点能够更好地吸收其周围区段的去噪知识,从而成为其局部去噪行为的更具代表性的代理。

实验结果表明,添加ISG后,模型在各个方面都有显著提升,包括图像质量、文本-图像对齐度和人类偏好质量。甚至在早期训练阶段(仅3000次迭代),使用ISG训练的模型也能产生视觉上更一致和语义上更准确的图像。

### 基于视觉基础模型的判别器:提供更强大的语义引导

为了进一步提升生成质量,研究团队设计了一个更通用和强大的判别器,它建立在视觉基础模型(如DINOv2和CLIP)之上,在图像域中运行并提供更强的语义引导。

具体来说,判别器D通过整合固定的预训练视觉基础模型骨干fVFM与可学习的判别器头h来设计。给定输入图像x,VFM骨干提取多层语义特征z = fVFM(x),这些特征随后由判别器头处理以预测x的真实性。此外,判别器还整合了CLIP编码的特征c = fCLIP(text)和来自真实图像的参考特征r = fVFM(x),以额外注入文本-图像对齐信息。

这个过程可以表示为:D(x) = h(fVFM(x), c, r)。这些特征增强了判别器评估输入图像的真实性和语义一致性的能力。判别器使用铰链损失进行训练,鼓励它为真实图像分配高分,为生成图像分配低分,从而稳定对抗训练过程。

在对抗训练目标中,为了鼓励生成器产生能最大化判别器输出的图像,同时考虑到从较大时间步采样时预测的x0往往不如从较小时间步预测的准确,研究团队引入了一个加权机制。具体来说,他们计算当前时间步噪声尺度的平方作为标量加权对抗信号,即ω(t) = σt?,并相应地缩放对抗损失。

这种设计确保生成器在噪声大、高时间步阶段更多地关注DMD梯度(此时对抗反馈可能不可靠),而在更清晰、低噪声步骤中更多地受益于GAN引导。实践证明,这提高了训练稳定性和整体样本质量。

预训练视觉骨干的使用引入了丰富的语义先验,使判别器能够更好地捕捉图像级质量和细粒度结构。通过聚合时间步感知的对抗信号,这种设计产生了稳定高效的训练,并带来了卓越的视觉质量。

三、实验设置与评估:SenseFlow如何在实践中表现?

为了全面评估SenseFlow的性能,研究团队进行了广泛的实验,涵盖不同规模和架构的模型。

### 数据集与评估指标

遵循DMD2的做法,实验使用LAION-5B数据集的过滤子集进行训练,选择美学分数至少为5.0且短边至少为1024像素的高质量图像。评估则使用COCO 2017验证集的5000张图像,每张图像与产生最高CLIP分数的文本注释配对,形成一个稳健的文本-图像验证集。他们还使用T2I-CompBench评估组合生成能力,该基准涵盖属性绑定、对象关系和复杂组合。

评估指标包括FID和Patch FID(以衡量与教师模型生成图像的差距,分别记为FID-T和Patch FID-T)、CLIP分数(评估文本-图像对齐度)以及一些最近提出的指标,如HPS v2、ImageReward和PickScore(提供更全面的模型性能评估)。

### 实验结果

研究团队在三个具有代表性的大规模文本到图像模型上进行了广泛实验:FLUX.1 dev(12B参数)、Stable Diffusion 3.5 Large(8B参数)和SDXL(2.6B参数),涵盖不同模型大小和生成范式。

COCO-5K数据集上的实验结果表明,SenseFlow在各种指标上都优于之前的蒸馏基线。在SD 3.5上,"Ours-SD 3.5"和"Ours-SD 3.5 (Euler)"在所有指标上都达到了最佳和次佳成绩,甚至在HPSv2、PickScore和ImageReward方面超过了教师模型。在SDXL上,SenseFlow在HPSv2、PickScore和ImageReward方面排名第一,文本-图像对齐度方面略有下降。对于FLUX.1 dev,SenseFlow模型再次在多个指标上表现出色,特别是在"Ours-FLUX (Euler)"配置下。

在T2I-CompBench上的结果进一步证明了SenseFlow的优势。"Ours-SD 3.5 (Euler)"在颜色、形状、纹理、空间、非空间一致性以及"Complex-3-in-1"指标的五个维度上实现了所有评估方法中的最佳性能。这些结果突出了SenseFlow方法的细粒度保真度和卓越的属性对齐能力。"Ours-SDXL"也在SDXL蒸馏的六个评估指标中的五个上实现了最佳性能。

定性比较结果显示,SenseFlow生成的图像具有更锐利的细节、更好的肢体结构和更连贯的光照动态,与教师模型和基线相比。值得注意的是,"Ours-SD3.5"和"Ours-FLUX"在涉及精细纹理、人脸和场景光照的挑战性提示下产生了更忠实和逼真的生成效果。

### 消融研究

为了评估SenseFlow各组件的有效性,研究团队进行了一系列消融研究。

对于隐式分布对齐(IDA),他们比较了不同TTUR比率下有无IDA的FID曲线。结果表明,没有IDA的设置("TTUR(5)"、"TTUR(10)"和"TTUR(20)")表现出严重振荡,表明不稳定的训练动态和假分布的不可靠优化——即使在20:1的高比率下也是如此。相比之下,结合IDA的设置("IDA+TTUR(5)"和"IDA+TTUR(10)")展示了显著更平滑和更稳定的FID降低,凸显了IDA在稳定训练和改善收敛方面的能力。

对于段内引导(ISG),他们比较了在Stable Diffusion 3.5 Large上有无ISG的模型。结果表明,添加ISG导致所有方面的显著改进,包括图像质量、文本-图像对齐和人类偏好质量。定性比较显示,在训练3000次迭代后(此时生成器在10:1 TTUR比率下仅更新了300步),使用ISG训练的模型产生了视觉上更一致和语义上更准确的图像,而没有ISG的模型则出现明显的颜色偏移和图像保真度下降。

对于基于VFM的判别器,他们在SDXL骨干上进行了比较实验。结果表明,使用VFM判别器的模型在多个评估指标上实现了更好的人类偏好对齐和美学质量,证明了VFM判别器为生成器提供了更强的视觉先验。

四、SenseFlow的意义与未来展望

SenseFlow代表了文本到图像扩散模型蒸馏领域的重要进步,特别是针对大规模基于流的模型。通过引入隐式分布对齐和段内引导,以及结合基于视觉基础模型的判别器,这一方法能够实现稳定高效的4步生成,同时保持高质量的视觉效果。

研究团队的SD 3.5基础SenseFlow在所有评估的蒸馏方法中实现了最先进的4步生成性能,证明了该方法在大规模模型上的有效性。此外,SenseFlow在基于扩散的模型(如SDXL)和基于流匹配的模型(如SD 3.5 Large和FLUX.1 dev)上都表现出色,展示了其通用性和适应性。

虽然SenseFlow在4步生成方面取得了显著成功,但在更激进的设置(如2步或1步)下的性能以及使用替代视觉骨干(如DINOv2、AM-RADIO、MAE)时的表现仍有待探索。未来的研究可能会关注这些方向,进一步推动快速高质量图像生成的边界。

同时,像其他生成模型一样,SenseFlow也引发了对潜在滥用和劳动力替代的担忧,强调了负责任部署的重要性。研究团队计划在未来工作中引入明确的使用指南和负责任的部署实践,包括详细的用户手册,以促进技术的道德和透明使用。

总的来说,SenseFlow为大规模文本到图像模型的高效蒸馏提供了一个强大的框架,有望促进这些模型在各种应用场景中的更广泛采用,从教育到数字内容创作,从科学可视化到辅助设计工具。随着计算资源的限制不断减少,这种技术的发展将使高质量图像生成变得更加普及和实用。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-