一个图像生成的惊人突破:当"老技术"焕发新生
这项由中国科学院自动化研究所、中国科学院大学和ByteDance联合开发的研究于2025年5月发表在arXiv预印本平台(arXiv:2505.11196v1),论文标题为《DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling》。研究团队由袁艾、范棋航、胡雪峰、杨振恒、何冉和黄怀波组成,其中黄怀波担任通讯作者。论文代码和模型已在GitHub上开源:https://github.com/shallowdream204/DiCo
在人工智能领域,生成模型尤其是扩散模型已经成为创建高质量图像的主流技术。近年来,基于Transformer架构的扩散模型(如Diffusion Transformer,简称DiT)展示了强大的生成能力,但同时也带来了巨大的计算开销。在这个计算资源日益珍贵的时代,如何在保持高质量生成效果的同时提高模型效率,成为了一个亟待解决的问题。
想象一下,如果你是一家餐厅的主厨,你可以选择使用一套昂贵复杂的烹饪工具制作精美的菜肴,但这需要大量的时间和资源。或者,你可以回归到传统的烹饪方式,但进行创新改良,既能做出同样美味的菜肴,又能节省时间和成本。ByteDance和中国科学院的研究团队就做了类似的事情——他们没有一味追求最新的复杂技术,而是重新审视了一个被许多研究者视为"过时"的技术:卷积神经网络(ConvNets)。
一、为什么要重新审视卷积神经网络?
在深入了解这项研究之前,我们需要理解一个背景:近年来,基于自注意力(self-attention)机制的Transformer架构在各种AI任务中取得了巨大成功,包括图像生成领域。这使得传统的卷积神经网络(ConvNets)似乎显得有些"过时"。然而,ByteDance团队进行了一项有趣的发现,促使他们重新思考卷积网络的潜力。
想象你在看一幅画。当你欣赏这幅画时,你的注意力是如何分配的?大多数情况下,你可能会关注画中的某个局部区域,然后再移动到其他区域,而不是同时关注整幅画的所有细节。ByteDance团队发现,在图像生成任务中,Transformer模型中的自注意力机制也表现出类似的行为模式——虽然理论上它能够捕捉全局信息,但实际上却主要关注局部模式。
研究人员通过分析预训练的DiT模型(包括DiT-XL/2、PixArt-α和FLUX.1-dev),发现当查询一个锚点位置时,注意力主要集中在附近的空间位置上,而基本忽略了远处的位置。这意味着,在图像生成任务中,计算全局注意力可能存在大量冗余。与识别任务不同,图像生成似乎更强调局部细节和纹理的保真度,而非全局语义推理。
这一发现启发研究团队思考:如果Transformer在图像生成中主要捕捉局部信息,那么天生善于处理局部特征的卷积神经网络是否可以作为一个更高效的替代方案?毕竟,卷积操作在硬件上更为高效,特别是对于大规模部署和资源受限的场景。
二、从DiT到DiCo:设计之路上的挑战与突破
带着对卷积网络潜力的新认识,研究团队开始设计一种名为"Diffusion ConvNet"(简称DiCo)的新架构。然而,他们很快发现,简单地用卷积层替换Transformer中的自注意力层并不能保持相同的性能水平。
想象你用普通的锅碗瓢盆替换了一套高级厨具,却发现做出的菜肴味道大不相同。研究团队也面临类似的问题:简单的替换导致了性能下降。通过深入分析,他们发现了问题所在——通道冗余(channel redundancy)。
如果将神经网络中的通道比作乐队中的乐器,那么在理想情况下,每个"乐器"都应该贡献不同的"声音",共同创造丰富的"音乐"。然而,研究团队发现,在简单替换后的卷积模型中,许多通道保持不活跃状态,就像一些乐器没有演奏一样,导致"音乐"不够丰富。
通过可视化分析,他们观察到使用传统卷积替换自注意力后,模型的通道激活得分分布较为均匀,但大多处于较低水平,表明存在严重的通道冗余。这一现象可能源于自注意力机制天生具有更强的表示能力,而卷积操作相对静态和固定。
为了解决这个问题,研究团队引入了一个创新性的组件:紧凑通道注意力(Compact Channel Attention,简称CCA)机制。这个机制就像一个智能指挥,能够根据输入内容动态地激活最有信息量的通道,提高特征多样性。
CCA的工作原理非常巧妙:首先通过全局平均池化(Global Average Pooling)聚合特征,然后应用一个可学习的1×1卷积层,最后通过sigmoid激活函数生成通道注意力权重。这个简单而高效的设计显著减少了特征冗余,增强了模型的表示能力。
三、DiCo的架构:简洁而强大
DiCo的整体架构采用了U形设计,由三个阶段组成,每个阶段都堆叠了多个DiCo块。与认知任务中强调的大型、昂贵的卷积核不同,DiCo采用了一种简化设计,主要基于高效的1×1点卷积和3×3深度卷积。
想象一下建造一座房子,DiCo就像是选择使用标准化、易于获取但经过精心设计的建材,而不是昂贵的定制材料。这种设计理念使得DiCo在保持强大生成性能的同时,具有极高的计算效率。
具体来说,DiCo的核心组件是"Conv Module",它首先应用1×1卷积聚合像素级的跨通道信息,然后使用3×3深度卷积捕获通道级的空间上下文。接着,GELU激活函数提供非线性变换,最后是前面提到的紧凑通道注意力(CCA)机制,用于激活更多信息丰富的通道。
为了适应多种规模的模型需求,研究团队设计了多个变体,包括DiCo-S、DiCo-B、DiCo-L和DiCo-XL,其参数数量分别与DiT-S/2、DiT-B/2、DiT-L/2和DiT-XL/2相当。与DiT相比,DiCo模型在计算量(GFLOPs)方面实现了显著降低,仅为DiT模型的70.1%至74.6%。此外,研究团队还扩展出了一个拥有10亿参数的更大模型DiCo-H,以探索该架构的扩展潜力。
四、惊人的实验结果:效率与性能的双赢
在ImageNet 256×256和512×512基准测试中,DiCo模型表现出色,超越了现有的最先进扩散模型,同时保持高效率。
首先看256×256分辨率的结果:DiCo-XL模型在FID(Fréchet Inception Distance,衡量生成图像质量的指标,越低越好)方面达到了2.05,优于DiT-XL/2的2.27和DiG-XL/2的2.07。同时,DiCo-XL的推理速度比DiT-XL/2快2.7倍,比具有CUDA优化的Flash Linear Attention的DiG-XL/2快2.9倍。
更令人印象深刻的是,研究团队的最大模型DiCo-H(10亿参数)在ImageNet 256×256上实现了1.90的FID,这一成绩是在没有任何额外监督的情况下取得的,超过了现有的所有扩散模型。
在512×512高分辨率图像生成方面,DiCo的优势更为明显。DiCo-XL实现了2.53的FID,同时比DiT-XL/2快3.1倍,比基于Mamba的DiM-H和DiS-H/2模型分别快7.8倍和6.7倍。这一结果充分证明了DiCo在高分辨率图像生成场景中的卓越效率。
研究团队还进行了大量消融实验,分析了DiCo各个组件的贡献。结果表明,紧凑通道注意力(CCA)机制对模型性能有显著提升,带来了4.81点的FID改进。通过特征可视化,可以清楚地看到CCA显著增强了特征多样性。
此外,研究还比较了不同架构设计的影响,证明DiCo在各种结构下都优于DiT,同时保持显著的效率优势。在不同模型规模下,DiCo也表现出良好的可扩展性,参数量越大,性能越好。
五、更广泛的对比:在生成模型家族中的地位
除了与其他扩散模型对比外,研究团队还将DiCo与更广泛的生成模型家族进行了比较,包括基于GAN、掩码预测、自回归和视觉自回归的方法。
在ImageNet 256×256基准测试中,DiCo-XL和DiCo-H的表现与最先进的视觉自回归模型(如VAR-d30,拥有20亿参数)相当甚至更好,而DiCo模型的参数量要少得多。这一结果证明了DiCo架构的高效性和有效性。
同样,在ImageNet 512×512基准测试中,DiCo-XL(仅有7亿参数)的性能超过了具有23亿参数的VAR-d36-s模型,再次证明了其架构的优越性。
六、未来展望与局限性
虽然DiCo在类条件图像生成任务上取得了令人瞩目的成功,但研究团队也认识到了一些局限性。由于计算资源有限,他们的实验主要集中在ImageNet类条件生成上,而没有探索文本到图像生成等任务。此外,虽然他们将模型扩展到了10亿参数,但与一些拥有更多参数的生成模型相比,规模仍然较小。
研究团队展望未来,计划进一步扩展DiCo模型的规模,并将其应用于更广泛的生成任务,如文本到图像生成。他们相信,这种高效的卷积架构有潜力成为各种生成应用的强大基础。
七、结论:当"老技术"焕发新生
ByteDance和中国科学院团队的这项研究向我们展示了一个重要的科学启示:有时候,创新并不一定意味着抛弃旧有技术,而是重新审视它们的潜力,并通过创新的组合和改进,赋予它们新的生命。
在这个深度学习技术迅速迭代的时代,卷积神经网络作为一项"老技术",被证明仍然具有巨大的潜力。通过精心设计和创新的组件(如紧凑通道注意力机制),DiCo成功地证明了纯卷积架构能够在扩散模型中实现最先进的性能,同时显著提高效率。
从更广泛的角度来看,这项研究也提醒我们,在追求最新技术的同时,不应忽视基础技术的价值和潜力。有时候,解决问题的最佳方案可能不是最复杂或最新的技术,而是经过精心改进的成熟技术。
对于普通用户和开发者来说,DiCo的出现意味着更高效的图像生成模型,这可能带来更快的图像创建体验、更低的计算成本,以及在资源受限设备上部署高质量生成模型的可能性。随着生成AI技术的日益普及,这些改进将使更多人能够访问和使用这些强大的创意工具。
论文代码和模型已在GitHub上开源(https://github.com/shallowdream204/DiCo),有兴趣的读者可以亲自尝试这个高效强大的图像生成模型。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。