这项由腾讯公司微信AI团队的邵晨泽、孟凡东和周杰三位研究者共同完成的突破性研究,发表在2025年第42届机器学习国际会议(ICML 2025)上。有兴趣深入了解的读者可以通过论文代码库https://github.com/shaochenze/EAR访问完整研究资料。
要理解这项研究的重要意义,我们可以从一个简单的类比开始。传统的AI图像生成就像是让一个外国人画画,他必须先把你的要求翻译成自己的语言,再用有限的颜色盒子里的颜色来作画。这个"翻译"过程不可避免地会丢失一些细节和色彩层次。而腾讯这项新研究就像是教会了AI直接用无限丰富的调色板来作画,不再需要任何"翻译"步骤。
在传统方法中,计算机需要先把连续的图像信息转换成离散的"代币"(就像把连续的彩虹色彩切分成有限的几种颜色),然后再用这些有限的代币来重新组合生成图像。这个过程就像用马赛克拼图来还原一幅油画,总是会丢失一些精细的渐变和细节。腾讯的研究团队发现了一种全新的方法,让AI能够直接处理连续的视觉信息,就像真正的画家一样可以调出任何需要的色彩。
这种突破的核心在于他们建立了一个叫做"连续视觉自回归生成"的框架。自回归听起来很复杂,但其实就是AI一步一步地生成图像的方式,就像画家一笔一笔地完成画作。传统方法需要先把画作"量化"成固定的几种颜色,而新方法让AI可以直接使用无限丰富的色彩。
研究团队的创新之处在于运用了一种叫做"严格适当评分规则"的数学工具。这个概念听起来很学术,但实际上它就像是一个非常诚实的评判系统。当AI生成图像时,这个评判系统会给出最公正的分数,而且它有一个特殊的性质:只有当AI完全诚实地反映真实图像分布时,它才能得到最高分。任何偏离真实的生成都会导致分数下降。
在这个框架下,研究团队主要探索了一种基于"能量分数"的训练方法。能量分数是一种不需要明确计算概率的评分方式,这解决了连续空间中概率计算极其困难的问题。就像评判一个画家的水平,你不需要用复杂的数学公式,而是可以直观地看画作是否生动、是否接近真实。
有趣的是,之前一些看似不同的研究方法,比如GIVT(生成无限词汇表变换器)和扩散损失,实际上都可以在这个新框架下得到统一的解释。GIVT使用的是对数评分,而扩散损失对应的是Hyvarinen评分。这就像发现了不同烹饪方法背后的共同原理一样,为整个领域提供了更深层的理解。
基于这个理论框架,研究团队开发了一种叫做EAR(Energy-based AutoRegression,基于能量的自回归)的具体方法。这个方法的巧妙之处在于,它不需要明确估计概率密度,只需要能够从模型分布中采样即可。这大大降低了实现的复杂度,同时提供了更大的表达能力。
EAR使用的能量损失函数有一个很直观的含义:它鼓励模型生成的样本尽可能接近目标图像,同时保持生成样本之间的多样性。这就像训练一个画家,既要画得像,又要保持创作的多样性,不能总是画出一模一样的作品。
在具体的模型架构上,能量变换器与传统的离散变换器非常相似,主要区别在于输出层。传统方法使用softmax层从有限的词汇表中选择,而能量变换器使用一个小型的多层感知机生成器,它可以接受随机噪声作为额外输入,通过采样过程隐式地表示预测分布。这种设计类似于生成对抗网络中的生成器,但更加简洁高效。
研究团队在设计中还加入了几个重要的技术细节。首先是温度机制,这允许在训练和推理过程中调节生成的多样性和准确性之间的平衡。训练时可以稍微降低多样性来提高质量,推理时可以调节创意水平。其次是无分类器引导技术,这是一种在条件生成中提高质量的标准方法,通过同时考虑有条件和无条件的预测来增强生成效果。
另一个重要创新是支持掩码自回归生成。与传统的从左到右的因果生成不同,掩码自回归允许双向注意力,可以更有效地学习表示。生成时,模型可以以随机顺序预测被掩盖的token,逐步完成整个图像。这种方法在实验中表现出比因果生成更好的效果。
在训练过程中,研究团队发现了一个关键的技术要点:MLP生成器需要使用比主干网络更小的学习率。这是因为生成器的训练稳定性要求更加严格,需要更细致的调优。他们还探索了不同类型和维度的随机噪声对模型性能的影响,发现均匀分布的64维噪声效果最佳。
实验验证是这项研究的重要组成部分。研究团队在ImageNet 256×256基准数据集上进行了全面的评估,这是计算机视觉领域的标准测试平台。他们将EAR方法与多种现有技术进行了比较,包括生成对抗网络、扩散模型和基于向量量化的自回归模型。
结果显示,EAR在生成质量上取得了竞争性的表现。特别值得注意的是,EAR-B(205M参数)获得了2.83的FID分数,EAR-H(937M参数)达到了1.97的FID分数,这些结果在同等规模的模型中表现优异。更重要的是,EAR在推理效率方面显著优于基于扩散的方法,能够在大约1秒内生成高质量图像,而对比方法MAR需要近10倍的时间。
这种效率优势源于EAR和MAR在概率建模方面的根本差异。MAR使用扩散损失训练,需要多次去噪迭代来恢复目标分布,而EAR的能量式监督使其能够在单次前向计算中完成预测。这就像传统方法需要反复修改草稿,而新方法可以一气呵成。
研究团队还进行了详细的消融实验来验证设计选择的合理性。他们发现,严格适当性对于评分规则确实至关重要。在能量损失中,指数系数α的选择需要在(0,2)范围内,α=2时虽然评分规则仍然适当,但不是严格适当的,训练效果显著下降。这验证了理论分析的正确性。
在表达能力方面,研究显示能量变换器相比使用预定义分布(如高斯分布)的方法具有明显优势。预定义分布的方法虽然可以通过调整方差获得一定的生成质量,但与EAR相比仍有显著差距,说明连续token分布的复杂性需要更灵活的建模方法。
连续tokenizer相比离散tokenizer的优势也得到了实验验证。使用相同模型架构时,连续tokenization配合能量损失始终优于离散tokenization配合交叉熵损失。这凸显了连续视觉自回归的巨大潜力。
在技术细节的探索中,研究团队发现学习率的调整对训练稳定性至关重要。使用常规学习率时模型无法收敛,而将MLP生成器的学习率调整为主干网络的0.25倍后,训练过程得到稳定。这个发现为后续研究提供了重要的实践指导。
噪声类型和维度的选择也经过了系统的实验验证。均匀噪声相比高斯噪声表现更好,64维的噪声维度在32、64、128三个选项中效果最佳。这些发现为实际应用提供了具体的参数选择指导。
分类器自由引导在EAR中发挥了重要作用。通过线性增加引导尺度,可以在生成质量和多样性之间取得良好平衡。实验显示,随着引导尺度增加,Inception Score持续提升,而FID在尺度为3.0左右达到最优值,过高的引导尺度会损害生成多样性。
温度机制的实验验证了其在质量-多样性权衡中的有效性。训练温度设为0.99,推理温度设为0.7时获得了最佳效果。这种机制为用户在实际应用中根据需求调节生成特性提供了灵活性。
掩码自回归相比因果自回归显示出明显优势,FID从17.83改善到7.95(无引导情况下),从8.10改善到3.55(有引导情况下)。这验证了双向注意力在视觉生成任务中的价值。
速度-质量权衡分析显示,EAR在推理延迟和生成质量的平衡方面具有显著优势。在固定64个自回归步数的情况下,通过调整模型大小可以在不同的速度-质量工作点之间选择,而MAR即使使用不同的扩散步数也难以达到EAR的效率水平。
这项研究的理论贡献不仅限于技术实现,还为连续视觉自回归生成提供了统一的理论框架。通过严格适当评分规则的视角,可以理解和比较不同的连续生成方法,为未来的研究方向提供了清晰的指导。
实际应用方面,这种技术可以显著改善需要高质量图像生成的各种场景。从艺术创作到内容生成,从数据增强到虚拟环境构建,连续视觉自回归都能提供更精细、更高效的解决方案。特别是在需要实时或近实时生成的应用中,EAR的效率优势将发挥重要作用。
研究团队也诚实地指出了当前方法的局限性和未来改进方向。架构优化仍有很大空间,可以探索更适合连续生成的网络结构。评分规则的选择还可以进一步研究,不同的严格适当评分规则可能在特定任务上有不同的优势。扩展到视频、音频等其他连续模态也是自然的发展方向。
另一个有趣的研究方向是将这种方法应用到语言建模中。虽然文本本质上是离散的,但通过将离散文本转换为潜在向量表示,可能也能从连续建模中受益。这种跨模态的思考体现了研究的深度和广度。
从更宏观的角度来看,这项研究反映了AI生成技术正在从粗糙的拼接向精细的创作演进。就像从马赛克艺术发展到油画技法一样,技术的进步让AI能够处理更加细腻和连续的信息,生成更加自然和逼真的内容。
这种进步不仅体现在技术层面,也反映了我们对生成模型本质理解的深化。通过统一的理论框架,研究者可以更好地理解不同方法之间的关系,从而设计出更有效的算法。这种理论指导实践、实践验证理论的良性循环,正是科学研究的核心价值所在。
最终,这项研究为连续视觉生成开辟了新的技术路径。它不仅在当前任务上取得了优异表现,更重要的是为整个领域提供了新的思考框架和发展方向。随着技术的进一步发展和优化,我们有理由期待看到更加智能、高效和强大的视觉生成系统。
说到底,腾讯这项研究的真正价值在于打破了传统思维的局限。它告诉我们,AI不一定要按照人类设计的"翻译"规则来工作,而是可以直接学习和模拟自然界中连续变化的规律。这种思路的转变,可能会在更多AI应用领域带来突破性进展。对于普通用户来说,这意味着未来我们可能会看到更加精美、生成速度更快的AI绘画工具,让每个人都能轻松创作出专业级别的视觉作品。随着这类技术的成熟和普及,创意表达的门槛将进一步降低,让更多人能够实现自己的艺术想法。有兴趣深入了解技术细节的读者,可以访问研究团队公开的代码库,亲自体验这项创新技术的魅力。
Q&A
Q1:什么是连续视觉自回归生成?它和传统方法有什么不同? A:连续视觉自回归生成是一种让AI直接处理连续图像信息的新方法,就像画家直接用调色板调色一样。传统方法需要先把图像"翻译"成有限的离散代币(像用马赛克块拼图),会丢失细节。新方法跳过了这个"翻译"步骤,能保留更多图像的精细信息,生成质量更高。
Q2:EAR方法会不会取代现有的图像生成技术? A:EAR在某些方面确实有优势,特别是生成速度比扩散模型快近10倍,但不会完全取代所有方法。不同技术各有特点,EAR主要优势在于效率高、质量好,适合需要快速生成的场景。未来可能会看到多种技术并存,在不同应用中发挥各自优势。
Q3:普通人能使用这种技术吗?有什么实际应用? A:目前这还是研究阶段的技术,普通人暂时无法直接使用。但随着技术成熟,预计会集成到各种图像生成工具中,让AI绘画、内容创作、游戏开发等应用变得更快更好。未来可能出现在手机拍照美化、社交媒体内容生成、在线设计工具等日常应用中。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了SPIRAL框架,通过让AI与自己对弈零和游戏来提升推理能力。实验显示,仅训练AI玩简单扑克游戏就能让其数学推理能力提升8.6%,通用推理提升8.4%,且无需任何数学题目作为训练材料。研究发现游戏中的三种推理模式能成功转移到数学解题中,为AI训练提供了新思路。
同济大学团队开发的GIGA-ToF技术通过融合多帧图像的"图结构"信息,创新性地解决了3D相机噪声问题。该技术利用图像间的不变几何关系,结合深度学习和数学优化方法,在合成数据集上实现37.9%的精度提升,并在真实设备上展现出色泛化能力,为机器人、AR和自动驾驶等领域提供更可靠的3D视觉解决方案。
伊利诺伊大学研究团队通过对比实验发现,经过强化学习训练的视觉语言模型虽然表现出"顿悟时刻"现象,但这些自我纠错行为并不能实际提升推理准确率。研究揭示了AI模型存在"生成-验证差距",即生成答案的能力强于验证答案质量的能力,且模型在自我验证时无法有效利用视觉信息,为AI多模态推理发展提供了重要启示。
MIT等顶尖机构联合提出SparseLoRA技术,通过动态稀疏性实现大语言模型训练加速1.6倍,计算成本降低2.2倍。该方法使用SVD稀疏性估计器智能选择重要计算部分,在保持模型性能的同时显著提升训练效率,已在多个任务上验证有效性。