微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

复旦大学推出CaTok：让计算机像读书一样学会生成图像的革命性技术

人工智能图像生成扩散模型

复旦大学推出CaTok：让计算机像读书一样学会生成图像的革命性技术

作者：科技行者

2026-03-18 11:25

分享至：

复旦大学研究团队推出CaTok技术，通过MeanFlow解码器和因果视觉Transformer实现了1D因果图像tokenization。该技术巧妙结合扩散模型与自回归建模优势，支持快速一步生成和高质量多步采样。在ImageNet上达到0.75 FID等领先指标，训练效率大幅提升。这项创新为AI图像生成提供了新的技术路径，可能推动实时图像生成应用的普及。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-03-18 11:25 • 科技行者

在人工智能的世界里，让计算机理解和生成图像一直是个巨大挑战。复旦大学可信具身智能研究院的研究团队最近发布了一项名为"CaTok"的突破性技术，这项研究发表在2026年的计算机视觉顶级会议上（论文编号：arXiv:2603.06449v1）。这个看似简单的名字背后，隐藏着一个可能彻底改变计算机视觉领域的重大创新。

说到底，这项研究要解决的核心问题其实很简单：如何让计算机像人类阅读文字那样，按照一定的顺序来理解和生成图像。目前的计算机在处理图像时就像一个没有章法的学生，要么随意地浏览图像的各个部分，要么采用一些人为设定的顺序，这样的方式既不自然也不高效。而CaTok的出现，就像给这个混乱的学生提供了一本结构清晰的教科书，让它能够有条不紊地学习和创作。

复旦大学的研究团队在这项工作中展现出了惊人的创新能力。他们不仅解决了长期困扰学术界的图像因果化处理难题，还开发出了一套能够支持快速单步生成和高质量多步采样的完整技术方案。更令人惊叹的是，这个系统在ImageNet数据集上达到了业界领先的重建效果，包括0.75的FID指标、22.53的PSNR指标和0.674的SSIM指标，而且训练时间大幅缩短。

一、传统方法的困境与新思路的诞生

要理解CaTok的价值，我们首先需要明白传统方法面临的困境。当前的图像处理技术就像是用拼图的方式来理解一幅画：要么把所有拼图块随机排列成一条线，要么按照从粗到细的层次来组织。这两种方法都有明显的问题。

随机排列的方法就像让一个人在没有任何逻辑的情况下阅读一篇文章，前后文之间没有因果关系，这样的学习效果自然不会好。而层次化的方法虽然有一定的逻辑，但却破坏了语言模型"逐个预测下一个词"的核心机制，就像强迫一个习惯了按字阅读的人突然改成按句子或段落来理解文本。

近年来兴起的扩散自编码器为解决这个问题带来了新的希望。这类方法就像是给图像理解过程加入了"时间"的概念，让计算机能够逐步从噪声中恢复出清晰的图像。然而，现有的扩散自编码器仍然存在两个致命问题：要么在解码时使用所有的图像信息，这样就失去了因果性；要么采用"嵌套丢弃"的机制，优先选择前面的图像特征，这样又会导致信息不平衡。

CaTok的出现就是为了彻底解决这些问题。研究团队的核心洞察是：与其简单地选择前k个图像特征，为什么不选择一个时间区间内的特征呢？这就像是在阅读一本书时，不是只看前几页，而是选择某个章节来完整阅读。这样既保证了因果性，又避免了信息不平衡的问题。

二、MeanFlow解码器的巧妙设计

CaTok技术的核心创新在于其独特的MeanFlow解码器设计。要理解这个设计的巧妙之处，我们可以把它比作一个极其聪明的导航系统。

传统的导航系统在规划路线时，要么给你一个瞬时的速度建议，要么直接告诉你终点在哪里。但这两种方式都不够理想：瞬时速度建议容易受到各种临时因素影响，而直接指示终点又缺乏具体的行进指导。MeanFlow解码器采用的是一种全新的策略：它会告诉你在某个时间段内应该保持什么样的平均速度。

具体来说，MeanFlow解码器的工作原理是这样的：当系统需要从噪声生成图像时，它不是简单地预测下一步应该做什么，而是预测在某个时间区间内应该采取的平均行动。这就像是一个经验丰富的司机，他不会因为遇到一个红绿灯就改变整体的行驶策略，而是会基于整个路段的情况来调整平均速度。

这种设计带来了多重好处。首先，它天然地保证了因果性，因为系统只能利用当前时刻之前的信息。其次，它实现了信息的平衡利用，避免了对早期特征的过度依赖。最重要的是，这种方法支持一步采样，能够在保证质量的同时大幅提高生成速度。

研究团队在实现这个想法时，面临了一个技术挑战：如何准确地计算平均速度场。他们通过巧妙的数学推导，将平均速度与瞬时速度联系起来，使得整个系统既有理论基础，又具有实用价值。这个推导过程就像是找到了连接"瞬时加速度"和"平均速度"的精确公式，让系统能够在两者之间自由转换。

三、因果视觉Transformer的架构创新

CaTok系统的另一个重要组成部分是因果视觉Transformer编码器。这个编码器的设计理念可以用"阅读理解"来类比：就像一个优秀的学生在阅读一篇文章时，会根据已读内容来理解后续内容，而不是一开始就知道整篇文章的内容。

传统的视觉Transformer在处理图像时，所有的图像块都能够"看到"彼此，这就像是一个学生在阅读时可以随时翻到文章的任何部分。虽然这样能够获得全局信息，但却失去了自然的阅读顺序和因果关系。CaTok的因果视觉Transformer则采用了一种受限的注意力机制：每个图像特征只能"看到"它之前的特征，这样就建立了类似于文本阅读的因果依赖关系。

这种设计的实现需要精心的注意力掩码设计。研究团队设计了一种巧妙的掩码机制：图像特征之间可以相互关注，但1D视觉tokens只能关注到它们前面的tokens。这就像是在一个课堂讨论中，学生们可以互相交流，但每个学生的发言只能基于之前听到的内容。

为了提取高质量的视觉表示，编码器使用了register机制。这些registers就像是专门的"笔记本"，用来记录图像中的重要信息。通过这种方式，系统能够将二维的图像信息有效地压缩成一维的因果序列，为后续的生成提供高质量的条件信息。

四、REPA-A正则化技术的创新应用

在训练CaTok系统时，研究团队还引入了一个重要的技术创新：REPA-A正则化。这个技术的核心思想可以用"名师指导"来理解。

在传统的学习过程中，学生往往需要从零开始探索知识，这个过程既漫长又容易走弯路。REPA-A正则化就像是引入了一位经验丰富的老师，这位老师已经掌握了丰富的视觉知识（通过预训练的视觉基础模型获得），能够指导学生更快地学到正确的视觉表示。

具体来说，REPA-A通过将编码器学到的图像特征与高质量的外部视觉表示对齐，来加速和稳定训练过程。这就像是让一个初学绘画的学生不断对比大师的作品，从而更快地掌握正确的绘画技巧。在数学上，这是通过最小化编码器特征和预训练模型特征之间的余弦距离来实现的。

与之前的REPA技术不同，REPA-A专门针对条件扩散自编码器进行了优化。传统的REPA技术主要作用于解码器，而REPA-A则直接作用于编码器，这样能够确保从源头上提高视觉特征的质量。这种改进就像是从教学方法的根本上进行优化，而不是只在考试技巧上下功夫。

实验结果显示，REPA-A不仅显著提高了训练效率，还大幅改善了最终的性能。更重要的是，它还提高了训练过程的稳定性，减少了训练过程中可能出现的震荡和不收敛问题。

五、训练策略的精心设计

CaTok系统的训练过程采用了一种多目标联合优化的策略。这种策略可以比作一个优秀的教练在训练运动员时采用的综合训练方法：不仅要练习基本功，还要进行专项训练，同时还需要观摩高水平比赛来提升技战术水平。

整个训练过程包含四个相互配合的目标函数。MeanFlow目标函数负责训练系统学会预测时间区间内的平均速度场，这是整个系统的核心能力。Rectified Flow目标函数则确保系统能够准确预测瞬时速度场，为平均速度的计算提供基础。这两个目标的结合就像是让运动员既掌握整体战术，又练好基本技术动作。

REPA目标函数的作用是利用预训练的视觉基础模型来指导解码器的训练，确保生成的图像具有高质量的视觉特征。而REPA-A目标函数则专门负责提升编码器的性能，确保输入的视觉表示质量。这两个正则化目标就像是邀请高水平教练来指导训练，确保每个环节都达到专业水准。

在具体的训练过程中，研究团队采用了渐进式的策略。他们首先让系统学会基本的重建能力，然后逐步引入MeanFlow目标和token选择机制。这种渐进式训练就像是循序渐进的教学过程，确保学生在掌握基础知识后再学习高级技能。

为了在不同的训练目标之间取得平衡，研究团队还精心调整了各个损失函数的权重。他们发现，给MeanFlow和Rectified Flow设置75%和25%的比例能够取得最好的效果，这个比例确保了系统既能掌握平均速度预测的核心能力，又不会忽视瞬时预测的重要性。

六、自回归建模的无缝集成

训练完成的CaTok编码器能够提取出具有因果性的1D视觉tokens，这些tokens可以无缝地集成到标准的自回归模型中进行图像生成。这个过程就像是为一个熟练的作家提供了高质量的素材，让他能够创作出精彩的故事。

在自回归建模阶段，系统采用标准的"下一个token预测"范式。给定一个类别标签或其他条件信息，自回归模型会逐个预测视觉tokens的序列。由于这些tokens具有良好的因果性，预测过程非常自然，就像是按照逻辑顺序来讲述一个故事。

值得注意的是，CaTok支持连续值的视觉tokens，这与许多需要离散化的方法不同。为了处理连续值tokens，系统采用了扩散损失而不是传统的交叉熵损失。这种选择带来了更好的表达能力和更平滑的生成过程。

在生成阶段，自回归模型首先产生一个完整的视觉token序列，然后将这个序列输入到MeanFlow解码器中。由于MeanFlow解码器支持一步采样，整个生成过程可以非常快速地完成。这就像是有了一个能够快速理解剧本并立即表演的优秀演员。

研究团队在多个数据集上验证了这种自回归建模方法的有效性。实验结果显示，即使使用相对较少的训练时间，CaTok也能够在图像生成质量上与现有的最佳方法相媲美。

七、实验结果的全面验证

CaTok系统在多个维度上都展现出了优异的性能。在图像重建任务上，CaTok-L-256模型在ImageNet数据集上达到了令人印象深刻的结果：rFID为0.75，PSNR为22.53，SSIM为0.674。这些数字背后代表着什么呢？简单来说，rFID越低表示重建的图像在统计分布上越接近原始图像，PSNR越高表示像素级的重建质量越好，SSIM越高表示在人类视觉感知上越相似。

更令人惊喜的是训练效率的大幅提升。与需要300多个训练周期的现有方法相比，CaTok只需要160个训练周期就能达到类似甚至更好的效果。这种效率提升就像是找到了一条更直接的学习路径，让系统能够更快地掌握图像表示的精髓。

在支持一步采样的能力测试中，CaTok表现出了独特的优势。系统既能进行快速的一步生成，也能通过多步采样获得更高质量的结果。这种灵活性就像是一个技艺高超的画家，既能快速勾勒出生动的速写，也能精心绘制细致的工笔画。

自回归生成实验的结果同样令人鼓舞。在ImageNet-1K数据集上，使用CaTok tokens训练的自回归模型达到了2.95的gFID和269.2的IS分数。这些指标表明生成的图像不仅质量高，而且具有良好的多样性和类别一致性。

研究团队还进行了大量的消融实验来验证各个组件的贡献。实验结果清楚地显示了每个技术组件的价值：MeanFlow目标显著提升了一步采样的质量，REPA-A加速了训练收敛并提高了最终性能，而时间区间token选择机制则是实现因果性的关键。

八、技术优势与局限性分析

CaTok技术的最大优势在于它成功地将扩散模型的高质量生成能力与自回归模型的因果建模优势结合在了一起。这种结合就像是将两种不同但互补的技能融合成了一种新的超能力。

在计算效率方面，CaTok展现出了明显的优势。一步采样能力意味着在实际应用中可以大幅减少推理时间，这对于需要实时或近实时图像生成的应用场景特别有价值。同时，多步采样选项确保了在追求极致质量时仍有足够的灵活性。

CaTok的另一个重要优势是其优秀的可扩展性。研究表明，增加模型规模和token数量都能带来性能的持续提升，这表明该方法具有良好的发展潜力。这种可扩展性就像是一个有着坚实基础的建筑，可以不断向上扩建而不会影响结构稳定性。

然而，CaTok也存在一些局限性。首先，虽然重建质量很高，但在某些指标上仍然略逊于一些专门优化的方法。其次，系统的复杂性相对较高，需要联合训练多个目标函数，这对工程实现提出了一定挑战。

另外，当前的实验主要集中在ImageNet数据集上，在其他类型的图像数据上的表现还需要进一步验证。研究团队在论文中也坦诚地承认了这些限制，并指出了未来改进的方向。

九、对AI图像生成领域的深远影响

CaTok技术的出现对整个AI图像生成领域具有深远的影响。它不仅提供了一个新的技术路径，更重要的是为将来的研究指明了方向。

在理论层面，CaTok证明了因果化的视觉表示是可行的，而且能够带来实际的性能提升。这一发现可能会启发更多研究者探索因果性在视觉理解和生成中的作用，推动整个领域向更加原理化的方向发展。

在实际应用方面，CaTok的一步采样能力为实时图像生成开辟了新的可能性。无论是游戏、虚拟现实，还是创意设计工具，都可能从这种快速高质量的图像生成能力中受益。特别是在需要交互式图像编辑的场景中，一步生成的能力可能会带来全新的用户体验。

CaTok技术还可能推动视觉和语言模型的进一步融合。由于它采用了与语言模型类似的因果建模范式，未来可能更容易实现真正的多模态大模型，让同一个模型能够无缝地处理文本、图像等多种模态的信息。

从产业角度来看，CaTok的训练效率优势可能会降低高质量图像生成模型的门槛，让更多的公司和研究机构能够参与到这个领域中来。这种技术民主化的趋势往往能够加速整个行业的发展。

十、未来发展方向与研究前景

展望未来，CaTok技术还有很大的发展空间。首先是模型规模的进一步扩大。当前的实验主要集中在相对较小的模型上，随着计算资源的增加，更大规模的模型可能会带来质的突破。

在应用场景方面，研究团队提到了向更高分辨率图像扩展的可能性。通过训练时自由的补丁式扩散混合策略，CaTok已经展现出了处理512×512分辨率图像的能力，未来可能会支持更高分辨率的图像生成。

跨数据集的泛化能力也是一个重要的研究方向。虽然当前在ImageNet上的实验结果很好，但在COCO等其他数据集上的表现仍有提升空间。研究团队已经开始在这个方向上进行探索，初步结果显示了良好的发展前景。

另一个有趣的方向是与非自回归生成模型的结合。研究团队的实验表明，即使不采用因果化的token丢弃机制，CaTok提取的视觉表示仍然能够提升mask-based生成的性能。这表明CaTok学到的视觉表示具有更广泛的适用性。

在技术层面，MeanFlow解码器的理论基础还有进一步深化的空间。如何更好地平衡瞬时预测和平均预测之间的关系，如何优化时间区间的选择策略，这些都是值得深入研究的问题。

说到底，CaTok代表了AI图像生成领域的一个重要里程碑。它巧妙地解决了长期困扰研究者的因果化视觉表示问题，为构建更加统一、高效的多模态AI系统奠定了基础。虽然还存在一些局限性，但其创新的设计理念和优异的实验结果已经为整个领域带来了新的启发。

归根结底，CaTok技术的价值不仅在于它解决了一个具体的技术问题，更在于它展示了一种全新的思考方式：如何将不同AI技术的优势有机地结合起来，创造出更加强大和实用的解决方案。这种创新思维可能会在未来的AI研究中发挥更大的作用，推动整个人工智能领域向着更加智能、更加高效的方向发展。

对于普通人来说，CaTok技术的发展意味着我们可能很快就能享受到更加快速、高质量的AI图像生成服务。无论是在社交媒体上快速生成个性化头像，还是在工作中创建演示文稿的插图，这种技术都可能让我们的数字生活变得更加便利和有趣。更重要的是，随着这类技术的不断发展和普及，人工智能可能会真正成为增强人类创造力的得力助手，而不仅仅是一个复杂的技术工具。

有兴趣深入了解技术细节的读者可以通过arXiv:2603.06449v1查询完整的研究论文，其中包含了更加详细的数学推导和实验设置。

Q&A

Q1：CaTok技术与传统的图像生成方法有什么根本区别？

A：CaTok的核心创新在于引入了因果性概念，让计算机像阅读文字一样按顺序理解图像。传统方法要么随机处理图像块，要么采用层次化处理，都缺乏自然的因果关系。CaTok通过MeanFlow解码器和时间区间token选择机制，既保证了因果性又避免了信息不平衡，能够支持快速一步生成和高质量多步采样。

Q2：CaTok的一步采样能力对普通用户有什么实际意义？

A：一步采样意味着系统可以极快地生成高质量图像，这对需要实时或近实时图像生成的应用特别有价值。比如在游戏中实时生成场景，在设计软件中快速预览效果，或者在社交应用中即时创建个性化内容。这种速度优势可能会让AI图像生成真正融入我们的日常数字生活。

Q3：CaTok技术的训练效率优势体现在哪里？

A：CaTok只需要160个训练周期就能达到其他方法需要300多个周期才能实现的效果，训练时间几乎减半。这主要归功于REPA-A正则化技术和巧妙的多目标联合优化策略。训练效率的提升不仅降低了计算成本，也让更多研究机构能够参与到高质量图像生成技术的开发中来，有助于推动整个行业的发展。

人工智能图像生成扩散模型

分享至