微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

Meta AI与港大联手，彻底抛弃视觉编码器——AI看图生图的方式正在被颠覆

人工智能多模态大模型编码器自由架构

Meta AI与港大联手，彻底抛弃视觉编码器——AI看图生图的方式正在被颠覆

作者：科技行者

2026-05-05 12:06

分享至：

这项由Meta AI、香港大学与滑鹿大学联合发布的研究（arXiv:2604.24763，2026年4月）提出了Tuna-2，一个彻底摆脱预训练视觉编码器和VAE模块的统一多模态模型。Tuna-2仅用简单的像素补丁嵌入层处理图像，通过单一Transformer直接在像素空间完成图像理解与生成，同时引入掩码视觉特征学习策略提升表示质量。实验表明，Tuna-2在细粒度视觉理解任务上超越了所有同规模的统一多模态模型，在图像生成和编辑上也达到了竞争性水平，证明端到端像素空间建模是构建多模态AI的可行路径。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-05 12:06 • 科技行者

这项由Meta AI、香港大学与滑鹿大学（University of Waterloo）联合完成的研究，以arXiv预印本形式于2026年4月27日公开发布，论文编号为arXiv:2604.24763。感兴趣的读者可通过该编号在arXiv平台上找到完整原文。

**一、为什么你应该关心这件事**

手机里的AI助手能看懂你拍的照片、能根据你打的一段文字生成一张图——这两件事，在过去几年已经变得司空见惯。但你可能不知道的是，这两件事背后的AI系统，长期以来是两套截然不同的机器在各自运作，就像工厂里的流水线被硬生生分成了两条，一条专门"看懂"，一条专门"画出来"，而两条线之间需要大量的转换和协调工作。这种分工虽然勉强能用，却埋下了效率低下、两端打架、无法统一优化的隐患。

Meta AI和香港大学的研究团队决定彻底改变这一局面。他们提出了一个叫做**Tuna-2**的新模型，核心思路是：把看图和画图这两件事，交给同一套机器、用同一种语言来完成，而且这套机器不再需要任何专门负责"翻译图像"的预处理模块——直接从原始像素出发，一步到位。

这听起来可能有点抽象，不妨用一个生活化的场景来理解。以前的AI系统就像一个需要先把食材全部切好、腌制好、分装好才能开始炒菜的厨师——前期准备工序繁琐，中间还要在各种容器之间反复倒腾；而Tuna-2想做的，是一个拿到食材就能直接下锅的全能厨师，从买菜到上桌，全程一套动作，干净利落。

研究结果表明，这个"全能厨师"不仅做到了，而且在很多菜品上做得比以前那套繁琐流程更好——尤其是在需要仔细辨认图像细节的任务上。

**二、现有系统的两大痛点：分工和翻译的代价**

要理解Tuna-2的意义，得先弄清楚之前的系统是怎么运作的，以及问题出在哪里。

传统上，一个既能"看图理解"又能"文字生图"的AI系统，内部往往藏着好几个相对独立的模块。负责理解图像的部分，通常会用一种叫做CLIP的预训练视觉编码器——你可以把它理解成一个专门把图片"翻译"成AI能读懂的抽象数字的翻译机；负责生成图像的部分，则往往依赖一种叫做VAE（变分自编码器）的组件，它的作用是把图片压缩成一种更紧凑的"草稿"，然后在这个草稿上进行创作，最后再还原成真实图片。

问题在于，"理解用的翻译"和"生成用的草稿"是两套完全不同的语言系统。理解模块习惯的是语义层面的抽象信息，生成模块习惯的是图像重建所需的低层次细节信息，两者之间存在天然的隔阂。后来，有研究者试图用一个统一的视觉编码器来同时服务这两个任务，但本质上还是在依赖一个外挂的、预先训练好的视觉处理模块，系统仍然无法做到真正的端到端优化——也就是说，无法从原始图片出发，把所有参数放在一起统一调整到最优状态。

另一个更微妙但同样重要的问题是：这些视觉编码器往往是在固定分辨率下预训练的，它们对图像的处理方式带有一定的"先入为主"的偏见。比如，某些编码器天生就不擅长捕捉图像中非常细小的局部信息，因为它们在预训练阶段就没有被训练去关注这些细节。这就导致，当AI需要回答"图片右下角那个小字写的是什么"这类问题时，基于这些编码器的系统往往表现欠佳。

**三、Tuna-2的诞生：一步步拆掉那些"翻译机"**

Meta AI的团队没有一步跨到最终答案，而是采用了一种逐步简化、逐步验证的研究路径——就像装修房子时先拆除不必要的隔墙，每拆一道墙就检查一次房间是否变得更宽敞好用。

第一步，他们先把VAE这个用于图像压缩和重建的组件拿掉，得到了一个中间版本，内部称为**Tuna-R**。Tuna-R保留了CLIP这类预训练表示编码器，负责把图像转换成理解用的特征；但在图像生成上，它不再依赖VAE的压缩潜空间，而是直接在像素层面上进行创作。Tuna-R本质上是一个过渡版本，让研究团队能够单独观察"去掉VAE"这一步带来的影响，同时也为后续的比较实验提供了一个清晰的对照组。

第二步，研究团队把表示编码器也一并移除，得到了最终版本**Tuna-2**。此时，整个模型只剩下一个统一的Transformer（一种广泛用于语言和图像处理的神经网络结构）解码器，以及两个极其简单的"打包"和"解包"层——前者负责把图像切成一小块一小块的像素补丁送进模型，后者负责把模型输出的信息重新拼回图像。没有CLIP，没有VAE，没有任何预训练的视觉处理外挂，一切从原始像素开始，一切在同一套参数体系内完成。

这种设计的好处是显而易见的：整个系统可以作为一个整体进行优化，不再受制于任何预训练模块的局限性；模型的架构变得极为简洁，维护和扩展都更容易；而且，因为没有固定分辨率的编码器作为瓶颈，模型可以更自由地处理不同分辨率的图像，也更容易捕捉到图像中的细粒度细节。

**四、直接在像素上"作画"：流动匹配技术的妙用**

拆掉VAE之后，Tuna-2面临一个具体的工程挑战：以前的图像生成系统都是先把图片压缩成一个低维的"草稿空间"，然后在草稿上进行加噪和去噪的创作过程，这个过程比直接在像素上操作要容易得多——因为草稿空间的信息量更少，计算量更小，优化起来也更直接。

现在把草稿空间扔掉了，Tuna-2必须直接在高维像素空间里完成图像生成。研究团队借鉴了一种叫做"流动匹配"（flow matching）的生成技术，具体采用的是一个叫做JiT的方案中的x预测加v损失范式。

用一个简单的比喻来说：生成图像的过程，类似于把一张随机噪点图（可以想成一张全是雪花的旧电视屏幕）逐步"清洗"成一张清晰的真实图像。模型在每一步都会预测"这张图最终应该长什么样"，然后根据预测结果和当前噪点图之间的差距，往正确方向迈出一小步。数学上，这个过程被表达为在噪点图和清晰图之间做线性插值，模型要学会的是在任意插值位置上，准确猜出终点的位置。在推理（实际生成图片）阶段，系统用一种叫做欧拉求解器的方法，一步步从纯噪点走向最终的清晰图像。

这种在像素空间直接操作的方式，过去被认为计算代价太高、难以做到高质量。但近年来，包括PixelFlow、JiT在内的几项研究已经陆续证明，只要设计得当，像素空间的生成完全可以媲美甚至超越压缩潜空间的方法。Tuna-2在此基础上更进一步，把像素空间生成整合进了同时支持理解和生成的统一框架，并且在大规模数据上验证了其可行性。

**五、戴上"遮眼罩"学习：掩码训练的意外收获**

直接在像素空间进行学习，面临一个棘手的问题：像素信息太冗余了。与压缩后的潜空间相比，原始像素包含大量重复、低层次的细节，模型很容易学会走捷径——靠记住表面的统计规律来"蒙混过关"，而不是真正学会理解图像内容。

为了应对这个问题，研究团队引入了一种叫做**掩码视觉特征学习**的训练策略。简单来说，就是在训练时随机遮住图像的一部分区块，让模型在看不完整图的情况下继续工作。

这个设计对于图像生成任务和图像理解任务各有不同的意义。在生成任务中，遮住一部分区域意味着模型需要从残缺的噪点图中预测出完整的清晰图像，这大大加大了任务的难度，迫使模型学会从全局信息中推断局部细节，而不是简单地逐像素复制。在理解任务中，遮住部分图像意味着模型需要在看不全图的情况下回答问题，这相当于一种正则化机制，强迫模型学会从有限信息中提炼出真正重要的视觉语义，而不是依赖图像的表面纹理。

研究团队发现，掩码训练对Tuna-2的提升幅度比对Tuna-R更大。他们推断，这与Tuna-R所用的SigLIP 2表示编码器本身就经过了类似的掩码预训练有关——SigLIP 2已经具备了一定的抗掩码能力，所以额外的掩码训练对它的边际效益较小；而对于从零开始学习视觉表示的Tuna-2来说，掩码训练是一剂更有针对性的良药。基于这个发现，研究团队决定在预训练的最后40%阶段才开始应用掩码训练策略，让模型先建立基本的多模态理解能力，再用掩码机制来进一步打磨和强化视觉表示的质量。

**六、两阶段训练：先打地基，再精装修**

Tuna-2的整个训练过程分为两个阶段，逻辑清晰，各有侧重。

第一阶段是全模型预训练，使用了5.5亿对图文数据，其中70%是图像描述数据（用于培养看图说话的能力），30%是文字生图数据（用于培养根据描述画图的能力）。除此之外，还加入了占总数据量20%的纯文字数据，来自Nemotron数据集，目的是防止模型在大量图文训练中"忘掉"原本的语言能力。这一阶段在64个计算节点上运行了30万步，相当于让模型把这些数据反复消化了很多遍。

第二阶段是监督微调，使用了更精细的数据集，包括来自FineVision的1300万条图像指令对话数据、来自OmniEdit的约200万条图像编辑数据，以及高质量的文字生图数据。这一阶段用更低的学习率运行了5万步，相当于在第一阶段打好的地基上进行精装修——让模型的能力更加精准、泛化效果更好。

值得一提的是，Tuna-2的训练不需要额外的"连接器对齐阶段"——这是Tuna-R因为有表示编码器和LLM解码器之间的连接层而需要的额外步骤。Tuna-2架构的简洁性直接体现为训练流程的简化。

**七、实验数据说话：全面PK的结果如何**

研究团队用了一套非常全面的评测体系来检验Tuna-2的能力，覆盖了图像理解、图像生成和图像编辑三大维度。

在图像理解方面，评测使用了九个不同的视觉问答基准，包括考察通用视觉推理的GQA、考察现实世界场景理解的RealWorldQA、考察综合多模态能力的MMVet、考察学科知识的MMMU，以及考察图表理解的ChartQA、考察文字识别的OCRBench等。Tuna-2在这些基准上的综合表现超过了所有同等规模（70亿参数）的原生统一多模态模型，在GQA上得分65.0、在MMVet上得分51.7、在MMMU上得分50.7，全面压过了包括Show-o2、Janus-Pro、Emu3、VILA-U在内的竞争对手。

特别值得关注的是三个专门考察细粒度视觉感知的基准：V*要求模型在高分辨率图像中识别非常小的目标物体，CountBench考察精确计数能力，VisuLogic则测试视觉逻辑推理。在这三个基准上，Tuna-2和Tuna-R双双超越了所有依赖压缩潜空间的统一模型，充分验证了直接在像素空间建立视觉表示对细粒度理解任务的优势。具体来说，Tuna-2在V*上得分59.2、CountBench上得分81.7、VisuLogic上得分28.8，均优于同类模型。

在图像生成方面，GenEval和DPG-Bench是两个被广泛采用的标准评测基准。Tuna-2在GenEval上的综合得分为0.87，在DPG-Bench上的综合得分为86.54，达到了所有7B规模原生统一模型中的顶尖水平，与BAGEL、Mogao等强劲对手基本持平或略胜一筹。Tuna-R在这两个基准上比Tuna-2稍微高出一点，说明表示编码器提供的语义先验对生成任务仍有一定帮助，但差距已经非常小。

研究团队还专门做了一个基于大语言模型评判的质量与多样性对比实验，分别用GPT-5.4和Claude Opus 4.7作为裁判，让Tuna、Tuna-R和Tuna-2各自为1500个提示词生成四张图，然后让裁判从质量（真实感和细节丰富度）和多样性（同一提示词下四张图的变化程度）两个维度选出最佳模型。结果显示，Tuna-2在图像多样性上远超另外两个模型，在质量上与Tuna-R基本相当，两者均优于Tuna。这说明移除编码器后，模型生成的图像变得更加多样化，不再受编码器固有偏见的束缚。

在图像编辑方面，ImgEdit基准涵盖了添加物体、调整属性、背景替换、风格迁移等多种编辑类型。Tuna-2在统一模型中排名靠前，超过了OmniGen、BAGEL、UniWorld、OmniGen2等模型，整体得分4.09，略低于Tuna的4.31和Tuna-R的4.18，说明视觉先验对精细编辑任务仍有一定价值，但差距已相当有限。

在图像重建能力测试上，研究团队对Tuna-R和Tuna-2进行了轻量级微调，然后在ImageNet验证集上评估重建质量。结果显示，Tuna-2的rFID（衡量图像质量的指标，越低越好）为0.15，PSNR（峰值信噪比，越高越好）为32.80，SSIM（结构相似度，越高越好）为0.93，在所有统一型视觉编码器中排名第一，甚至接近FLUX.1专用VAE编码器的水平（rFID 0.06，PSNR 33.65），远超其他非KL正则化VAE方案如RAE（rFID 0.61，PSNR 19.20）。

**八、Tuna-R对比Tuna-2：谁在什么时候更强**

研究团队绘制了两个模型在训练数据规模不断增加过程中的性能变化曲线，这个分析揭示了一个非常有意思的动态规律。

在训练早期，Tuna-R在理解类基准（OCRBench、MMVP、V*）上表现更好。这并不意外——Tuna-R的表示编码器是经过大量图文对预训练的，自带丰富的语义知识，就像一个刚入职就有多年工作经验的员工；而Tuna-2从零开始学习视觉表示，起步慢是正常的。

然而，随着训练数据量的不断增加，Tuna-2逐渐追上并最终超越了Tuna-R。这说明，在足够大规模的统一多模态预训练下，单一架构的端到端学习能发展出比编码器固有偏见更强的视觉理解能力。编码器的先验知识是一把双刃剑：它在初期提供了快速起步的优势，但同时也限制了模型能学到的视觉表示的上限。

在生成类基准（GenEval）上，Tuna-R在整个训练过程中始终领先于Tuna-2，但这种领先优势随着训练推进而持续收窄。经过SFT阶段后，两者的性能几乎完全持平。这个趋势暗示，如果继续增加预训练规模，Tuna-2在生成任务上赶上Tuna-R只是时间问题。

**九、注意力地图：模型的"眼睛"在看哪里**

为了更直观地理解不同架构学到的视觉语言对齐能力，研究团队可视化了各模型在回答问题时对图像不同区域的"关注程度"——用红色代表高度关注，蓝色代表基本忽略。

以几个典型案例为例：当被问到"图中什么东西在发光？"时，Tuna-2能精准地把注意力集中在窗户发光区域，而其他模型往往只能给出模糊或不完整的定位。当被问到"紫色的物体是什么？"时，Tuna-2能准确锁定目标物体，其他模型则常常出现注意力分散或误指无关区域的情况。

更有挑战性的测试是那些包含误导性语言信息的场景。研究团队设计了一个"猫咖啡馆"案例：题目说主角"喜欢猫咪，去了一家猫咖啡馆"，但图中实际出现的动物是狗，招牌上也写着"dog cafe"。部分模型会被题目中的"猫"字或招牌上的文字干扰，把注意力放在文字信息上而非实际视觉内容上；Tuna-2则能专注于图像中真正相关的视觉区域，展现出更强的视觉-语言解耦能力。

最难的测试是一个"足球比赛"场景：题目中充满了足球、球员、踢球等强烈语言暗示，图中也有一个显眼的足球作为干扰，但实际上球员踢的是一个玻璃杯。大多数模型会被语言先验或视觉显著物（足球）所误导；Tuna-2依然能准确定位到真正被踢飞的玻璃杯。这一系列测试表明，Tuna-2在去除编码器固有偏见之后，反而发展出了更可靠、更稳定的视觉语言对齐能力。

**十、数据配比的学问：生成与理解如何平衡**

研究团队还专门研究了训练数据中图像生成数据与图像理解数据的比例对模型性能的影响。他们用"xgyu"这样的记法来表示生成与理解数据的比例，比如"8g2u"表示生成数据占80%、理解数据占20%。

实验结果显示，无论增加哪一方向的数据量，都会降低该方向的训练损失（误差），即性能提升；但生成任务对数据比例的变化更敏感，理解任务的损失在不同比例下变化较小。经过系统比较，7:3（生成:理解）的比例在两个任务之间实现了最佳平衡，在综合评测中表现最优，因此研究团队在所有正式实验中都采用了这个比例。

---

归根结底，Tuna-2这项研究告诉我们一件听起来有点颠覆直觉的事：在构建既能看图又能画图的AI系统时，那些我们以为不可或缺的"翻译机器"——视觉编码器——其实可能正在拖我们的后腿。

当模型不再依赖任何预训练的视觉模块、被迫从原始像素中自己摸索出看图和画图的规律时，它反而在需要仔细辨别细节的任务上做得更好了。这就好比一个从小被人手把手教着认字的孩子，和一个从零开始自己摸索语言规律的孩子——前者起步快，但思维框架受到了引导者的限制；后者起步慢，但最终形成的理解可能更深刻、更灵活。

这项研究目前仍是一篇预印本，尚未经过正式同行评审，其中一些结论——比如Tuna-2是否在更大规模下持续优于编码器方案——还需要更多实验来验证。但它提供的研究思路和实验证据，已经足够清晰地指向一个值得深入探索的方向：以后构建多模态AI，或许不再需要那些精心设计的视觉"翻译机器"，一个统一的端到端系统，可能就够了。

有兴趣进一步了解技术细节的读者，可以通过arXiv编号2604.24763查阅完整论文，项目主页也在tuna-ai.org/tuna-2上持续更新相关资源。

---

Q&A

Q1：Tuna-2为什么能在不用视觉编码器的情况下理解图片？

A：Tuna-2用一种极其简单的"打补丁"方式，把图片切成小块直接送进一个统一的Transformer模型处理，不依赖任何预训练的视觉编码器。因为没有编码器固有偏见的干扰，模型被迫从原始像素中自己学会看图的规律，在大规模训练后反而能捕捉到更细致的视觉细节，尤其在识别小物体、精确计数、抵抗语言干扰等任务上表现更好。

Q2：Tuna-2生成的图片质量比用VAE的模型差吗？

A：从GenEval和DPG-Bench的评测结果来看，Tuna-2的图片生成质量与目前主流的统一多模态模型基本持平，达到了7B参数规模模型的顶尖水平。在由GPT-5.4和Claude Opus 4.7进行的质量与多样性评判中，Tuna-2在图像多样性上明显优于有编码器的版本，质量上基本相当。唯一的细微差距体现在图像编辑任务上，说明视觉先验对精细编辑还有一点帮助。

Q3：掩码训练在Tuna-2里具体是怎么做的？

A：训练时，系统会随机选取图像的一部分区块，用一个可学习的特殊标记替换掉这些区块，让模型在"看不完整图"的情况下继续工作。对于生成任务，模型要从残缺的噪点图预测出完整的清晰图像；对于理解任务，模型要根据不完整的图像内容回答问题。这两种情况都迫使模型学会从全局信息推断局部细节，而不是走依赖表面纹理的捷径，最终提升了视觉表示的质量和鲁棒性。

人工智能多模态大模型编码器自由架构

分享至