
这项由Meta FAIR实验室与香港大学联合完成的研究发表于2024年12月,论文编号为arXiv:2512.15715v1,研究团队包括杨立河、李尚文、李阳、雷新杰等多位学者。有兴趣深入了解的读者可以通过该编号查询完整论文。
在人工智能的世界里,教会计算机"看懂"图片一直是个巨大挑战。就像教孩子认识世界一样,我们需要给计算机提供大量的例子和训练。但问题在于,现有的方法往往依赖人类标注的信息,这就像是给孩子看图片的同时还要告诉他"这是猫"、"那是狗"。而Meta的研究团队却提出了一个革命性的想法:为什么不让计算机直接从像素本身学习,就像人类婴儿最初通过观察世界来学习一样?
这个名为"Pixio"的新模型就像是给计算机配备了一双更敏锐的眼睛。研究团队认为,像素是视觉信息的最基本来源,包含了从颜色、纹理这样的低层细节,到物体识别、场景理解这样的高层概念的所有信息。传统的方法往往需要复杂的预处理步骤,就像给孩子看图片前先要大人解释一遍。而Pixio直接从原始像素开始学习,让计算机自己发现和理解视觉世界的规律。
研究团队的核心洞察在于,现有的自监督学习方法可以分为两大类:一类是在原始输入空间(比如像素)中定义学习目标,另一类是在经过模型处理后的潜在空间中学习。虽然目前业界普遍青睐后者(如DINO系列模型),但研究团队坚信像素空间的学习潜力被严重低估了。他们认为,像素是我们感知物理世界的最直接途径,包含着所有层次的视觉信息,而不应该被视为需要抽象化处理的"噪音"。
为了验证这个想法,研究团队在经典的掩码自编码器(MAE)基础上进行了四项关键改进。这就像是对一个已经很好用的工具进行精细调校,让它能够处理更复杂的任务。
一、让解码器变得更聪明:深度优化的关键突破
研究团队发现了一个有趣的现象:在原始MAE模型中,最好的图像特征并不是出现在编码器的最后一层,而是在中间的某些层。这就像是一个学生在考试时,中间的答题过程比最终答案更有价值。通过仔细分析,他们意识到问题出在解码器的能力不足上。
原始的MAE解码器就像是一个能力有限的翻译员,无法准确地将编码器提取的抽象特征转换回像素级别的图像。为了完成重建任务,编码器不得不"下沉"一部分计算资源来协助解码,这就像是让一个专业分析师去做打字员的工作,浪费了宝贵的分析能力。
解决方案很直观:让解码器变得更强大。研究团队将解码器的深度从8层增加到32层,这相当于给翻译员配备了更强的语言能力。实验结果证明了这一改进的有效性:在ImageNet-1K上的k-NN准确率从35.3%跃升到55.8%,NYUv2深度估计误差从0.431降低到0.410,ADE20K语义分割的mIoU从35.8提升到40.4。
但解码器也不能过度强大,否则就会出现"喧宾夺主"的情况。如果解码器能力过强,编码器就会变得懒惰,依赖解码器来完成本应自己承担的表征学习任务。这就像是给学生配备了过于先进的计算器,反而让学生失去了独立思考的能力。
二、掩码策略的精妙设计:从单点到块状的智慧跃升
原始MAE采用的是随机掩盖单个图像块的策略,但这种方法存在一个根本问题:模型可以通过简单地复制相邻的可见区域来"作弊"完成重建任务,而不需要真正理解图像内容。这就像是让学生做填空题时,如果空白处前后的文字都能看到,学生就可能通过猜测而非真正理解来填空。
研究团队的解决方案是采用更大粒度的掩码策略,比如4×4的局部块掩码。这种方法既提供了足够的局部上下文信息帮助学习,又避免了简单的复制粘贴行为。实验表明,仅仅将掩码粒度从单个patch改变为2×2 patch块,就能将ImageNet-1K的k-NN准确率提升19个百分点,同时大幅改善深度估计和语义分割的性能。
但掩码块也不能过大,比如8×8的掩码块会让重建任务变得几乎不可能完成,就像是给学生出了一道完全超出能力范围的题目,反而无法促进学习。研究团队通过大量实验找到了4×4这个最佳平衡点。
三、多重类标记的集体智慧
传统的MAE模型只使用一个类标记来捕获全局信息,但单个标记显然无法囊括图像中的所有全局属性。这就像是让一个人同时负责记录会议的主题、氛围、重要观点和后续行动,显然力不从心。
研究团队引入了多个类标记,让每个标记专门负责捕获图像的不同全局属性,比如场景类型、图像风格、物体概念、相机角度等。在下游任务中,他们可以选择平均这些类标记或者将它们连接起来使用。
实验证明,随着类标记数量从1个增加到4个,ImageNet-1K的k-NN准确率从63.3%提升到75.1%,其他密集预测任务也获得了相应的改善。但类标记数量也不是越多越好,过多的类标记可能会导致信息冗余和计算资源浪费。
四、大规模数据与智能筛选策略
早期的视觉自监督学习研究大多基于小规模的ImageNet-1K数据集进行训练,但DINOv2的成功证明了大规模、概念丰富的数据对于学习鲁棒可转移表征的重要性。然而,DINOv2和DINOv3采用的数据策略存在明显的基准偏向问题,比如使用基准图像作为查询来检索相似的训练图像,甚至直接将基准训练图像加入预训练数据集并进行大量重复采样。
这种做法虽然能在短期内获得强劲的基准测试结果,但可能会让模型在面对未知场景时表现脆弱。研究团队选择了一条不同的路径:他们采用MetaCLIP的方法收集了20亿张网络爬取的图像,覆盖了比精心策划的基准数据集更丰富的场景。
但原始的网络数据分布并不理想,充斥着大量的产品图片和文本密集图像(如文档),这些内容对于通用视觉表征学习价值有限。研究团队设计了两种互补的策略来改善数据质量。
首先是基于损失的软采样策略。他们使用在原始数据上预训练的Pixio模型为每张图像预计算重建损失,然后根据损失值进行概率采样:重建损失高的图像被选中的概率更大。这种策略自动降低了那些容易重建的图像(如产品图片)的采样权重,同时突出了视觉内容丰富、重建困难的图像。
其次是基于颜色直方图熵的过滤策略,用于减少文本密集图像的比例。文本密集图像虽然重建损失可能很高,但场景多样性有限,对视觉表征学习的贡献不大。
这种简单而有效的数据策略帮助Pixio在保持数据多样性的同时避免了基准偏向,为模型的泛化能力奠定了坚实基础。
研究团队在多个任务上对Pixio进行了全面测评,结果令人印象深刻。在单目深度估计任务中,Pixio展现出了卓越的性能。以NYUv2数据集为例,使用DPT头时,Pixio将RMSE从DINOv3的0.320降低到0.268,同时将δ1准确率从93.2%提升到95.5%。在KITTI数据集上也取得了类似的改善。更重要的是,即使使用简单的线性回归头,Pixio也能达到令人满意的结果,这说明其学习到的表征具有很强的线性可分性。
在Depth Anything V2的零样本相对深度估计任务中,Pixio在大多数基准测试中都优于或匹敌DINOv3。特别值得注意的是,Pixio在NYUv2、DIODE等数据集上表现出色,而在自动驾驶相关的KITTI数据集上略逊于DINOv2/v3。这个结果其实在预料之中,因为DINOv2直接使用了超过100万张Mapillary驾驶图像,而Pixio的预训练数据中并没有特意加入大量驾驶相关图像。
前向3D重建任务要求模型具备强大的空间布局理解和多视角密集对应能力。研究团队严格按照MapAnything的训练框架进行了对比实验。结果显示,Pixio在室内、户外和合成场景的评测中都持续优于MAE、DINOv2和DINOv3,实现了更好的重建质量和姿态估计结果。这个结果特别有趣,因为虽然Pixio只使用单视角图像进行训练,但却比那些明确使用多视角信息(如DINOv3使用8个视角)的预训练框架展现出更强的多视角理解能力。
语义分割任务需要对每个像素进行密集分类,考验模型的细粒度视觉理解能力。在ADE20K、Pascal VOC和LoveDA三个基准测试中,Pixio都取得了有竞争力的结果,在多个设置下优于或持平最先进的DINOv3模型。特别值得指出的是,Pixio使用了更简单的预训练目标,无需任何基准特定的数据策划,而且参数量比DINOv3少了200M。
在机器人学习的CortexBench评测中,Pixio同样表现优异。该基准包含Adroit、DMC、MetaWorld和Trifinger四个任务,Pixio的平均成绩为78.4%,比专门为机器人学习设计的R3M高出1.2%,比通用模型DINOv3高出3.1%。特别有趣的是,Pixio直接使用平均后的类标记作为全局嵌入,省去了基于CNN的策略网络的计算开销。
为了深入理解各项改进的贡献,研究团队进行了详尽的消融实验。解码器深度的实验证实了他们的核心假设:随着解码器深度从8层(MAE原始设置)增加到32层,所有下游任务的性能都得到显著提升。但解码器也不能过度参数化,因为这可能导致编码器"偷懒",依赖解码器进行表征学习。
掩码粒度的实验揭示了一个重要发现:不同下游任务偏好不同的掩码粒度。几何相关的中层任务(如深度估计)在细粒度掩码(2×2补丁块)下表现更好,而语义相关的高层任务(如语义分割)偏好粗粒度掩码(4×4补丁块)。这符合直觉:较小的掩码单元鼓励模型捕获精细的空间关系,而较大的掩码单元促进更广泛的语义上下文学习。
类标记数量的实验显示,ImageNet分类任务随着类标记数量增加而持续改善,而密集预测任务的改善则相对有限。研究团队推测这可能是因为密集预测更依赖局部特征,而全局表征的改善对其影响较小。
数据来源和策划策略的对比实验证明了大规模多样化数据的重要性。对于密集预测任务,ImageNet-21K和YFCC100M都显著优于ImageNet-1K,证明了更大规模预训练数据的必要性。虽然未策划的20亿图像在某些任务上略逊于精心策划的数据,但在应用简单的策划程序后,性能得到显著改善,同时保持了数据的多样性和可扩展性。
研究团队还测试了多种其他改进方向,但这些尝试并未带来一致的性能提升。比如多块掩码(包括内绘制和外绘制变体)增加了超参数复杂性,限制了训练期间可用的掩码模式多样性,效果反而不如简单的补丁块掩码。混合掩码比例的实验也没有带来明显改善,表明在整个训练过程中使用固定的掩码比例更为有效。
为了满足不同计算资源需求,研究团队还训练了一系列小型化模型。通过知识蒸馏的方式,他们从预训练的Pixio-5B编码器中蒸馏出了Pixio-1B、Pixio-H、Pixio-L和Pixio-B等不同规模的学生模型。虽然参数量显著减少,但大多数学生模型都能在各种任务上匹配教师模型的性能,为实际应用提供了灵活的选择。
在ImageNet分类的微调实验中,Pixio展现了良好的微调潜力。虽然在线性探测(0块微调)时略逊于DINOv3,但随着微调层数的增加,性能差距快速缩小。特别值得注意的是,Pixio的预训练过程完全不涉及任何ImageNet数据,而DINOv3明确将ImageNet-1K图像加入训练集并进行重复采样,占其总训练数据的10%。
这项研究的意义远不止于提出了一个新的模型。它重新证明了像素监督在大规模视觉预训练中的潜力,挑战了当前"潜在空间方法优于像素空间方法"的主流观点。通过三个简单但关键的算法改进和大规模多样化数据的结合,Pixio展现了像素空间自监督学习可以成为潜在空间方法的有竞争力的替代方案。
更重要的是,这项工作为视觉表征学习指出了一个重要方向。研究团队认为,静态图像作为学习视觉智能的媒介存在固有局限性。人类并不是从孤立的快照中学习的,而是通过连续的时间体验以因果方式观察世界如何演化。从这个角度看,视频应该受到更多重视,特别是能够捕捉事件自然进展及其因果关系的长视频。
视频的时间维度使得自然的预测目标成为可能,无需人工的空间掩码。模型可以从当前观察预测未来帧,这种任务植根于物理世界的因果结构。这消除了对人工空间掩码或噪声注入的需求,可能导向更强大且偏向更少的视觉基础模型。
当然,Pixio也并非完美无缺。掩码图像建模永远不会让模型在训练期间接触到自然完整的图像,这种分布偏移仍然是一个需要解决的根本问题。而且,随机掩码本身仍是一种人为扭曲,会引入不必要的偏向。在实践中,掩码策略仍然面临不可避免的权衡:低掩码比例导致真实答案泄露,使重建变得平凡;高掩码比例提供学习的上下文不足,并在训练和推理之间产生分布偏移。
尽管存在这些局限性,Pixio的成功为我们提供了重要启示。它证明了像素监督本身就能产生强大的视觉表征,为视觉预训练提供了一条更简单、更稳定、更高效的路径。随着计算资源的不断增长和视频数据的日益丰富,基于像素监督的方法有望在未来的视觉AI发展中发挥更加重要的作用。
说到底,这项研究告诉我们一个简单而深刻的道理:有时候,最直接的方法往往是最有效的。就像人类通过直接观察世界来学习一样,让AI直接从像素学习,或许才是通向真正视觉智能的正确道路。当我们不再依赖复杂的中间表征和人工设计的学习目标,而是让模型直面原始的视觉信息时,它们展现出的理解能力可能会超出我们的想象。这不仅仅是一个技术进步,更是对AI学习本质的重新思考。对于普通用户来说,这意味着未来的AI系统将能更准确地理解和处理视觉信息,无论是照片编辑、医学影像分析,还是自动驾驶系统,都将受益于这种更贴近人类视觉认知的AI能力。
Q&A
Q1:Pixio模型相比传统方法有什么突破?
A:Pixio最大的突破在于直接从像素学习视觉表征,而不依赖复杂的中间处理步骤。它通过四个关键改进:更深的解码器(从8层增加到32层)、更大的掩码块(4×4而非单个patch)、多个类标记以及20亿张网络图片的训练,让AI能够像人类一样直接从原始视觉信息中学习理解世界。
Q2:Pixio在哪些实际应用中表现更好?
A:Pixio在需要保留低层视觉细节的任务中表现突出,比如深度估计、3D重建和语义分割。在NYUv2深度估计中,它将误差从0.320降到0.268,在机器人学习任务中也比专门设计的模型表现更好。这些应用直接关系到自动驾驶、医学影像分析、增强现实等日常生活中的AI应用。
Q3:为什么说像素监督比现有方法更有前景?
A:像素是视觉信息的最原始来源,包含了从颜色纹理到高层语义的所有信息,而且没有人为偏见。现有方法往往需要复杂的预处理和人工标注,就像给孩子看图前先要大人解释一遍。Pixio证明了AI可以直接从像素学习,这种方法更简单、更稳定,也更接近人类的学习方式,为未来发展更通用的视觉AI奠定了基础。
好文章,需要你的鼓励
Adobe研究院与UCLA合作开发的Sparse-LaViDa技术通过创新的"稀疏表示"方法,成功将AI图像生成速度提升一倍。该技术巧妙地让AI只处理必要的图像区域,使用特殊"寄存器令牌"管理其余部分,在文本到图像生成、图像编辑和数学推理等任务中实现显著加速,同时完全保持了输出质量。
香港科技大学团队开发出A4-Agent智能系统,无需训练即可让AI理解物品的可操作性。该系统通过"想象-思考-定位"三步法模仿人类认知过程,在多个测试中超越了需要专门训练的传统方法。这项技术为智能机器人发展提供了新思路,使其能够像人类一样举一反三地处理未见过的新物品和任务。
韩国KAIST开发的Vector Prism系统通过多视角观察和统计推理,解决了AI无法理解SVG图形语义结构的难题。该系统能将用户的自然语言描述自动转换为精美的矢量动画,生成的动画文件比传统视频小54倍,在多项评估中超越顶级竞争对手,为数字创意产业带来重大突破。
华为诺亚方舟实验室提出VersatileFFN创新架构,通过模仿人类双重思维模式,设计了宽度和深度两条并行通道,在不增加参数的情况下显著提升大语言模型性能。该方法将单一神经网络分割为虚拟专家并支持循环计算,实现了参数重用和自适应计算分配,为解决AI模型内存成本高、部署难的问题提供了全新思路。