微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

Meta Reality Labs打造的"人类视觉超级大脑"：Sapiens2如何让AI真正读懂人类

人体视觉基础模型视觉Transformer多任务学习

Meta Reality Labs打造的"人类视觉超级大脑"：Sapiens2如何让AI真正读懂人类

作者：科技行者

2026-05-06 09:07

分享至：

这项由Meta Reality Labs发布于ICLR 2026（arXiv:2604.21681）的研究，推出了名为Sapiens2的人体视觉基础模型家族，参数规模从4亿到50亿，支持1K原生分辨率和4K层次化分辨率。模型通过将掩码图像重建与对比学习联合预训练，在十亿张高质量人类图像上学习兼具细节保真度和语义理解的特征表示。经过精细后训练后，Sapiens2在姿态估计、身体部位分割、三维点图、表面法线和反照率估计五大任务上全面刷新了业界最优性能，是目前最全面的人体视觉基础模型之一。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-06 09:07 • 科技行者

这项由Meta Reality Labs团队主导的研究，以论文《Sapiens2》发表于2026年的ICLR（国际学习表征会议），论文编号为arXiv:2604.21681。感兴趣的读者可以通过这个编号在学术数据库中查阅完整原文。

**一道古老的难题**

手机相册里存着几千张照片，其中绝大多数都有人。你有没有想过，当AI试图"理解"这些照片时，它究竟在做什么？它能认出你穿的是衬衫还是外套吗？能判断你的手指弯曲到什么程度吗？能感知你脸上的细纹吗？

事实上，让机器真正理解"人"，一直是计算机视觉领域最棘手的挑战之一。人类是地球上形态最为复杂、动作最为丰富的视觉对象——我们有表情、有姿态、有衣物遮挡、有光影变化。要让AI在任何场景下都能准确识别和分析人类，需要的不只是一个"聪明"的模型，更需要一个真正理解人类外观、结构和语义的"专家大脑"。

Meta Reality Labs的研究团队在第一代Sapiens模型的基础上，推出了全面升级的Sapiens2。这个新版本在数据规模、模型架构和训练方式三个维度上都进行了大幅革新，目标是打造一个能处理**任何人类任务、任何人类图像、并输出最高保真度结果**的通用视觉基础模型。

为了理解这件事的难度，可以用一个日常比喻来铺垫：培养一个全科医生，比培养一个只会量血压的专科护士难得多。全科医生不仅要会量血压，还要会看皮肤、判断骨骼、评估精神状态。Sapiens2的雄心正是成为人类视觉领域的"全科专家"，而不是只会做一件事的"流水线工人"。

**一、AI看人的两大流派，以及它们各自的短板**

在讲Sapiens2做了什么之前，有必要先理解AI在"学会看图"这件事上走过的两条路。

第一条路叫做**遮住图片让AI猜**。这种方法（学术上称为"掩码图像建模"或MIM）的逻辑是：把一张图的一部分遮住，让AI根据剩余部分推测被遮住的内容。就像给你看一张残缺的拼图，你需要根据已有的碎片判断缺口处应该是什么颜色、什么形状。这个过程强迫AI学习图像的细节和纹理，因为只有真正理解像素层面的细节，才能准确还原被遮住的部分。Facebook的MAE（掩码自编码器）就是这条路上的代表作，Sapiens第一代也主要依赖这种方法。这条路的优点是能让AI记住很多低层次的视觉细节，比如颜色、纹理、材质；缺点是AI学到的是"像素级的拼图技巧"，却未必真正理解图中物体的语义——它知道这里应该有一块橙色，但不一定知道这是一只手的皮肤。

第二条路叫做**让AI区分不同图片**。这种方法（学术上称为"对比学习"或CL）的逻辑是：给AI看很多对图片，告诉它哪些图片属于同一类（正样本对），哪些不是（负样本对），让AI学会在特征空间中把相似的图片拉近、不同的图片推远。这就好像让一个孩子通过比较不同人的照片来学习"人脸识别"——通过大量的"这两张是同一个人/不是同一个人"的反馈，孩子慢慢学会了区分人脸的关键特征。DINO、DINOv2等模型走的就是这条路。这条路的优点是让AI获得很强的语义理解能力；缺点是在追求"语义不变性"的过程中，AI往往会忽略或丢失颜色、纹理等低层次细节，而这些细节对于很多人类视觉任务来说恰恰至关重要——比如判断一个人的肤色用于皮肤分割，或者提取用于虚拟换装的布料纹理。

Sapiens2的核心预训练思路，就是把这两条路融合在一起。用一个比喻来说：就像同时教会一个学生既要能"临摹画作"（掌握细节），又要能"鉴赏风格"（理解语义）。掩码重建负责让模型把图像细节牢牢记住，对比学习负责让模型理解图像的高层含义，二者协同训练，共同塑造一个既懂细节又懂语义的特征表示。

具体来说，训练过程中采用了一种"老师-学生"的框架。有一个"学生"模型在努力学习，还有一个"老师"模型在旁边监督——老师的参数不直接训练，而是通过"指数移动平均"的方式慢慢跟随学生更新，这保证了老师始终比学生稍微稳定一些，能给出更可靠的参考信号。对于每张训练图像，系统会生成多个"不同视角的版本"（通过裁剪、翻转等方式），学生处理其中一个版本，老师处理另一个版本，系统要求学生的预测结果和老师的结果保持一致——这就是对比学习的部分。与此同时，学生还需要在遮住大部分图像内容的情况下，重建被遮住部分的像素细节——这就是掩码重建的部分。整体训练目标是这两个损失函数的加权组合，权重分别是1.0（重建）和0.4（对比），还有一个小的辅助正则化项（权重0.04）。

值得一提的是，在为掩码重建任务生成训练视图时，团队特意**不对全局视图使用颜色增强**。这是一个很细心的设计选择：如果对用于重建的图像随机改变颜色，模型就会被迫在错误的颜色信息上训练，反而会损害其对颜色等低层次细节的保留能力。这与之前提到的"对比学习可能丢失颜色信息"的问题形成了直接的对应——Sapiens2通过这个小小的设计决策，有意保护了颜色等感知细节不被破坏。

**二、一亿张不够，十亿张才刚好——Humans-1B数据集的诞生**

再好的学习方法，也需要足够多、足够好的素材。Sapiens2的预训练数据集被命名为Humans-1B，顾名思义，包含约十亿张高质量的人类图像。

这十亿张图是如何从互联网的海量图片中筛选出来的？整个过程可以理解为一场多轮"选拔赛"。初始候选池大约有四十亿张图片，随后经过多个筛选关卡：首先用目标检测模型确认图中确实有人，同时用头部姿态估计确认人脸清晰可见；接着对图片进行美学评分和真实感评分，把模糊、合成感强或质量低劣的图片剔除；然后使用CLIP（一种能理解图文对应关系的模型）提取图像特征，识别并去除带有大量文字覆盖的图片；此外还进行了去重处理，包括感知哈希去重（检测几乎完全相同的图片）和深度特征近邻去重（检测视觉内容高度相似的图片）。

光是筛选还不够，还要保证多样性。因为如果数据集里全是正面、站立、光线充足的照片，模型就很难泛化到侧脸、蹲姿或逆光等场景。为此，团队对图像的视觉嵌入进行了聚类分析，然后按类别进行"均衡采样"，确保不同姿势、不同视角、不同遮挡程度、不同服装、不同场景类型、不同光照条件的图片都有足够的代表性。

最终留下来的约十亿张图片，覆盖了不同年龄、不同民族、不同背景的人类个体，且每张图中至少有一个人的短边像素不低于384像素——这保证了图像有足够的分辨率来学习精细的人体细节。这个数据集比第一代Sapiens的预训练数据（约三亿张）扩大了三倍多，是目前已知规模最大的专门针对人类图像的预训练数据集之一。

**三、更大、更稳、更清晰——模型架构的全面升级**

有了好的训练方法和丰富的数据，还需要一个足够强大的模型来承载这些能力。Sapiens2在模型架构上做了多项改进，从规模到效率都有显著提升。

这一代共推出四个不同规模的模型：0.4B（约四亿参数）、0.8B（约八亿参数）、1B（约十五亿参数）和5B（约五十亿参数）。前三个模型分别在第一代Sapiens的0.3B、0.6B和1B版本基础上升级而来，最大的5B模型则是全新设计的，在深度（层数从更小增加到56层）和宽度（每层的向量维度从更小增加到2432）上都大幅扩展。Sapiens2-5B以约15.7万亿次浮点运算（TFLOPs）的计算量，成为目前已知FLOPs最高的视觉Transformer模型。

架构改进不只是"把模型做大"，还包含一系列针对训练稳定性和计算效率的精细调整。在激活函数方面，原来的前馈网络层被替换为"门控SwiGLU-FFN"变体，这种设计在大语言模型（如LLaMA）中已经被证明能显著提升训练效果和表示能力。在注意力机制方面，中间层的标准多头自注意力被替换为"分组查询注意力"（GQA），这种机制在保持模型表达能力的同时减少了计算量，提升了吞吐量。在归一化层方面，传统的LayerNorm被更高效的RMSNorm取代，参数更少，计算更快。为了保证超长训练周期的稳定性，还引入了"QK-Norm"——在计算注意力权重之前，对查询向量和键向量分别进行归一化，防止在高分辨率训练中出现注意力权重爆炸的问题。

解码器方面也有重要升级：输出分辨率从原来的0.5K提升到1K，使用了"像素洗牌"（PixelShuffle）层进行亚像素级别的上采样，有效避免了传统上采样中常见的棋盘格伪影。

**四、从1K到4K：让AI在"超高清模式"下工作**

Sapiens2在1K分辨率的基础上，还推出了支持4K分辨率的模型变体。这是一个相当大胆的扩展——毕竟，4K图像包含的像素数量是1K的约16倍，对应的视觉Token数量也是16倍，如果直接用标准的全局自注意力处理，计算量会以平方级别爆炸，完全不可行。

解决这个问题的方案是采用"层次化注意力设计"。具体来说，模型分为两个阶段处理输入图像：前K层使用"窗口化自注意力"，每个注意力头只在图像的一个局部窗口内计算注意力，就像把一幅巨大的地图分成若干小块，每次只仔细研究一个小块。这个阶段负责捕捉局部纹理和边界细节，计算量与图像总像素数成线性关系，而不是平方关系。随后，通过一种基于CLS（分类）Token的池化操作，把2D Token网格进行空间降采样，将Token数量缩减为原来的1/ω（ω是降采样因子）。降采样后的Token序列再经过后L层全局自注意力处理，整合长距离的上下文信息——就像把各个小地图块的分析结果汇总起来，在更高层次上进行全局推理。

这种设计有一个额外的好处：它与掩码自编码器的预训练方式非常兼容。在预训练时，可以在窗口化局部层完成之后再做Token遮掩操作，这样被遮掩的Token信息就不会通过局部注意力泄漏到其他区域——解决了卷积网络在做掩码预训练时需要特殊设计"掩码卷积"才能防止信息泄漏的问题。

对于4K模型，团队还特意设计了一个"2K分辨率的短期微调阶段"：在完成主要预训练之后，额外在2K分辨率输出下进行一段专注于密集预测的重建训练，目的是锐化亚像素级别的细节保真度，同时不损害已经学到的语义理解能力。

**五、让模型学会做具体的事：后训练阶段的五大任务**

预训练让模型学会了"看懂人"，但要让它真正能用，还需要针对具体任务进行微调——就像一个医学院毕业生在成为执业医师之前，还需要经过临床实习，学会处理具体的病例。

Sapiens2的后训练覆盖了五个核心任务，每个任务都采用轻量级的任务特定解码器"头"（head），预训练好的骨干网络在微调过程中保持不变。

第一个任务是**姿态估计**，也就是定位人体的关键点。Sapiens2使用的是一套包含308个关键点的全身骨架标注体系，其中面部就占了243个关键点，双手共40个，其余分布在躯干和下肢。这种密集标注的精度远超大多数现有系统。任务目标是从输入图像中预测每个关键点的热力图（heatmap），哪个区域的响应越强，就说明该关键点越可能在那里。相比第一代Sapiens主要依赖实验室采集的标准姿态数据，Sapiens2新增了十万张来自预训练数据集的"野外"图像标注，这些图像覆盖了各种日常生活场景，让模型能更好地泛化到真实世界中。

第二个任务是**身体部位分割**，也就是把图像中的每个像素分配到对应的身体部位类别。这一代的分类体系有29个类别，比上一代多了一个"眼镜"类别。为了提升边界清晰度，损失函数从单纯的交叉熵升级为交叉熵与Dice损失的组合，Dice损失对边界区域的错误惩罚更为敏感，能促使模型输出更锐利的分割边界。同样，新增了两万张野外图像的分割标注作为补充训练数据。

第三个任务是**点图估计**，这是Sapiens2相比前代新增的能力之一。普通的深度估计只是给出每个像素的相对远近关系，而点图（pointmap）估计直接预测每个像素对应的三维坐标（X、Y、Z），提供了更丰富的三维几何信息，可以直接用于三维重建和虚拟现实应用。由于单目相机的内参未知，绝对的度量深度是无法直接确定的，Sapiens2采用了"焦距归一化点图"加"标量头"的设计，预测的是在焦距归一化坐标系下的三维坐标，并通过一个独立的标量头来估计缩放系数，从而得到最终的点图。训练数据全部来自高保真合成渲染资产，包含精细的头发、眼睛和面部细纹几何。

第四个任务是**法线估计**，即预测每个人体像素处的表面法线方向（一个指向表面外侧的单位向量）。法线信息对于渲染逼真的光照效果至关重要，也是人体三维重建的重要输入。与点图估计共享同一套高保真合成训练数据，解码器使用多层PixelShuffle进行无伪影上采样。损失函数结合了余弦相似度损失、L2损失和梯度差分损失，多角度约束法线预测的准确性。

第五个任务是**反照率估计**，即预测每个像素的漫反射基础色（albedo），也就是去除光照影响后，物体表面本身的颜色。这对于虚拟换装、人像重新打光等应用非常关键——如果AI能准确知道你皮肤和衣物的"固有颜色"，就可以在任意光照条件下对你的照片进行真实感渲染。损失函数在标准的L2重建损失和梯度损失之外，还加入了全图平均颜色的对齐项，以确保预测的整体色调与真实值保持一致。

**六、测试成绩单：Sapiens2到底有多强？**

评估一个AI模型的能力，就像给一个全科医生出综合考题。Sapiens2在多个任务和多个评估维度上进行了系统测试，结果普遍刷新了业界纪录。

在姿态估计方面，使用包含11000张野外图像的测试集（相比第一代Sapiens使用的5000张实验室图像，难度显著提升），Sapiens2-5B达到82.3 mAP（平均精度）和85.3 mAR（平均召回率）的成绩，相比第一代的最优版本分别提升了4个mAP和3.2个mAR。即使是Sapiens2-0.8B这个参数量远小于第一代2B模型的版本，也以79.4 mAP超过了后者的78.3 mAP，体现了架构改进和更广泛监督数据带来的效率提升。

在身体部位分割方面，改进尤为显著。在同样的训练数据下，Sapiens2-1B以81.7% mIoU的成绩，比第一代1B模型的53.8%提升了27.9个百分点——这相当于把一个勉强及格的成绩提升到了优秀水平。支持4K输出的Sapiens2-1B-4K版本进一步达到81.9% mIoU。最强的Sapiens2-5B则以82.5% mIoU的成绩领跑所有方法，相比第一代最佳的58.2%提升了24.3个百分点。与SegFormer、Mask2Former等专门针对分割任务优化的通用模型相比，Sapiens2也有30个百分点以上的显著优势。

在点图估计方面，测试集包含10000张具有精细几何细节的合成渲染图像，评估使用焦距归一化坐标系下的L2距离和各轴向绝对误差。Sapiens2-0.4B在L2距离上达到0.190，已经优于专门针对单目几何估计设计的VGGT（0.217）和MoGe（0.202）；最强的Sapiens2-5B以0.167的L2距离进一步拉开差距，在所有轴向误差上也均为最优。

在法线估计方面，测试集为包含10000张全身扫描图像的合成测试集，地面真值分辨率达到4K。Sapiens2-0.4B在平均角度误差上达到8.63度，以94.76%的像素角度误差在30度以内，已经超越了DAViD（10.73度）等此前最好的方法。随着模型规模增大，性能持续提升：Sapiens2-5B将平均角度误差压低到6.73度，62.80%的像素误差在5度以内，96.13%在30度以内。相比第一代Sapiens的13.62度均值误差，降幅达到50%以上，正是摘要中提到的"45.6%更低的角度误差"所指。

在反照率估计方面，Sapiens2-5B以0.01191的MAE（平均绝对误差）和32.61 dB的PSNR（峰值信噪比）领跑所有规模版本。尽管模型仅在合成数据上训练，但在真实世界图像上的可视化结果显示，它能够在不同光照条件下较好地恢复皮肤和服装的本征颜色。

此外，团队还进行了一项叫做"密集探针"（dense probing）的冷冻评估实验——把预训练好的骨干网络参数完全固定，只训练轻量级的任务解码器，以此测试骨干网络特征本身在各任务上的零样本泛化能力。结果显示，Sapiens2-5B在姿态估计（74.7 mAP）、分割（69.6% mIoU）、点图（0.358 L2）、法线（13.5度MAE）和反照率（0.0312 MAE）五个任务上，全面超越了DINOv3-7B、DINOv2-G、Perception Encoder等规模相当甚至更大的通用视觉基础模型，验证了联合预训练目标在人类图像特征学习上的优越性。在可视化方面，用CLS Token检索最近邻图像的实验显示，Sapiens2能够返回语义上高度相关的图像（如相同姿态、相似场景的人物），而第一代Sapiens的检索结果则质量参差不齐，体现了对比学习带来的语义组织能力提升。

**七、为什么这件事比听起来更重要**

说到底，Sapiens2的意义不仅仅在于它在各个测试指标上刷新了数字。

从更宏观的视角来看，这是一次关于"如何构建真正通用的人类视觉AI"的方法论探索。在Sapiens2之前，大多数强大的人类视觉系统要么专注于某一特定任务（如只做姿态估计或只做分割），要么依赖大量手工设计的人类先验知识（如骨架拓扑结构、身体比例约束）。Sapiens2的思路是：给模型足够多的数据、足够强的架构、足够好的训练目标，让它自己从数据中学出这些知识，而不是由人为强行注入。事实证明，这条"少先验、多数据"的路线在规模足够大时能够产生非常令人信服的效果。

从应用角度来看，Sapiens2所涉及的这些任务——姿态估计、部位分割、三维几何、法线和反照率——几乎覆盖了数字人制作、虚拟试衣、运动分析、人像重打光、增强现实等当下最热门的人工智能应用场景的核心技术需求。一个能同时高质量地完成这五项任务的单一模型，意味着开发者可以用一个统一的基础模型替代原来需要五个独立系统才能覆盖的功能，这在工程实践上有着相当大的价值。

当然，这项研究也存在一些值得关注的局限性。合成数据训练与真实世界泛化之间的差距（尤其在反照率和法线估计任务上）仍然是一个开放问题。5B参数的巨大模型在消费级硬件上的部署也面临着不小的挑战。另外，尽管团队强调数据集的多样性，但十亿张网络图像的潜在偏差仍然是一个值得持续审视的问题。

归根结底，Sapiens2代表的是这样一种信念：理解人类，是AI最值得努力的方向之一。而做到这件事的方式，不是依赖越来越多的手工规则，而是依赖越来越丰富的数据、越来越聪明的学习方式、越来越精密的模型设计。这个方向能走多远，我们正在见证。

对这项研究感兴趣的读者，可以通过arXiv编号2604.21681找到完整论文，Meta Research团队也在GitHub（facebookresearch/sapiens2）上开源了相关代码和模型。

---

**Q&A**

Q1：Sapiens2的掩码重建和对比学习是怎么结合在一起训练的？

A：两个目标同时在一个训练流程中进行。每张图像生成多个视角版本，"学生"模型对其中一个视角进行处理，既要重建被遮掩的像素区域（掩码重建），又要让自己的CLS全局特征匹配"老师"模型对另一视角的输出（对比学习）。最终损失是两个目标的加权求和，重建权重为1.0，对比权重为0.4。老师模型不直接训练，而是以指数移动平均的方式跟随学生更新，保持相对稳定。

Q2：Sapiens2的4K模型是怎么处理超高分辨率图像的计算量问题的？

A：核心方案是层次化注意力设计。前K层只在局部窗口内计算注意力（窗口化自注意力），把计算量从平方复杂度降到线性；随后通过CLS引导的池化对Token序列进行空间降采样，大幅减少Token数量；降采样后的序列再用标准全局自注意力处理，整合长距离上下文。这样既保留了局部纹理细节，又能捕捉全局语义，同时把计算量控制在可接受范围内。

Q3：Sapiens2的反照率估计模型只在合成数据上训练，在真实照片上效果如何？

A：尽管训练数据完全来自合成渲染，模型在真实世界图像上的表现仍然相当稳健。可视化结果显示，它能在不同光照条件下较好地恢复皮肤本色和服装颜色，说明模型学到的并非对合成渲染风格的记忆，而是对反照率特征的真实理解。不过合成到真实的域差异仍然存在，这是该任务未来需要持续改进的方向。

人体视觉基础模型视觉Transformer多任务学习

分享至