当你在玩游戏时调整角色外观时,是否曾经遇到过这样的困扰:想要增加角色的肩膀宽度,结果整个身体都跟着变化了;想要调整身高,手臂长度也莫名其妙地改变了?这种看似简单的需求,在3D人体建模领域其实是一个极其复杂的技术难题。最近,来自Meta公司和卡内基梅隆大学的研究团队发表了一项突破性研究,他们开发出了名为ATLAS的全新3D人体建模系统。这项研究于2025年8月发表在计算机视觉领域的顶级会议上,论文编号为arXiv:2508.15767v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
研究团队的阵容相当豪华,包括来自Meta公司的朴镇炯、哈维尔·罗梅罗、斋藤俊介、法比安·普拉达、白鸟貴明、徐艺晨、费德丽卡·博戈、余守一以及来自卡内基梅隆大学的克里斯·基塔尼和拉瓦尔·基罗德卡等多位专家。这个跨国界、跨机构的合作团队汇聚了计算机视觉、人工智能和3D建模领域的顶尖人才。
说起3D人体建模,你可能会觉得这是一个非常专业和遥远的技术。但实际上,它就在我们身边无处不在。当你使用手机拍摄人像照片时的美颜功能,当你在社交媒体上使用虚拟形象,当你玩游戏时创建自己的角色,甚至当你在网上购买衣服时看到的试穿效果,背后都离不开3D人体建模技术。这项技术就像是数字世界中的"人体雕塑师",它需要准确地理解和重现人体的各种形态、动作和外观。
然而,现有的技术就像是用一团橡皮泥来捏人,当你想要调整某个部位时,其他部位也会跟着变形。比如说,当前最先进的SMPL-X系统就面临着这样的问题:它首先塑造身体表面,然后根据表面来推测内部的骨骼结构。这就好比先做好了一个人偶的外壳,然后猜测里面的骨架应该长什么样子。这种做法导致了一个根本性的问题:外表和骨架之间产生了不应该存在的关联。
想象一下这样的场景:你想要调整一个数字人物的肩膀宽度,但是系统却同时改变了这个人物的体重外观;或者你想要让人物长高一些,结果连胳膊的粗细都跟着变了。更糟糕的是,这种关联还会导致骨架不对称的问题。研究团队发现,在SMPL-X系统中,即使是最基本的人体骨架模板,其肘部、脊柱和脚部都存在明显的不对称现象。这就像是一个天生骨架歪斜的人偶,无论怎么调整都不够自然。
面对这些挑战,ATLAS系统提出了一个革命性的解决方案:将人体的外表和骨架完全分离开来处理。这就像是一个优秀的裁缝,他会先准确测量你的骨架尺寸,然后再根据你的体型来制作合适的衣服,而不是反过来通过衣服来猜测你的骨架。
ATLAS系统的训练数据规模也是前所未有的。研究团队使用了240台同步摄像机组成的拍摄系统,捕获了130个不同体型的人在各种姿势下的高分辨率3D扫描数据,总共收集了60万帧数据。这个名为"歌利亚"的数据集比以往任何同类数据集都要庞大。相比之下,经典的SMPL系统只使用了27个人的1200个扫描数据。这种数据规模的差异就像是用一本字典和整个图书馆的区别来学习语言。
一、ATLAS系统的核心创新:像拼装模型一样精确控制
ATLAS系统最大的创新在于它采用了完全不同的工作思路。传统的方法就像是在一团软泥上雕刻人形,调整任何一个部位都可能影响到其他地方。而ATLAS则更像是拼装一个精密的人体模型:先搭建好骨架,再往上添加肌肉和皮肤。
具体来说,ATLAS的工作过程分为两个清晰的步骤。第一步是表面定制阶段,系统会在一个标准的A字姿势(就是人站立时双臂向两侧伸展形成A字形)下调整人体表面的软组织特征,比如肌肉的厚度、脂肪的分布等等。在这个阶段,人体的骨架结构保持完全不变,就像是给一个标准的人体骨架模型添加不同厚度的"肉"。
第二步是骨架定制阶段,这时系统会同时进行缩放和姿势调整。通过线性混合蒙皮技术(这是一种让3D模型根据骨架运动而变形的标准方法),系统可以精确控制76个独立的骨架属性。这些属性包括15个直接影响身体各部分整体尺寸的缩放参数,比如头部大小、手部大小、脚部大小,以及每个手指的独立大小控制。另外还有61个骨长参数,可以调整各个关节相对于其父关节的位置,涵盖了脊柱、颈部、上臂、下臂、大腿、小腿以及每根手指骨头的长度。
这种分离式的设计带来了前所未有的精确控制能力。比如说,你想要创建一个肩膀宽阔但身材苗条的角色,在传统系统中这几乎是不可能的,因为调整肩膀宽度往往会连带影响整个身体的其他部分。但在ATLAS系统中,你可以先通过骨架参数精确设定肩膀宽度,然后通过表面参数独立调整身材的苗条程度,两者之间不会产生任何不必要的干扰。
更令人印象深刻的是,ATLAS系统还支持多种分辨率的网格。在最高分辨率下,ATLAS生成的3D人体模型包含115,834个顶点,这比标准的SMPL模型的6,890个顶点多出约16倍。这意味着ATLAS能够捕捉到更加细腻的人体细节,就像是从粗糙的像素画升级到了高清摄影的差别。
二、稀疏非线性姿态校正:让关节运动更加真实
除了骨架和表面的分离控制,ATLAS还在姿态校正方面实现了重要突破。当人体做出各种动作时,皮肤和肌肉会发生复杂的变形。比如当你弯曲手肘时,手臂内侧的皮肤会聚拢产生褶皱,而外侧的皮肤会拉伸变平。这些细微的变化对于创造逼真的3D人体模型至关重要。
传统的姿态校正方法面临一个两难选择:要么使用稀疏线性校正,这种方法能够避免不相关身体部位之间的错误关联(比如左手肘的动作不会影响右手肘),但表现力有限;要么使用密集非线性校正,这种方法表现力强,能够产生更逼真的变形效果,但容易产生错误的关联性。
ATLAS巧妙地结合了两种方法的优点,创造出了稀疏非线性姿态校正技术。这种方法的工作原理可以用一个多层次的雕刻过程来理解。首先,系统会识别出每个关节及其直接相邻的关节组成一个"局部关节组"。然后,一个轻量级的多层感知机(一种神经网络)会处理这个局部关节组的姿态信息,产生一个包含丰富信息的特征向量。
接下来,这个特征向量会通过一个稀疏的线性映射转换成具体的顶点偏移。这里的"稀疏"意味着每个关节只能影响其周围的顶点,而不会对远距离的顶点产生影响。为了实现这种稀疏性,系统使用了基于测地距离的初始化方法。测地距离就是沿着3D表面的最短路径距离,比直线距离更能反映人体表面的实际连接关系。
这种方法的巧妙之处在于它既保持了非线性校正的表现力,又避免了不合理的长距离影响。实验结果显示,这种稀疏非线性校正比传统的线性校正方法能够更准确地模拟复杂姿态下的人体变形,特别是在肩膀、手肘尖端等难以处理的关节部位。
三、单张图像拟合:从照片到3D模型的魔法
ATLAS系统不仅在3D建模方面表现出色,还开发了一套完整的单张图像拟合流水线,能够从一张普通的照片生成精确的3D人体模型。这个过程就像是一位经验丰富的雕塑家,仅仅通过观察一张照片就能创造出栩栩如生的立体雕像。
这套系统的工作流程体现了ATLAS骨架和表面分离设计的优势。传统的方法往往会将姿态估计和形状估计混合在一起进行,这就像是试图同时解决两个不同的拼图谜题。而ATLAS则采用了分阶段的优化策略:首先通过关键点检测和深度估计来确定人体的骨架结构和姿态,然后通过轮廓匹配来优化表面形状参数。
具体来说,系统首先会利用最新的人体中心AI模型(如Sapiens)来提取图片中人体的关键点、相对深度信息和前景轮廓。关键点就像是人体的标志性位置,比如头顶、肩膀、手肘、膝盖等等。相对深度信息则告诉系统哪些身体部位离摄像机更近,哪些更远。前景轮廓则定义了人体在图片中的边界。
接下来,系统会使用一个经过大规模训练的变分自编码器(VAE)姿态先验来约束全身姿态的合理性。这个姿态先验就像是一个"姿态专家",它见过成千上万种人体姿态,能够判断一个姿态是否符合人体工程学。对于手部姿态,系统则使用主成分分析(PCA)方法来确保手指的摆放看起来自然。
在优化过程中,系统会最小化多个目标函数的组合。关键点误差确保生成的3D模型在投影到2D平面后,其关键点位置与原图片中检测到的关键点位置相匹配。深度误差保证模型的深度分布与AI预测的深度信息一致。轮廓误差则确保模型的边界与原图片中的人体边界重合。
这种分离式的优化策略带来了显著的优势。骨架参数的优化主要依赖于关键点和深度信息,这些信息主要反映了人体的结构特征。而表面形状参数的优化则主要依赖于轮廓信息,这更多地反映了软组织的特征。这样的分工避免了传统方法中常见的问题:通过关键点拟合产生不合理的软组织变化。
实验结果表明,ATLAS的单张图像拟合系统在多个指标上都显著优于现有的最先进方法。在顶点到顶点的误差测量中,ATLAS达到了55.4毫米的精度,而传统的SMPLify-X方法的误差为87.7毫米。在3D关节位置误差方面,ATLAS的误差为53.7毫米,而SMPLify-X为73.2毫米。
四、大规模数据集与训练细节:构建数字人体的知识库
ATLAS系统的卓越性能很大程度上得益于其庞大而高质量的训练数据集。研究团队构建了一个名为"歌利亚"的数据集,这个名字恰如其分地反映了数据集的巨大规模。
数据采集过程本身就是一项技术壮举。研究团队搭建了一个由240台4K分辨率摄像机组成的同步拍摄系统,这些摄像机被精确校准并同步工作,能够从各个角度同时捕获人体的高分辨率图像。130名不同体型、不同年龄的志愿者参与了数据采集,他们在专业指导下进行了各种各样的动作,包括日常对话手势、表演性动作和动态运动。
拍摄系统以30到90帧每秒的速度记录,产生了海量的原始数据。研究团队随后使用先进的3D重建技术将这些多视角图像转换成精确的3D网格模型,每个模型包含约100万个顶点。为了确保训练数据的多样性和代表性,团队采用了最远点采样策略,从数以百万计的帧中精心挑选出60万帧最具代表性的数据。
除了自主采集的歌利亚数据集,ATLAS还整合了现有的高质量数据集,包括CAESAR数据集的4391个扫描数据和SizeUSA数据集的10123个扫描数据。这些数据集捕获了更广泛年龄范围(18岁到65岁以上)的人群,为模型提供了更全面的人体形态变化信息。
ATLAS的训练过程采用了创新的端到端学习策略。系统首先通过只使用骨架参数和姿态来优化配准结果,利用三角化的关键点来规范关节位置,这样可以准确捕获身高、臂长、手指尺寸等骨架变化。然后,系统优化表面形状参数来建模软组织属性,如体重和臂围等。最后,团队训练自编码器来分别捕获这些骨架和表面空间。
为了确保模型的泛化能力,训练过程中采用了有序丢弃策略。在每次训练迭代中,系统会随机选择一个介于1到最大值之间的组件数量,并只保留自编码器潜在瓶颈中的前n个特征,将其余特征置零。这种策略确保了组件重要性层次在整个优化过程中得到维持。
训练损失函数包含多个精心设计的项目。数据项最小化配准和预测网格之间的顶点到顶点距离。形状和骨架正则化项对表面顶点和骨架属性自编码器的中间潜在变量施加L2损失。皮肤权重和姿态校正混合形状通过余切拉普拉斯损失进行正则化。皮肤权重初始化项通过L2损失将皮肤权重正则化到艺术家定义的初始化值。姿态校正激活正则化项对姿态校正激活矩阵施加L1正则化损失,该矩阵经过测地初始化,以鼓励顶点-关节相关性的稀疏性。
五、性能评估与对比实验:数据说话
为了全面评估ATLAS的性能,研究团队进行了大量的对比实验,将ATLAS与目前最先进的人体建模方法进行了详细比较,包括SMPL、STAR、SMPL-X和SUPR等经典系统。
在3DBodyTex数据集上的测试结果最为引人注目。这个数据集包含100名男性和100名女性的3D扫描数据,为了确保比较的公平性,所有身体模型都使用SMPL拓扑进行配准。由于真实扫描数据中面部和手部区域存在缺失或噪声,评估时对这些区域进行了掩码处理。
实验结果显示,ATLAS在使用更少组件的情况下就能达到更低的拟合误差。当使用32个组件时,ATLAS比SMPL-X的顶点到顶点误差降低了21.6%。这个结果验证了ATLAS通过明确分离骨架和形状空间来泛化到未见身份的能力。
在定性比较中,ATLAS在关节尖端(手肘和膝盖)表现尤其出色,并且比SMPL-X更贴近目标扫描的肩部形状。这种改进主要归功于ATLAS的分离式设计和高质量的姿态校正机制。
在歌利亚测试集上的评估进一步验证了ATLAS的优势。这个测试集包含来自10个保留受试者的100个未见3D扫描,涵盖独特姿势。与3DBodyTex不同,这个评估包含了面部和手部。定性结果显示,除了具有更锐利的关节外,ATLAS还能更好地捕获握拳手部和倾斜下巴的细微变形,拟合误差为2.34毫米,相比SMPL-X的2.78毫米有所改进。
线性与非线性姿态校正的对比实验提供了重要洞察。研究团队在SMPL数据集上比较了ATLAS与使用线性姿态校正版本的性能,通过在整个序列中拟合单一静止姿势网格和内部骨架来隔离姿态校正混合形状的影响。定性比较显示,非线性校正在复杂关节(如肩膀)周围实现了更逼真的拟合,并能更好地捕获极端姿势中的肌肉隆起。定量上,拟合误差从1.82毫米降至1.61毫米,改进主要集中在关节位置周围。
计算效率分析表明,ATLAS在相同顶点数下的推理时间显著快于SMPL-X,这得益于其优化的CUDA实现。更重要的是,ATLAS支持更高分辨率(多10倍顶点)而延迟增加很少。
在单目网格拟合的评估中,研究团队在来自10个未见受试者的歌利亚测试数据集的200个扫描上测试了提出的单图像网格拟合方法。结果表明,ATLAS在普氏对齐后的平均顶点到顶点误差和3D关节误差方面都优于SMPLify-X,相对深度和掩码优化进一步改善了结果。
六、技术创新的深度解析:突破传统局限
ATLAS系统的技术创新不仅体现在整体架构上,更体现在许多精巧的技术细节中。这些创新共同解决了传统3D人体建模中长期存在的根本性问题。
首先是关节中心定义的革新。传统方法中,关节中心是通过表面顶点的加权和来计算的,这就像是通过观察一个人的外表来猜测其骨骼结构。这种方法不仅不够准确,还会导致骨架与表面之间产生不合理的耦合。ATLAS则采用了专家雕刻师设计的解剖学准确的关节结构,关节位置遵循人体骨骼结构,并且将主要关节分解为解剖学准确的子关节。比如,肩部包括肩胛骨关节,踝关节分为距下关节和距跟关节。
ATLAS的皮肤权重优化也值得关注。皮肤权重决定了网格的每个顶点受哪些关节的影响以及影响程度。系统从艺术家定义的初始值开始,然后在端到端训练过程中进行优化。通过比较训练前后的皮肤权重分布,可以看出系统学会了更加合理的权重分配,特别是在下颌、颈部、上臂、手肘、手腕、下脊柱、膝盖和踝关节等关键部位。
在表面和骨架潜在空间的设计上,ATLAS也展现了独特的智慧。骨架属性定义允许对内部骨架的各个方面进行直接控制,而对于较低维度的关键点拟合、扫描配准和骨架修改,骨架潜在空间提供了不同身体方面之间的数据驱动相关性。可视化结果显示,前几个骨架组件分别捕获了整体身体尺寸、颈部和臀部、肩膀和手臂(解耦上臂和下臂长度)以及整个手臂长度等主要变化。
相比之下,表面组件更加微妙,因为大部分身体变化(身高、臂长、手部尺寸等)已经被骨架捕获,表面组件专注于软组织变化,如体重、颈部宽度、手臂厚度和面部属性等。这种分工避免了以前方法中同一组件需要同时捕获软组织属性和内部骨架变化的问题。
七、实际应用与未来展望:从实验室到现实世界
ATLAS系统的实际应用潜力是巨大的,它不仅在技术上实现了突破,更重要的是为许多实际应用场景提供了强有力的技术支撑。
在虚拟现实和增强现实应用中,ATLAS能够创建更加逼真和可控的虚拟化身。用户可以精确调整自己数字分身的各种属性,而不会遇到传统系统中的意外副作用。比如,一个用户想要在虚拟世界中拥有更宽的肩膀但保持苗条身材,ATLAS可以轻松实现这种看似矛盾的需求。
在电影和游戏制作行业,ATLAS为数字角色创建提供了前所未有的精度和效率。动画师们可以基于演员的基本体型快速创建角色,然后根据剧情需要进行精确调整。更重要的是,ATLAS支持的高分辨率建模能够满足现代影视作品对细节的严苛要求。
在健身和医疗应用中,ATLAS的精确控制能力具有特殊价值。健身应用可以根据用户的身体数据创建准确的3D模型,然后可视化不同训练方案可能带来的身体变化。医疗应用中,医生可以使用ATLAS来创建患者的精确3D模型,用于手术规划或康复治疗方案制定。
在在线购物和时尚行业,ATLAS能够创建更加准确的虚拟试衣体验。由于系统能够精确控制身体的各个维度,用户可以输入自己的准确测量数据,获得更加真实的试穿效果。这对于减少在线购物的退货率具有重要意义。
当然,ATLAS系统也面临一些挑战和限制。虽然系统捕获了多样化的身体形状,但15000个受试者仍然无法涵盖人类身体变化的全部范围。高分辨率人体扫描的收集和处理仍然耗时且昂贵,这为扩展人体建模创造了瓶颈。不过,ATLAS为人体扫描配准提供了准确的先验,这为开发下一代参数化模型奠定了基础。
研究团队在论文中也诚实地承认了这些局限性,并指出未来的改进方向。随着扫描技术的进步和计算能力的提升,未来的ATLAS版本有望覆盖更广泛的人群,包括更多的年龄段、体型和种族背景。同时,随着AI技术的发展,系统的单张图像拟合能力也有望进一步提升,达到更高的精度和鲁棒性。
说到底,ATLAS系统代表了3D人体建模领域的一个重要里程碑。它不仅解决了困扰该领域多年的技术难题,更为未来的数字人体应用开启了新的可能性。从技术角度看,ATLAS的骨架和表面分离设计思路为其他相关研究提供了重要启示。从应用角度看,ATLAS的高精度和可控性为许多实际应用场景提供了技术基础。
虽然技术永远在发展,新的挑战也会不断出现,但ATLAS所代表的设计理念和技术方向无疑将对整个领域产生深远影响。就像建筑师需要先搭建牢固的框架再添加装饰一样,3D人体建模也需要先建立准确的骨架结构再塑造表面细节。ATLAS系统完美地诠释了这一理念,为数字世界中的人体表示开辟了新的道路。
Q&A
Q1:ATLAS系统和传统的SMPL-X等3D人体建模方法有什么本质区别?
A:ATLAS最大的创新是将人体的骨架和表面完全分离处理,就像先搭建骨架再添加肌肉皮肤,而传统方法如SMPL-X是先塑造表面再推测骨架。这种分离设计让ATLAS能够精确控制肩膀宽度、身高等属性,而不会产生意外的连带影响,解决了传统方法中调整一个部位会影响其他部位的问题。
Q2:ATLAS的稀疏非线性姿态校正技术是什么意思?
A:这是ATLAS处理人体动作时皮肤变形的创新技术。传统方法要么是稀疏线性(影响范围有限但表现力不足),要么是密集非线性(表现力强但会产生错误关联)。ATLAS结合两者优点,让每个关节只影响周围相关的皮肤区域,同时使用神经网络实现更逼真的变形效果,比如手肘弯曲时的肌肉隆起。
Q3:普通用户能使用ATLAS技术吗?应用场景有哪些?
A:虽然ATLAS目前主要是研究成果,但其技术已经可以应用到很多实际场景中。比如虚拟现实中创建个人数字化身、游戏角色定制、在线购物的虚拟试衣、健身应用中的身体变化可视化,以及影视制作中的数字角色创建。随着技术成熟,未来很可能会集成到各种消费级应用中。
好文章,需要你的鼓励
Queen's大学研究团队提出结构化智能体软件工程框架SASE,重新定义人机协作模式。该框架将程序员角色从代码编写者转变为AI团队指挥者,建立双向咨询机制和标准化文档系统,解决AI编程中的质量控制难题,为软件工程向智能化协作时代转型提供系统性解决方案。
西北工业大学与中山大学合作开发了首个超声专用AI视觉语言模型EchoVLM,通过收集15家医院20万病例和147万超声图像,采用专家混合架构,实现了比通用AI模型准确率提升10分以上的突破。该系统能自动生成超声报告、进行诊断分析和回答专业问题,为医生提供智能辅助,推动医疗AI向专业化发展。
上海AI实验室团队发现自回归图像生成模型存在局部依赖、语义不一致和空间不变性缺失三大问题,提出ST-AR训练方法。该方法通过掩码注意力、跨步骤对比学习和跨视角对比学习,让AI"先理解再生成"。实验显示,ST-AR将LlamaGen模型的图像理解准确率提升一倍以上,图像生成质量提升42-49%,为构建更智能的多模态AI系统开辟新路径。