
这项由中山大学深圳校区与阿里巴巴淘宝天猫事业群联合完成的研究,发表于2026年第43届国际机器学习大会(ICML 2026),会议地点为韩国首尔,收录于PMLR第306卷。论文编号为arXiv:2605.21431,有兴趣深入了解的读者可通过该编号查询完整论文。
**一、从"假人模特"到"真实导购":一个被忽视已久的现实需求**
每逢购物节前后,各大电商平台的直播间里总是热闹非凡。主播们不只是举着衣服展示正面和背面,他们会拉一拉衣摆展示弹性,拨开领口让你看内衬,甚至拉上拉链再拉开,用这些真实的动作告诉你"这件衣服到底好不好穿"。这些看似普通的动作,在服装销售中其实极为关键,因为它们传达了静态图片和走秀视频完全无法传递的信息。
然而,现有的AI虚拟试衣技术却完全忽视了这一点。
目前的"视频虚拟试衣"技术(Video Virtual Try-On,简称VVT)能做到的,大致是这样一件事:给你一段某人走路或转身的视频,再给出一件目标服装,AI就能把这个人"换上"那件衣服,而且换得很流畅,前一帧到后一帧不会突然"闪烁"或出现奇怪的色块。这已经是相当了不起的成就——毕竟让AI在运动视频里保持服装纹理的连贯性,技术难度颇高。
但这些技术有一个共同的盲区:视频里的人只是在"展示"衣服,而不是在"使用"衣服。没有任何一套现有系统能处理这样的场景——主播伸手拉了一下衣角,或者拉开了外套的拉链。一旦出现这种"人与衣服之间的主动互动",现有AI要么产生奇怪的变形,要么直接忽略了这个动作,让换上新衣服的人做出一个毫无意义的"手在衣服上划过"的动作。
正是为了填补这个空白,来自中山大学和阿里巴巴的研究团队提出了一个全新的任务定义和解决方案——**互动式视频虚拟试衣(Interactive VVT)**,以及对应的框架**iTryOn**。
**二、问题究竟难在哪里:三道拦路虎**
要理解iTryOn为什么值得关注,首先要明白这个问题到底难在哪里。研究团队在论文中识别出了三个核心挑战,每一个都是真实存在的"拦路虎"。
第一道拦路虎是"动作的语义模糊性"。现有AI系统在理解人体动作时,通常依赖一种叫做"2D骨骼关键点"的信息——可以理解为把人体简化成一堆点连成的火柴人,记录每个关节的位置。这套方法在描述走路、跑步、举手这类大动作时足够用,但在处理"手接触衣服"这类精细动作时就力不从心了。原因在于,2D骨骼信息是从三维空间"压扁"而来的,深度信息全部丢失。一个人的手从侧面靠近胸口,在2D图像里看起来和手直接贴在胸口几乎没有区别;而"正在扣纽扣"和"把手放在衬衫上休息",在2D关键点上的表现可以是完全相同的。AI从这样的信息里根本无法判断"这只手到底在干什么"。
第二道拦路虎是"稀疏事件的学习困难"。在一段完整的电商展示视频里,主播大部分时间其实是在普通地展示服装——转身、走动、站立。真正发生"互动"(比如拉拉链、揪衣角)的时间往往只有几秒钟。这就好比你要训练一个学生专门学习"高难度杂技动作",但你给他的练习材料里99%都是普通的体操热身。训练模型时,那些简单的非互动帧产生的"学习信号"会压倒那几帧互动片段产生的信号,导致模型索性放弃学习复杂动作,只学会生成简单的非互动效果。
第三道拦路虎是"数据和评估标准的缺失"。现有的虚拟试衣数据集几乎清一色都是非互动场景的数据;而现有的评估指标(比如衡量图像相似度的SSIM、LPIPS等)只关心画面好不好看,根本不管AI有没有"做出正确的动作"。没有数据,模型无从训练;没有评估标准,研究效果好不好根本没法量化。
**三、iTryOn的解题思路:一套"空间+语义"的双层指引系统**
针对上述三个挑战,研究团队设计了一套完整的解决方案,核心思路是从两个维度同时给AI提供指引——空间层面告诉AI"手在哪里、手的形状是什么",语义层面告诉AI"这个动作叫什么名字、发生在视频的哪个时间段"。
整个系统基于一个强大的视频生成基础模型Wan2.1-VACE构建。可以把这个基础模型理解为一个已经学会了"如何生成流畅自然视频"的通用引擎,iTryOn则在这个引擎上加装了专门针对虚拟试衣和互动动作的"导航模块"。
**四、第一层指引:用3D手部先验解决"空间模糊"**
针对2D骨骼信息不够用的问题,研究团队的第一个创新是引入了"3D手部先验"作为空间指引。
具体来说,他们使用了一个叫HaMeR的模型,这个模型能够从普通视频帧里重建出手部的三维网格模型——不只是手腕的位置,而是整个手掌的形状、每根手指的弯曲程度、手的朝向。然后把这个三维信息渲染成一张干净的二维图像,作为额外的输入条件传给AI。
为什么强调"干净"?这里有一个关键的设计细节。研究团队曾经考虑过另一个方案:从视频里提取深度图(depth map)作为手部的空间参考。深度图能反映场景中每个点离摄像机的远近,确实包含三维信息。但问题在于,深度图是对整个场景的深度估计,手部的深度图里同时也包含了衣袖、衣领等服装信息——这就产生了"信息泄露"。AI在生成新服装时,会不小心把原来那件衣服的几何形状"偷学"进去,导致换装效果里出现原服装的形状痕迹,比如原来衬衫的袖口轮廓会隐隐出现在新衬衫的袖口处。
相比之下,3D手部先验只重建手部的几何形状,完全不包含服装信息,给AI的指引是纯粹的、干净的。这样AI就能准确知道"手在三维空间中的位置、形状和姿态",而不会被原服装的样子所干扰。
在模型架构上,这个3D手部信息通过一个轻量级的"互动引导器"(Interaction Guider)模块注入AI主干网络,与负责整体身体姿态的"上下文模块"并行工作,共同为AI的视频生成过程提供结构性指导。
**五、第二层指引:用时间戳动作描述解决"语义模糊"**
知道了"手在哪里",还不够——AI还需要知道"这只手在做什么"。这就是第二层语义指引要解决的问题。
研究团队为每段视频配备了两种文字描述。第一种是"全局描述",大致描述整段视频的动作情况,比如"这个人调整了外套,扣上了扣子,然后转身"。第二种是"带时间戳的动作描述",格式是(动作名称,[开始帧,结束帧]),比如("卷起/放下袖子",[0帧, 32帧])。第二种描述精确告诉AI:视频的某个特定时间段里,发生了某个特定的互动动作。
但光有这两种描述还不够。如果直接通过标准的交叉注意力机制把动作描述传给AI,会出现"时间对齐失败"的问题——AI接收到"拉拉链"这个语义信号,却不知道应该把这个动作具体映射到视频的哪些帧上,可能导致整段视频都隐约有"拉拉链的感觉",而不是只在指定时间段内发生拉拉链的动作。
为了精确解决这个时间对齐问题,研究团队设计了一个叫做**A-RoPE(动作感知旋转位置编码)**的新机制。理解这个机制,可以借用一个收音机调频的比喻:正常情况下,AI处理视频时,每一帧都被分配一个连续递增的"频道编号",频道1、频道2、频道3……相邻的帧在"频道"上也相邻,这样AI就能感知时间的流逝。A-RoPE的做法是:当一个视频片段对应了一个具体的动作描述(比如"拉拉链"),就给这个片段的关键编码额外乘以一个放大系数k(实验中取值为4),使得这个片段在"频道空间"里与其他片段的间距被人为拉大。与此同时,对应这段描述文字的编码也做同样的处理。这样,"第27帧对应'拉拉链'这个动作"这一关联关系,就被编码进了AI的注意力机制里,AI在处理第27帧时会自动更强烈地"联系"到"拉拉链"这个语义。对于那些非互动的普通帧,则配以空白描述,不做特殊处理,保持正常的时间流逝感知。
整个语义指引体系在模型架构的"时序交叉注意力"层发挥作用,实验验证表明,单独添加动作描述能改善效果,而A-RoPE的进一步加入又带来了额外的性能提升,尤其是在时序连贯性相关的指标上。
**六、第三个武器:动作感知约束损失函数**
前两层指引解决了"AI知道什么"的问题,但训练过程本身仍然面临那个"稀疏事件"的挑战——互动帧太少,普通帧太多,学习信号失衡。
研究团队为此设计了第三个创新:**动作感知约束损失函数(AC loss)**。
在AI的训练过程中,模型每次生成一个预测结果,然后将这个预测与真实结果对比,计算"误差",再根据误差调整自身参数。这个"误差计算+参数调整"的过程就是"损失函数"在工作。常规做法是对所有帧的误差一视同仁地计算。AC loss的做法是:在常规损失之外,额外对互动帧的误差额外加权惩罚——利用前面提到的时间戳信息构建一个二进制掩码,标记出哪些帧是互动帧,然后让这些帧的学习信号"音量"提高(具体超参数λ经过消融实验确定为0.5)。这样,模型就无法通过"专心学普通帧、忽略互动帧"来偷懒,必须把足够的学习资源分配给那些复杂的互动时刻。
**七、数据集的构建:VVT-Interact的诞生**
工具做好了,还需要土壤才能生长。研究团队同时构建了一个全新的专用数据集——**VVT-Interact**,这是目前第一个专为互动式视频虚拟试衣任务设计的大规模数据集。
数据来源于电商直播和社交媒体上的服装展示视频。原始数据噪声很大,团队因此设计了严格的多阶段筛选流程:剔除服装图像分辨率不足的视频对、丢弃画质低下或有明显视觉缺陷的视频、排除人物占画面比例过小的视频、去掉服装被严重遮挡的视频,以及利用自动镜头切换检测算法剔除视频中途有场景切换的片段(因为场景切换会破坏时间连续性)。
数据标注方面,团队使用了阿里巴巴旗下的多模态大模型Qwen-VL-32B(该模型在内部测试中在准确率、精确率和F1分数上均优于同期的Gemma3系列模型)来完成自动化标注。标注工作分两步:首先让Qwen-VL对整段视频生成一段全局动作描述;然后对视频进行逐帧分析,让模型判断每一帧是"互动帧"还是"非互动帧",得到一串二进制标签序列。由于逐帧判断不可避免地会有噪声(比如某一帧孤立地被判断为互动,但前后帧都是非互动),团队对这串标签序列做了形态学平滑处理,先执行"开运算"再执行"闭运算",消除孤立的噪声预测,得到连续的互动片段,提取起止时间戳,最终结合预定义的互动类别生成标准化的动作描述。
最终的VVT-Interact数据集包含5292个高质量的视频-服装配对,涵盖六个互动类别:调整领口、调整下摆、卷起/放下袖子、穿上/脱下衣服、揪拉衣物,以及其他互动(如拉拉链等)。每个视频都有全局描述和至少一个带时间戳的动作描述。数据集划分为5160个训练样本和132个测试样本。
**八、全新评估指标:互动成功率(ISR)**
光有数据集还不够,还需要一把能衡量互动效果的"新尺子"。
现有指标SSIM衡量图像结构相似度、LPIPS衡量感知层面的图像质量、VFID/FVD衡量视频时序连贯性,这些指标对"AI有没有做出正确的互动动作"完全不敏感——一个把拉链位置换了但手没有做出拉拉链动作的视频,在这些指标上可能得分很高。
为此,研究团队提出了**互动成功率(Interaction Success Rate,ISR)**。做法是:对每个测试视频,先根据时间戳标注确定互动发生的帧范围,然后对这些帧使用Qwen-VL进行语义验证,让它判断这些生成的帧里,人手与衣服之间的互动是否与预期动作(比如"拉拉链")在语义上吻合。用成功被识别为正确互动的帧数除以总互动帧数,得到ISR分数。这个指标直接衡量"AI有没有真正生成出正确的人-衣互动",而不只是"画面好不好看"。
**九、实验结果:数字和画面共同说话**
研究团队将iTryOn与三个代表性的现有VVT系统进行了对比:ViViD、CatV?TON和MagicTryOn。
在视觉质量层面,从VVT-Interact测试集的结果来看,iTryOn在配对VFID(衡量生成视频与真实视频的图像特征分布差距)上得分为22.46,相比表现最好的竞争对手CatV?TON的26.99有显著提升;在SSIM上达到0.78,LPIPS降低到0.12,均处于最优水平。这意味着iTryOn生成的视频在视觉保真度上更接近真实情况,服装纹理细节保留更好,时序上也更稳定流畅。
在互动保真度层面,差距更为明显。iTryOn的FVD(视频Fréchet距离,衡量运动动态的真实程度)为380.56,低于第二名MagicTryOn的431.79;而在ISR这个最关键的指标上,iTryOn达到了61%,相比之下表现最好的竞争对手CatV?TON只有48.38%,ViViD仅有39.68%。换句话说,当用于互动场景时,现有最好的方法里将近一半的互动尝试都是失败的,而iTryOn的失败率明显更低。
定性分析同样印证了这一点。面对"拉拉链"这个动作,ViViD会生成物理上不合理的服装变形;CatV?TON和MagicTryOn则根本不"理解"这个动作,只生成一个手在衣服上滑过的无意义动作;而iTryOn是唯一一个能够真实呈现拉链被拉开的过程、面料随之分开展开的效果的方法。对于"揪起下摆"这类动作,其他方法倾向于生成一个静止、没有响应的衣摆,而iTryOn能够展示衣物随手部动作发生的形变和拉伸。
消融实验(即逐步移除某个组件来验证其贡献)的结果清晰地表明,只加入VVT-Interact数据集、不改变模型架构(方案b),效果只有微弱提升,在视觉上模型仍然无法生成有意义的互动;加入3D手部空间指引(方案c)后,手部与衣物的接触开始出现,但仍然不知道该做什么;加入语义指引(方案d)后,模型开始能够生成对应语义的动作;最后加入AC损失(方案e)后,效果得到进一步细化和稳定。每个组件都有不可替代的贡献。
**十、在传统测试集上也毫不逊色**
研究团队还在传统的非互动VVT基准测试集ViViD-S-Test上进行了测试,与ViViD、CatV?TON、MagicTryOn以及DreamVVT四个系统对比。结果显示,iTryOn以2B参数量的规模,在配对VFID上达到了8.43,而参数量高达14B的MagicTryOn得分为12.20,参数量为5B的CatV?TON得分为13.60。换句话说,iTryOn用远少于竞争对手的参数量,实现了更好的视觉效果。
这一额外的成绩并非偶然。研究团队在论文中解释了背后的原因:Wan2.1-VACE这个基础模型本身就是为"基于参考图像的视频编辑"而预训练的,其任务定义与虚拟试衣(基于服装图像参考、在视频中进行服装替换)高度吻合,因此迁移起来天然具有优势。此外,团队还使用了流匹配损失加权方案加速收敛,以及"区间引导"推理策略(在推理时只在前10%-40%的去噪步骤中使用文本条件引导,后续步骤让模型自由发挥,避免过度饱和和失真),这两项通用技术进一步提升了效果。
**十一、还有哪些做不到的事**
研究团队对自己的工作保持了清醒认识,在论文中明确指出了两个现存的局限。
第一个局限是"模型不懂服装语义"。iTryOn不会主动判断"这件衣服上有没有拉链"。如果你要求它对一件无任何开合结构的T恤执行"拉拉链"动作,它无法真正执行这个物理上不存在的操作,只会保留手部动作、但新服装不会发生对应变化,产生一种"做出了动作但衣服没反应"的哑剧效果。要解决这个问题,需要模型具备对服装部件(拉链、纽扣、松紧带等)的显式语义理解能力,这是未来需要攻克的方向。
第二个局限是"评估指标仍不够精细"。ISR虽然是一个进步,但它只能判断互动在语义层面上是否成功,无法量化物理层面的准确性——比如衣物拉伸的幅度是否符合真实物理规律、面料的褶皱分布是否自然。开发真正能衡量人-衣互动物理合理性的评估工具,是整个领域需要继续努力的课题。
说到底,iTryOn做到了一件此前从未被正式尝试过的事:让AI不再把"换衣服"当成一个静态的图像替换问题,而是真正理解人与衣服之间的动态互动。从"给模特P上一件新衣服",到"让模特真的去拉、去扯、去折叠那件衣服",这中间的距离比看起来大得多,而iTryOn迈出了有意义的一步。
对于直播电商这个万亿级市场而言,这项技术的意义更为直接——它意味着AI导购有朝一日或许真的能替代真人主播,用同样生动、可信的方式展示衣服的弹性、版型和各种使用场景。当然,从实验室成果到真正大规模商业应用还有很长的路,服装语义理解、计算效率、极端姿态的鲁棒性等问题都等待进一步的解决。但这个方向已经被清晰地指出来了。
有兴趣继续深入研究这一课题的读者,可以通过arXiv编号2605.21431查阅完整论文,数据集VVT-Interact也将随论文一同对外开放,为后续研究提供基础资源。
---
Q&A
Q1:iTryOn和普通虚拟试衣软件有什么区别?
A:普通的虚拟试衣技术只能让视频里的人"穿上"新衣服,但无法处理人主动拉扯、拉拉链、卷袖子等互动动作。iTryOn是第一个专门针对这类"人与衣服主动互动"场景的视频虚拟试衣系统,能在保持服装视觉效果的同时,真实再现衣物被拉伸、拉链被拉开等物理变形效果。
Q2:VVT-Interact数据集涵盖哪些类型的互动动作?
A:VVT-Interact数据集涵盖六类互动动作:调整领口、调整下摆、卷起或放下袖子、穿上或脱下衣服、揪拉衣物,以及其他互动(如拉拉链等)。整个数据集共有5292个高质量视频-服装配对,每个视频都配有整体动作描述和精确到帧的时间戳动作描述。
Q3:互动成功率(ISR)是怎么衡量AI是否做出了正确动作的?
A:ISR利用多模态大模型Qwen-VL对生成视频中的互动帧进行语义验证,让模型判断生成结果里人手与衣服的互动是否与预期动作在语义上吻合。最终用"被正确识别的互动帧数"除以"总互动帧数"得到分数。iTryOn在该指标上达到61%,远高于现有最优竞争对手的48%左右。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。