微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 清华大学与阿里巴巴联手,让AI真正"看懂"手握产品的人

清华大学与阿里巴巴联手,让AI真正"看懂"手握产品的人

2026-04-30 10:47
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-04-30 10:47 科技行者

这项由清华大学与阿里巴巴集团联合完成的研究,于2026年4月以预印本形式发布,论文编号为arXiv:2604.19636。有兴趣深入研究的读者可通过该编号在arXiv平台检索完整论文。

电商直播是当下最火热的商业场景之一。主播站在镜头前,拿起一款包包,展示它的拉链、皮质、内衬,讲解它的使用感受——这种"人与物品互动"的画面,每天在屏幕里上演数以亿计次。假如这类视频可以完全由AI自动生成,只需提供一张人物照片、一张产品照片,再加一段文字说明和一段语音,AI就能合成一段流畅、真实的演示视频,将会为整个内容生产行业带来多大的变革?

这正是这篇论文的出发点。研究团队将他们开发的系统命名为**CoInteract**,意指"协同交互",核心目标是让AI生成的视频中,人的手和物品之间的互动看起来真实、自然、物理上合理——手不会穿过包包,手指不会扭曲变形,拿东西的姿势看起来像真人而非橡皮泥捏出来的形状。

---

一、为什么AI做视频老是"手残"?

每个用过AI图像生成工具的人,大概都有类似经历:生成出来的人物,脸蛋漂亮,衣服精致,但一到手部,就开始出岔子——六根手指、关节扭曲、手指像融化的蜡烛。这个问题在视频生成里更严重,因为视频需要帧帧连贯,手部的扭曲会随着时间流动越来越明显。

研究团队给出了一个非常直白的诊断:当前主流的AI视频生成模型,本质上是"用眼睛学会了画图,但没有用大脑理解空间"。换句话说,模型只学会了"这里应该有什么颜色的像素",却完全不知道"手和包包在三维空间里是什么关系,手指是如何围绕物品表面弯曲的"。

以烧菜来打比方,现有的模型就像一个只学过临摹食物照片的画家,他能画出看起来像饺子的东西,但你让他画一双手正在捏饺子皮,他会画出手指穿进面团里的怪异景象,因为他从来没有真正理解手和面团之间的物理关系。

于是,这类系统产生两种典型的错误:手和脸出现结构性崩塌,手指合并、面部模糊;或者手与物品发生"穿模",就像电子游戏里角色卡进墙壁一样,手直接穿透了产品的表面。这两种错误放在电商演示视频里,都会让观众瞬间出戏,失去信任感。

---

二、以前的方案各有哪些缺陷?

在CoInteract出现之前,研究者们尝试过两条路。

第一条路,叫做"多条件生成"。思路是给AI每一帧都提供详细的骨架姿势图和物品检测框,让AI照着这些骨架图来生成画面。这就好像给一个画家每画一帧就提供一张线稿参考,精度确实高,但问题是准备这些线稿极其费工夫——每段视频生成前都要跑大量预处理算法,技术门槛高,流程重,稍微换个场景或者换个产品品类,整套准备工作就得重来。

第二条路,叫做"多参考图注入"。给模型一张人物参考图,一张产品参考图,直接让AI把两者融合生成视频。这条路更简单灵活,不需要复杂的前处理,但AI完全靠自己去猜人和物该怎么互动,没有任何物理约束,结果就是手的姿势经常不合理,产品可能悬在空中,或者整个场景前后不一致。

两条路都有各自的局限,研究团队的CoInteract则试图走出第三条路:既不需要繁重的前处理,又能让AI真正学到人和物体之间的空间交互规律。

---

三、CoInteract的核心设计哲学:让AI同时"看"两个世界

CoInteract的整体框架建立在一种叫做"扩散变换器"(Diffusion Transformer,简称DiT)的AI架构上。如果这个名字让你感到陌生,可以暂时把它理解为一个"逐步从噪音中雕刻出图像的工厂"——AI从一团随机噪声开始,一步步把它调整成清晰的视频帧。

研究团队的核心创新在于:他们不只让AI生成一路视频,而是在训练阶段同时让AI生成两路内容。第一路是正常的彩色视频,也就是最终用户看到的那个画面;第二路是一种特殊的"结构视频"——这路视频把人物的皮肤、衣服全部抹掉,只保留人体的轮廓剪影,同时原样保留产品的外观。这就像X光片和普通照片的关系:正常照片看起来好看,X光片则直接展示骨架结构。

两路视频在训练时共用同一套AI参数。研究人员让"结构视频"这一路时刻关注彩色视频的内容,通过这种"一边学画画,一边对着骨架纠错"的方式,AI逐渐建立起对手、物品、空间关系的真实理解,而不只是对像素颜色的记忆。

最巧妙的设计在于:训练结束之后,那一路"结构视频"可以直接丢掉,推理阶段只跑彩色视频那一路,不会额外消耗任何算力。就像一个学生在学习阶段用了参考答案辅助理解,但考试时仍然只凭自己的能力作答,参考答案的影响已经内化到了他的认知体系里。

---

四、非对称注意力:让训练的智慧在推理时"留下来"

为了让这种双路训练的好处真正迁移到推理阶段,研究团队设计了一种叫做"非对称协同注意力"的机制。这个名字听起来复杂,但背后的逻辑相当直觉。

训练分两个阶段进行。第一阶段,让两路视频的AI模块互相"看"对方的全部内容,彩色视频和结构视频双向交流,AI学会了两者之间的对应关系。第二阶段,开始"剪断"单向的连接:彩色视频那一路只看自己,不再看结构视频;但结构视频那一路仍然可以同时看彩色视频和自己。

这种不对称设计的关键在于梯度流动——结构视频的学习误差,依然通过它"回望彩色视频"的那个连接通道,传导进两路共用的AI参数里。也就是说,结构视频对物理合理性的"挑剔眼光",悄悄地训练了彩色视频的生成能力。当推理阶段彩色视频单独工作时,它的参数已经被这种训练塑造过了,自然而然地倾向于生成物理上合理的手部动作和人物-产品交互。

---

五、"人体感知专家混合体":专人处理专事

除了双路协同生成,CoInteract还引入了另一个针对手部和面部的专项设计,叫做"Human-Aware MoE"——人体感知专家混合体。

"专家混合"这个概念,可以用一个餐厅的例子来理解。普通餐厅里,一个厨师什么都做,炒菜、烤肉、做甜点全包。而高端餐厅会分岗位:专门负责甜点的厨师只做甜点,专门负责烤肉的厨师只烤肉,各司其职,水平更高。

CoInteract的做法类似:AI在处理视频中不同区域的像素时,不再用同一套处理逻辑,而是用一个"路由器"来判断当前处理的图像区块属于哪个身体区域。如果是头部区域,就交给专门负责头部的专家网络处理;如果是手部区域,就交给手部专家;其他区域则交给通用专家。

训练这个路由器用的是人脸和手的边界框标注——研究团队提前知道每帧画面里脸和手在哪里,然后用交叉熵损失(一种衡量分类正确与否的指标)来监督路由器学会正确地分配任务。值得注意的是,路由器在做分类决策时,会先对AI的内部状态做一个"停止梯度"的操作,避免路由器的学习干扰整个AI的主体学习过程。

这套专家混合设计的额外计算开销非常小——相比不用专家混合的版本,推理计算量只增加了1.04倍,几乎可以忽略不计,但手部清晰度和面部身份一致性都有显著提升。

---

六、如何给AI喂"懂交互的训练数据"?

一套再好的算法架构,没有合适的训练数据也是空谈。为了让CoInteract能够学到真实的人物-产品交互模式,研究团队精心设计了一套数据处理流程。

原始素材是电商产品演示和直播视频,共40小时。首先,研究团队用一个叫做Qwen-Edit的图像编辑模型,把每帧画面里的人物和产品分别"抠"出来,生成独立的人物参考图和产品参考图。之后用一个验证模块过滤掉那些人物、产品和原始画面对不上的样本。

接下来的步骤是构建"结构视频":用SAM3这个工具获取产品在画面中的遮罩(也就是把产品区域标出来),用SAM3D-body恢复人体三维网格,然后把人体网格投影到图像平面上,得到人体轮廓剪影,再把产品遮罩叠加进去,形成完整的结构帧。这就是双路训练里那一路"X光视频"的来源。

最终,经过质量筛选保留了12000条高质量视频片段,每条片段都配有成对的彩色视频、结构视频、手部和面部边界框标注,以及剪影遮罩。测试集包含50条片段,覆盖多种产品类别和未见过的人物身份。

---

七、AI如何同时管好"过去"和"当下"?

在技术细节上,研究团队还解决了一个容易被忽视的问题:如何让AI同时"理解"多种时间角色不同的内容——历史运动帧、当前生成帧、参考图,以及双路视频的空间对应关系?

答案是一套叫做"三维旋转位置编码"(3D RoPE)的坐标分配方案。每个像素块在输入AI之前,都会被赋予一个三维坐标:高度、宽度、时间。这三个维度的坐标经过特殊的数学编码后,AI就能通过两个像素块的坐标距离来推断它们之间的时空关系。

对于彩色视频和结构视频这两路内容,研究团队让它们共享相同的高度和时间坐标,但在宽度坐标上错开——彩色视频用正值,结构视频用负值。这就像把两张地图并排放置,左边是彩色地图,右边是地形等高线图,同一个地方在两张图上纵坐标完全一致,横坐标则是一个正一个负,一眼就能对应起来。

历史运动帧被分配负数时间坐标,相当于在时间轴上把它们放在"过去"。参考图(人物照和产品照)则被分配一个非常大的时间坐标,例如第30、31帧,把它们推到时间轴的"远端",让AI把它们识别为全局身份锚点,而非紧挨着当前帧的前一帧。这种精心设计让AI在处理每一帧时,既能从历史帧中获取运动连贯性,又能从远端参考图中汲取身份稳定性,而不会把两者混淆。

---

八、拿出成绩单:CoInteract与六种方法的正面对比

研究团队把CoInteract与六种现有方法进行了正面比较:AnchorCrafter、Phantom、Humo、VACE、InteractAvatar,以及SkyReels-V3。所有方法接收相同的人物参考图、产品参考图和语音输入,在同一批50条测试视频上生成结果。

评估维度共分四类。视频质量方面,用三个指标衡量:美观度评分(AES,越高越好)、画面质量评分(IQ,越高越好)、帧间流畅度(Smooth,越高越好)。人物-物品交互方面,用Gemini 3 Pro大模型对每段视频回答50道关于"交互是否合理"的是非题,得分越高说明交互越真实;同时用DWPose检测手部关键点的置信度(HQ,越高说明手部越清晰可信)。参考一致性方面,分别用DINOv2特征相似度衡量人物身份保留程度(DINOid)和产品外观一致性(DINOobj),用ArcFace衡量面部身份相似度(FaceSim)。音视频对齐方面,用口型同步置信度(Syncconf)衡量。

在这场多维度的对比赛中,CoInteract在交互合理性(VLM-QA 0.72)和手部质量(HQ 0.724)两项关键指标上排名第一,在人物身份保留和帧间流畅度上也位居首位。美观度评分上,Phantom和Humo略高,但研究团队指出这是因为那两个方法倾向于凭空生成视觉华丽但与参考图不符的背景,美观却不忠实;CoInteract则坚持还原参考图里的真实场景,在忠实度和一致性上取得了更高的成绩。

在一项由24名众包评估者参与的用户调研中,评估者对每组7种方法的视频进行盲测排名,CoInteract在物品一致性、人物和背景一致性、交互合理性三项评估标准上均获得最低均值排名(排名越低越好),尤其在交互合理性上的优势最为明显,均值排名为1.79,远低于第二名InteractAvatar的3.33。

---

九、拆解分析:每个零件究竟贡献了多少?

为了验证每个设计模块的实际贡献,研究团队做了三组消融实验,逐一"拆掉"某个零件,观察结果如何变化。

拆掉专家混合模块后,手部质量评分从0.724跌至0.658,面部相似度从0.696跌至0.662,说明专家混合对手部和面部的精细生成确有贡献,但推理计算量不变,因为这个模块本来就很轻量。

拆掉结构视频这一路双路训练后,交互合理性评分从0.72暴跌至0.48,降幅高达33%,这是所有消融实验中最大的变化,直接印证了"让AI同时看X光片"这个设计对物理合理性的核心作用。

保留结构视频到推理阶段(不丢弃)的版本,交互合理性得分略升至0.76,手部质量升至0.738,说明直接有结构视频参与推理当然效果更好——但代价是推理计算量变为4.13倍,实用性大打折扣。非对称注意力机制的价值,正是用极小的性能损失换取推理阶段的零额外开销。

定性可视化实验中,研究团队还展示了结构视频和彩色视频在生成过程中的同步对齐效果,以及专家路由热图——热图清晰地显示,路由器确实精准地把面部区域的像素块分配给了面部专家,把手部区域的像素块分配给了手部专家,而非随机分配。

---

归根结底,CoInteract这项工作干了一件"知行合一"的事情:不只是让AI看更多视频来隐式学习,而是直接构建一套训练机制,让AI在生成漂亮画面的同时,必须同步理解身体和物品的空间关系。训练时"看两遍",推理时"用一遍",这套思路在保持推理效率的前提下,把AI对人体结构和物理交互的理解能力提升了一个台阶。

这对普通人意味着什么?意味着未来电商、数字营销、教育演示等场景里,AI自动生成产品演示视频将更加可信,用一张人物照片和一张产品照片就能批量产出逼真的带货视频,不再因为奇怪的手部动作而穿帮失去说服力。当然,AI生成视频的伦理和真实性问题也随之而来——这或许是每一位读者值得持续关注和思考的话题。有兴趣深入了解技术细节的读者,可以通过arXiv:2604.19636查阅完整论文。

---

Q&A

Q1:CoInteract生成视频为什么不需要额外准备骨架姿势图?

A:CoInteract在训练阶段会同时学习彩色视频和结构视频两路内容,结构视频(人体轮廓加产品遮罩)的交互合理性约束已经通过非对称注意力机制内化到了AI参数里。推理时只需提供人物参考图、产品参考图和语音,不需要额外准备每帧的骨架标注。

Q2:专家混合模块会让CoInteract推理速度变慢吗?

A:几乎不会。消融实验数据显示,加入专家混合模块后,推理计算量仅为不加入版本的1.04倍,增幅极小。这是因为Head、Hand、Base三个专家网络本身非常轻量,隐层维度只有256,相比整个扩散变换器的体量可以忽略不计。

Q3:CoInteract生成的视频在手部质量上比其他方法好多少?

A:在手部质量评分(HQ,使用DWPose手部关键点检测置信度衡量)上,CoInteract得分为0.724,而对比方法中最接近的InteractAvatar为0.696,Humo为0.664,差距明显。在用户调研中,CoInteract的交互合理性均值排名为1.79(满分7名中越低越好),显著优于第二名的3.33。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-