微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

香港中文大学与字节跳动联手，让AI视频生成「听得懂声音、看得见动作、认得出你手里的产品」

视频生成多模态融合端到端框架

香港中文大学与字节跳动联手，让AI视频生成「听得懂声音、看得见动作、认得出你手里的产品」

作者：科技行者

2026-04-21 14:34

分享至：

这项由香港中文大学、字节跳动、莫纳什大学和香港大学联合发布的研究（arXiv:2604.11804v1，2026年4月）提出了OmniShow框架，这是首个能够同时接受文字、人物参考图、物品参考图、语音音频和姿态序列这四类输入并生成高质量视频的端到端系统。框架通过统一通道式条件注入、门控局部上下文注意力和解耦-再联合训练三项核心技术，在参数仅增加约2.5%的情况下实现了多模态统一控制，并构建了专用评测基准HOIVG-Bench，在多项指标上达到当前最优水平。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-21 14:34 • 科技行者

这项由香港中文大学、字节跳动、莫纳什大学和香港大学联合完成的研究，以预印本形式发布于2026年4月，论文编号为arXiv:2604.11804v1。感兴趣的读者可以通过这一编号在arXiv平台上查阅完整论文。

假设你正在为一款新上市的护肤品拍摄一条推广视频。你需要一个真实可信的人物形象出镜，手里握着那瓶护肤品，用符合产品调性的语气介绍它，身体的动作还要自然流畅，嘴唇的开合要精确地跟上旁白的每一个音节。这四件事——人物长什么样、产品长什么样、说什么声音、做什么动作——缺一不可，而且必须天衣无缝地融合在同一段视频里。

这正是当今视频生成领域最棘手的挑战之一。现有的AI视频工具大多只擅长其中一两件事：有些能让人物「看起来像那个人」，有些能让嘴唇跟上音频节奏，有些能让身体按照指定姿势运动，但几乎没有任何一个工具能同时把这四件事都做好。

研究团队把这类需求归纳为一个新的任务类型，称之为「人物与物体交互视频生成」，英文缩写是HOIVG。为了攻克这个难题，他们提出了一个名为OmniShow的系统，这是目前第一个能够同时接受文字描述、人物与物品参考图片、语音音频、以及姿态动作序列这四类输入，并将它们融合生成高质量视频的端到端框架。

研究团队面对的不仅是技术难题，还有三重现实困境：如何在让AI受到更多控制的同时不让生成质量下降、如何在训练数据极度匮乏的情况下让模型学会处理四种模态的信息、以及如何建立一套公平可靠的评测标准来衡量这类任务的表现。OmniShow针对这三个困境分别提出了创新性的解决方案，并通过大量实验验证了其有效性。

一、为什么现有工具都「差那么一口气」

回到刚才那个护肤品视频的场景。假设你用某个现有工具生成了视频，你可能会遇到这样的结果：人物脸是对的，但产品被贴在了身上一个奇怪的位置，大小也不对劲，像是被粗暴地PS上去的；或者嘴唇确实在动，但身体完全僵在那里，像一个被施了定身术的蜡像；又或者动作很流畅，但产品换了个颜色或形状，完全认不出来了。

研究团队系统梳理了现有方法的局限性。专注于「参考图像到视频」的工具，比如Phantom和SkyReels，能够较好地保留人物外观，但它们对音频一无所知，生成的视频是彻底「沉默」的，嘴唇不会随声音变化。与此相对，那些专门做「音频驱动视频」的系统，比如Hallo3和OmniAvatar，虽然能让嘴唇跟上声音，但它们通常只接受一张初始帧图片作为参考，无法同时处理人物图片和产品图片两个参考对象。

还有一些工作尝试把音频和参考图像结合起来，比如HuMo和HunyuanCustom，但这类方法忽视了姿态控制，而姿态对于展示人物如何拿着产品、如何做出特定手势至关重要——这些细节是纯文字描述根本说不清楚的。另外，AnchorCrafter、DreamActor-H1和HunyuanVideo-HOMA等针对人物与物体交互场景的专用方法虽然更贴近实际需求，但它们要求额外提供物体遮罩、轨迹点或身体网格模板等苛刻的输入条件，使用门槛很高，而且同样不支持音频驱动。

换句话说，整个领域就像一支乐队，每个乐手只练好了自己的那一段，但没有人能把整首曲子完整地演奏下来。OmniShow的目标，正是成为那个能协调所有乐手、把完整乐曲演奏出来的指挥。

二、统一通道：让四路信号不打架地进入同一扇门

OmniShow构建在一个名为Waver 1.0的基础模型之上，这是字节跳动开发的一个拥有120亿参数的视频生成大模型，采用了一种叫做「多模态扩散变换器」的架构。可以把这个基础模型理解为一台精密的视频生成机器，它已经经过大量训练，具备了从文字或图片出发生成流畅视频的能力。OmniShow要做的，是在不打坏这台机器原有精密结构的前提下，给它安装上三套新的「感知器官」，让它同时能听音频、识姿态、认参考图像。

处理参考图像和姿态信号的方案，研究团队称之为「统一通道式条件注入」。这个名字听起来很拗口，但背后的思路其实相当优雅。

Waver 1.0原本就有一个设计：为了支持「图像生成视频」任务，它会在视频的时间维度上预留一些槽位，用来放置输入图像的编码信息。研究团队发现，与其引入全新的模块来处理参考图像和姿态，不如沿用这套已有的槽位机制，只是把它扩展一下。具体来说，他们在原来的视频序列前面额外附加了若干个「伪帧」，也就是专门用来承载参考图像信息的虚拟帧。参考图像经过VAE编码器压缩成特征向量后，就填充到这些伪帧对应的槽位里。与此同时，姿态骨架图被渲染成RGB格式的视频，同样经过VAE编码后，通过通道拼接的方式和原始视频特征合并在一起。

这样一来，两路视觉信息——参考图像和姿态——都通过同一套通道拼接的机制进入了模型，模型不需要为此学习全新的交互方式，它只需要在熟悉的框架下稍加适应。这就像一个已经熟悉接受信件的邮筒，不需要拆掉重建，只需要稍微扩大一下投信口，就能同时接收两种规格的信封。

更进一步，研究团队还给这些伪帧加上了一个「重建损失」的训练目标。简单来说，模型在训练时不仅要学会生成视频，还要学会从那些伪帧里重建出参考图像本身。这相当于给模型施加了一个额外的压力：你必须仔细记住参考图像里的每一个细节，因为待会儿要考你。有了这个机制，模型在生成视频时对参考人物和物品外观的保真度大幅提升。

实验结果印证了这个设计的优越性。研究团队与另一种叫做「令牌拼接」的主流方法做了对比，后者会把参考图像的信息转化为独立的特征令牌插入模型的注意力序列中。结果显示，在人脸相似度、物体一致性和视频美观度等多个指标上，OmniShow的通道注入方法都取得了更好的成绩。研究团队认为，这背后的原因是通道注入保留了模型原有的输入结构，避免了引入混合令牌所带来的额外学习负担。

三、门控局部注意力：让声音和画面「对上口型」

视觉和听觉的同步，是整个系统里最精妙也最难搞定的部分。一个人在说话时，嘴唇的形状、下巴的幅度、头部的微微抖动，都要精确地对应到音频流里的每一个音素。稍有偏差，人眼立刻能察觉到那种「配音奇怪」的不适感。

OmniShow为此专门设计了「门控局部上下文注意力」机制，分三个层次来解决这个问题。

第一个层次是音频特征的丰富化。研究团队使用了一个叫做Wav2Vec 2.0的预训练模型来提取音频特征，这个模型能够同时捕捉语音的语义内容和节奏韵律信息。但仅仅提取当前帧对应时刻的音频特征是不够的，因为人在发一个音的时候，嘴形往往受到前后音的影响——比如你要发「哦」这个音，嘴唇在发声之前就已经开始撅起来了。为了捕捉这种前后文关系，研究团队采用了一个大小为5的滑动窗口，把每个时刻前后各两帧的音频特征堆叠在一起，形成一个更丰富的上下文音频表示。之后再用步长为4的采样来对齐视频的时间压缩比例，最终得到一个密集的二维音频特征序列。

第二个层次是精确的帧级对齐。提取出音频特征之后，研究团队用了一种叫「掩码注意力」的机制来限制视频帧和音频特征之间的交互范围。具体来说，每一帧视频的特征，只被允许关注它所对应那个时间窗口内的5个音频特征，而不能去关注其他帧对应的音频。这就像给每帧视频戴上了一副耳罩，让它只能听到属于自己那一刻的声音，而不会被其他时刻的声音所干扰。这种精确的对应关系，是实现清晰口型同步的关键。同时，为了适配前面新增的伪帧，研究团队还对音频特征做了补零处理，确保伪帧位置不会意外地和某段音频产生错误的对应关系。

第三个层次是自适应门控。这是一个非常巧妙的训练稳定性设计。当一个新的模块（音频注意力层）被随机初始化并插入一个已经训练好的大模型时，初期这个新模块的输出是噪声，直接加入到模型的特征流里会严重干扰原有的生成能力，导致训练崩溃或者花很长时间才能恢复稳定。为了解决这个问题，研究团队在音频注意力的输出上乘以了一个可学习的门控向量，这个向量的初始值被设置为接近零的极小数。这样一来，在训练初期，音频模块的输出几乎被完全压制，模型仍然按照原来的方式运作；随着训练进行，门控向量的数值会逐渐增大，音频信息的影响也逐渐渗透进来，整个过程平滑自然，不会造成冲击。

研究团队还通过观察这个门控向量的数值变化，得到了一个意外收获。他们发现，在模型的「双流注意力块」区域，门控向量的数值明显高于「单流注意力块」区域，而且前者会随训练步数持续增长，后者则相对低平。这说明音频信息主要在双流注意力块中发挥作用。于是他们做出了一个精简的决策：只在双流注意力块中插入音频注意力层，而跳过单流注意力块。这个决策使得整个模型因为音频模块而增加的参数量仅为约3亿，整体模型规模从120亿增加到约123亿，增幅仅约2.5%。相比之下，HuMo等同类方法引入音频能力后参数量增加了约21.4%，效率差距相当显著。

四、先分后合的训练策略：用「零花钱」拼出「大蛋糕」

数据稀缺是这个研究面临的最棘手问题之一。要训练一个能处理四种模态输入的模型，理论上需要大量同时具备高质量文字描述、人物参考图、物品参考图、配套音频和姿态序列的视频数据。然而这样的「五合一」数据在现实中极难找到——任何一个条件没达标，这条视频就要被丢弃。

面对这个困境，研究团队没有选择强行搜集完整数据，而是设计了一套「分开训练、再行合并」的策略，正式名称叫做「解耦-再联合训练」。这套策略的思路可以用一个日常场景来理解：假设你想学会同时用左手弹钢琴的旋律声部、右手弹和声声部，还要用脚踩踏板。如果你一开始就试图同时练这三件事，可能每件都学得一塌糊涂。更聪明的方法是先专心练好右手旋律，再专心练好左手和声，然后再把两手合在一起练，最后才加入踏板的练习。

OmniShow的训练过程正是遵循这个逻辑。在「解耦训练阶段」，研究团队分别训练了一个专注于参考图像到视频任务的R2V模型，以及一个专注于音频驱动视频任务的A2V模型。前者利用专门的参考图像视频数据集训练，不包含任何音频模块；后者利用音频视频数据集训练，按照常见范式将第一帧图像作为附加条件。两个模型在各自的专属数据上进行了充分的专项训练，每个模型都掌握了一套独立的能力。

接下来是「联合训练阶段」里最有趣的一步：模型融合。研究团队将两个专项模型的权重进行加权平均，具体做法是继承A2V模型中的音频模块（这是新增的结构，R2V模型里没有），然后对两个模型共有的其余参数按照0.6（A2V）和0.4（R2V）的比例进行线性插值。权重比例的选择依据一个重要观察：音频同步依赖于精细的时序对齐，对权重扰动极为敏感，因此更多地保留A2V模型的权重；而视觉外观保真度依赖的是全局特征，对权重扰动的容忍度更高，因此R2V模型的权重可以占据较小比例。

融合之后的模型展现出了一个令研究团队惊喜的现象：即便还没有经过任何专门的「音频加参考图像」联合训练，这个模型就已经能够自发地生成既尊重参考图像、又跟随音频节奏的视频。研究团队把这个现象称为「涌现能力」——就像两个分别学会了游泳和骑自行车的人融合在一起，竟然无师自通地学会了同时游泳和骑车。这个发现本身就是一个颇具启发意义的研究结论：通过权重融合，模型的可控能力可以自发涌现，而不必依赖专门的联合训练数据。

随后，这个融合后的模型先在完整的参考图像加音频数据集上进行联合微调，进一步提升自然度和美学质量；最后才在一个高质量的包含姿态信息的子集上引入姿态条件，完成最终的全模态统一。姿态被放在最后引入，是为了防止模型过度依赖这个强监督信号——如果过早引入，模型可能会「偷懒」，完全靠着姿态信号来决定所有动作，而不去充分学习参考图像和音频所提供的信息。

五、数据工厂：从零开始建造训练原料

巧妇难为无米之炊。为了支撑上述训练策略，研究团队构建了一套大规模的异构数据收集流水线，最终积累了约百万量级的视频片段，累计时长约3500小时。

整个流水线分三个大阶段运转。第一阶段是镜头切割：从一个庞大的内部人物视频库出发，使用场景切割算法把长视频拆解成连续的单一镜头片段，确保每个片段内容连贯、没有跳切。第二阶段是多维度过滤：对每个片段从视频分辨率、画面美观度、运动强度、以及水印文字的密集程度等多个维度进行自动评分，去掉低质量样本。

第三阶段是针对不同子任务的专项处理。对于参考图像视频数据，研究团队一方面从现有视频中提取参考帧，做超分辨率处理，并用算法评估参考图和视频内容的一致性；另一方面还建立了一套合成数据流水线，利用内部的物品图像数据库，通过图像编辑将人物和产品合成在一起，再用内部的图像转视频模型生成对应视频，并经过人工质检筛掉有明显AI痕迹（比如手指变形、细节丢失）的样本。对于音频视频数据，核心工作是做音视频同步评估，专门筛选出语音和视觉动作高度吻合的片段。对于同时包含参考图像和音频的高质量数据，则叠加上述所有标准，并加入人工专家筛选环节，对每条视频进行独立审查。最后，在这部分高质量数据的基础上，使用DWPose工具逐帧提取人体姿态骨架，形成带姿态标注的最终微调数据集。

六、评测标准：填补领域空白

在提出解决方案的同时，研究团队还意识到，这个领域缺乏一个专门的评测基准。现有的各类评测集要么只关注文字和姿态、要么只关注文字和图像，没有一个能够同时评估文字、人物图像、物品图像、音频、姿态这五类输入协同效果的基准。

为此，研究团队建立了HOIVG-Bench，一个包含135个精心构建样本的评测基准。每个样本都配备了详细的文字描述、一张人物参考图、一张物品参考图、一段语义匹配的语音音频，以及一段连贯的姿态序列。

数据构建过程严格遵循了几个原则。视频素材从内部视频库中精选，要求时长超过4秒、包含清晰的人物物品交互、并且在人物属性（性别、年龄、族裔）和物品类别（日用品、工具等）上尽量多样。为了模拟真实的生成场景，物品参考图不是直接从视频中截取，而是用Google的Nano Banana模型对原始物品进行纹理和颜色的修改，并添加更多细节，形成与原物有所区别但同类别的参考图。人物参考图则是基于视频截图通过Nano Banana生成的风格相似但外貌不同的形象，这样既保护了原始人物的隐私，又保持了对模型泛化能力的考验。音频则通过两阶段合成：先用GPT-4o生成一段介绍目标物品的口播文字，再由GPT-4o分析人物参考图中的性别和年龄，最后用ElevenLabs合成匹配音色的语音。所有样本还经过了人工审核，过滤掉有明显AI感的图像，确保基准贴近真实数据分布。

评测维度涵盖五个方面：文字语义对齐（用VideoReward预测文字对齐分数）、参考一致性（用人脸相似度FaceSim和综合一致性评分NexusScore衡量）、音视频同步（用Sync-C和Sync-D两个指标，前者越高越好，后者越低越好）、姿态精度（用平均关键点距离AKD和正确关键点比例PCK衡量）、视频质量（用VBench的美学和画质评分，以及VideoReward的整体视觉质量和动作质量评分）。所有测试统一在5秒时长、720p分辨率的竖屏视频上进行，以确保和只支持短片生成的基准方法做公平对比。

七、实验结果：OmniShow的成绩单

研究团队将OmniShow与六个主流方法进行了对比，涵盖了不同规模的模型变体。在仅使用文字和参考图像生成视频的场景下，OmniShow在人脸相似度上与专门做这件事的Phantom-14B相当，而在物品一致性（NexusScore）和视频质量指标上则表现更优，在文字对齐和动作质量两项上也达到了参赛方法中的最高分。

在同时处理参考图像和音频的场景下，OmniShow在物品一致性、音视频同步的Sync-C、视频美观度、画质、视觉质量和动作质量这六项指标上均领先对手，只在文字对齐一项上略低于HuMo-17B，但HuMo-17B的参数量是OmniShow的约1.38倍。

在使用参考图像和姿态序列生成视频的场景下，OmniShow在物品一致性、正确关键点比例和画质三项上领先，但在人脸相似度上低于VACE，这一点研究团队解释为：在严格的姿态约束下，视角和面部形态会发生较大变化，导致基于人脸检测的相似度评分天然偏低，并不能准确反映实际生成质量。

在RAP2V这个最完整的四路输入场景下，目前没有其他方法支持这种设置，因此研究团队构造了一个级联基准方法（先用VACE生成带姿态的视频，再用LatentSync做口型后处理）来做对比。结果显示，OmniShow在所有11项指标上全面超越了这个级联方法，特别是在视频质量（VQ为11.06对10.05）和动作质量（MQ为5.88对3.91）上有较大幅度的提升。研究团队指出，级联方法的口型处理模块在遭遇手部遮挡嘴巴的情况时特别容易产生模糊和伪影，而端到端的OmniShow因为在生成阶段就已经整合了音频信息，能够更自然地处理这类复杂遮挡情况。

在用户偏好研究中，研究团队分别组织了30名评测者对RA2V结果做选边站评测，以及33名评测者对RP2V结果做选边站评测，每次评测20个随机样本。在RA2V设置下，超过51%的评测者认为OmniShow的视频质量优于HuMo-17B，约42%认为参考一致性更好，约42%认为音视频同步更好。在RP2V设置下，超过52%的评测者认为OmniShow的视频质量更好，超过56%认为姿态精度更好。这表明OmniShow的优势在人类感知层面比单纯的数值指标更为明显，研究团队认为这主要来自于视频在时间维度上更流畅的动态表现。

八、深挖一步：消融实验告诉我们什么

研究团队还做了一系列「拆零件」实验，逐个去掉某个设计，观察性能下降程度，从而反向验证每个设计的必要性。

去掉参考重建损失之后，人脸相似度从0.707下降到0.678，物品一致性评分也有所下降，证明这个额外的重建约束对保真度有实质贡献。把通道注入方式换成令牌拼接之后，人脸相似度进一步下降到0.601，物品一致性也更低，印证了通道注入对于任务统一模型的优越性。

在音频注意力模块的消融实验中，去掉音频上下文打包（即滑动窗口机制）之后，Sync-D指标变差，说明上下文信息对于捕捉时序连贯性至关重要。去掉注意力图的帧级约束之后，Sync-C从9.023骤降到2.201，Sync-D从7.419恶化到13.01，这是整个消融表格里最戏剧性的下降，直观地说明帧级精确对齐是音视频同步的核心机制，缺了它整个音频注入几乎失效。去掉自适应门控之后，视频美观度指标下降，验证了门控机制对训练稳定性的保护作用。

在训练策略的消融实验中，直接在完整的参考加音频数据上训练（不做分阶段）的模型，音视频同步表现最差（Sync-D高达13.11）。先用R2V数据训练再切换到联合数据的方案，音视频同步也没有改善。先用A2V数据训练再切换的方案则参考一致性最弱。只有研究团队提出的先分别训练、再融合、再联合微调的完整策略，才在参考一致性和音视频同步之间取得最佳平衡。

研究团队还专门测试了只经过音频视频训练阶段的OmniShow-A2V模型，在一个叫做EMTD的专门音频驱动视频基准上，这个模型的Sync-C得分达到6.49，超过了MultiTalk的6.34，成为当前最优结果之一，验证了门控局部上下文注意力机制在单独的音频视频任务上也有竞争力。

此外，研究团队还验证了OmniShow在更宽泛应用场景下的灵活性。给定单张人物图像和音频，OmniShow可以作为音频驱动数字人的工具，生成表情自然、口型同步的动态形象。通过在工作流中插入姿态提取步骤，可以从现有视频中提取人物的动作序列，再结合一个新的物品参考图，生成一段人物手持新物品的视频，实现「物品替换」效果。通过分别从不同来源提取姿态、物品参考图和人物参考图，还可以合成出一段全新的、人物和物品都来自不同原始素材的融合视频，实现「视频重混」的创作效果。

说到底，OmniShow解决的是一个在技术层面长期悬而未决、在实际应用层面又有真实强烈需求的问题。它的核心贡献在于，证明了可以用极小的架构改动（仅增加约2.5%的参数）就撬动对四种模态输入的统一处理能力，同时证明了通过权重融合让多模态可控性自发涌现的可能性。这两个发现，对于整个视频生成领域的后续研究都有一定的方法论启示价值。

当然，这项研究也坦承了一些局限性。当前的评测仅覆盖5秒时长的片段，而模型实际上能生成长达10秒的视频，更长时间的全面评测尚待完成。评测基准中的人物参考图均为AI生成，与完全真实的照片相比存在一定的域偏移，这可能使评测结果与真实部署场景之间存在些许差距。在极端的大幅度运动或多模态信号相互冲突的情况下，生成视频有时仍会出现模糊或伪影，这是未来需要进一步攻克的方向。研究团队还展望了几个值得探索的后续方向，包括引入基于人类偏好反馈的强化学习来进一步对齐真实场景、扩大训练数据和模型规模、支持更丰富的输入形式（如摄像机运动轨迹或参考视频片段），以及向分钟级长视频合成和实时交互式生成迈进。

对这项研究感兴趣的读者，可以通过arXiv编号2604.11804v1找到完整论文，也可以访问论文中提到的项目主页查看视频演示。

Q&A

Q1：OmniShow和现有的AI视频生成工具有什么本质区别？

A：现有工具通常只能处理一两种输入条件，比如只能接受文字描述，或者只能根据一张参考图生成视频，无法同时处理人物参考图、物品参考图、语音音频和姿态动作这四类输入。OmniShow是目前第一个能够同时接受这四类输入并生成高质量视频的端到端框架，生成的视频中人物和物品的外观高度保真，嘴唇动作与音频同步，身体动作符合指定姿态。

Q2：门控局部上下文注意力机制是如何实现嘴唇和声音同步的？

A：这个机制分三步工作。首先用滑动窗口把每帧对应时刻前后的音频特征聚合在一起，让模型理解发音的前后文关系。然后通过掩码约束，强制每帧视频只能关注自己时间段内的音频，避免串扰。最后用初始值接近零的可学习门控向量控制音频信号的影响力度，确保训练初期模型不被随机初始化的音频模块干扰，随着训练推进才逐渐开放音频的影响。

Q3：HOIVG-Bench评测基准里的人物和物品图片为什么要用AI生成而不直接用真实照片？

A：使用AI生成图像主要出于两方面考虑。一是隐私和合规保护，直接使用真实人物照片涉及肖像权和个人信息保护问题，公开发布会面临法律风险。二是物品参考图需要模拟真实使用场景，即参考图中的物品与视频中的物品有所不同，不能直接从视频帧中截取，需要通过AI修改纹理和细节来构造差异化的参考样本。研究团队还专门进行了人工审核，过滤掉有明显AI感的图像，确保基准贴近真实数据分布。

视频生成多模态融合端到端框架

分享至