微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

百度ERNIE团队打造的"音视频统一生成"黑科技：让AI同时听懂和看懂这个世界

人工智能音视频联合生成新型架构

百度ERNIE团队打造的"音视频统一生成"黑科技：让AI同时听懂和看懂这个世界

作者：科技行者

2026-06-03 13:45

分享至：

百度ERNIE团队提出NAVA框架，通过让音频和视频在专属空间先建立对应关系、再引入文字语义引导的方式，用6.3B参数实现了当前最佳的音视频同步生成效果。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-03 13:45 • 科技行者

这项由百度ERNIE团队主导完成的研究，以预印本形式发布于2026年5月28日，论文编号为arXiv:2605.30073，有兴趣深入钻研的读者可通过该编号在arXiv平台查阅完整原文。

**一、为什么同时"看"和"听"这件事对AI来说如此困难**

你有没有注意过，当一个人说话时，嘴唇的动作和声音是同步的？当一位钢琴家弹奏时，手指落键的瞬间和音符响起是对应的？当电影里发生爆炸，画面中的火光和轰鸣声是同时出现的？这些对人类来说理所当然的"音画同步"，对AI来说却是个极其棘手的难题。

目前市面上有一些AI视频生成工具已经能做到同时生成画面和声音，但它们大多采用的是一种"分家再合并"的笨办法——先让AI单独"想"出视频画面，再让另一个AI单独"想"出音频，最后把两者拼在一起。这就好比让两位作曲家各自戴着耳机、互不相通地创作同一部交响乐，然后强行把两份乐谱合并成一首曲子。结果可想而知：有时候差不多、有时候驴唇不对马嘴。

百度ERNIE团队意识到了这个根本性的问题，并提出了一种全新的解决思路——NAVA，全称"原生音视频对齐框架"（Native Audio-Visual Alignment）。这套框架的核心理念是：让音频和视频从一开始就在同一个"创作空间"里共同生长，而不是分开生长再强行拼接。

**二、现有方案的两种不同"走法"，以及它们各自的问题**

要理解NAVA的创新之处，先得搞清楚目前主流的AI音视频生成方案是怎么工作的。研究团队把现有方案分成了两大类，分别有各自的致命弱点。

第一类叫做"双塔架构"。顾名思义，就是音频和视频各住一座塔，两座塔里的AI各自干各自的活。视频那边根据文字描述生成画面，音频那边根据同样的文字描述生成声音，然后在最后阶段通过一个"桥梁模块"把两者连接起来。目前开源社区里比较知名的Ovi、LTX、MoVA等项目都属于这一类。

这种方法的问题在于，当音频和视频在各自的塔里独立发展了很长时间之后，它们已经各自形成了自己的"性格"，这时候再试图让它们"融合"，往往只能做到粗略的对齐，很难实现真正细粒度的同步。比如说话时嘴唇微妙的动作和声音之间的精确对应，这种精细层面的协调就很难靠后期"桥梁"来补救。

第二类叫做"完全统一的三模态架构"。这种方案走向了另一个极端，把文字、音频、视频三种信息全部丢进同一个大锅里一起搅拌。代表作是daVinci-MagiHuman系统。这种设计的好处是三种信息可以直接"对话"，但坏处是把两件性质完全不同的事情混在了一起：一件事是"语义层面的理解"（比如AI要理解"这段视频描述的是一个爆炸场景"），另一件事是"低级层面的同步"（比如爆炸画面和爆炸声要在毫秒级别精确对齐）。把这两件事硬塞进同一个空间，就像让同一个人同时负责编剧和同期录音，两件事的需求经常会互相干扰。

**三、NAVA的核心思路：先让声音和画面"谈恋爱"，再引入外部指导**

NAVA的设计哲学可以用一句话概括：先建立音视频之间的"专属关系"，再引入外部信息来指导整个生成过程。

可以用谈恋爱来理解这个设计。在一段好的关系中，两个人首先需要在一起相处，建立起深度的默契和理解——这是私密的、专属的过程。然后，他们可以参考外界的建议（朋友的意见、社会的期待）来调整两人关系的方向。NAVA对音频和视频的处理方式正是如此：先给音频和视频一个专属的"私密空间"，让它们充分相互了解、建立精确的对应关系；然后再把文字描述等外部信息作为"外部建议"注入进来，引导最终生成的内容。

用更技术性但仍然好理解的方式来说：在NAVA的第一阶段，音频信号和视频信号会被放在一个共享的"音视频对齐空间"里，通过自注意力机制让它们直接相互"感知"——视频帧里的每个时刻可以直接感知到对应时刻的音频特征，反之亦然。文字描述在这个阶段并不作为平等的参与者混入其中，而是在第二阶段通过交叉注意力机制从"外部"向已经初步对齐的音视频联合体输入语义信息。这种"先对齐、后调控"的设计，既保留了音视频之间精细同步的可能，又让文字语义能够有效地引导生成内容，两者互不干扰。

**四、"先对齐再融合"的MMDiT架构：一栋精心设计的两层小楼**

NAVA的具体实现依赖于一种被研究团队命名为"Align-then-Fuse MMDiT"的架构，可以把它理解成一栋精心设计的两层小楼，每层楼有不同的功能分工。

这栋小楼的整体框架是MMDiT（多模态扩散变换器），这是当前AI图像和视频生成领域里最主流的技术架构之一，简单来说就是一种通过逐步"去噪"来生成内容的神经网络。NAVA在这个框架的基础上，把30个处理模块分成了前10个和后20个两大组，各有不同的职责。

一楼是"层级对齐层"，负责建立音视频之间的原生对应关系。这里有一个重要的设计细节：音频信号和视频信号在物理特性上差异极大——视频是二维的空间加一维的时间，音频则是随时间变化的频谱；它们的采样率不同、信号密度不同、特征分布也截然不同。如果一开始就强迫它们共用同样的处理参数，会导致两种信号之间的"鸡同鸭讲"。所以在一楼，音频和视频各自先经过模态专属的投影层，把自己的特征转换到一个共同可理解的"语言"上，然后再放入共享的注意力机制中进行深度交互。这个过程就像两个来自不同国家的人，先各自学好一门共同的语言，然后再开始对话，效果远比强行让他们用完全不同的语言沟通要好得多。

一楼还解决了一个技术上的小难题：音频和视频的时间分辨率不同，同样一秒钟的内容，音频可能需要表示成更多的"时间片段"，而视频帧率相对较低。为了让两者在时间轴上能够对齐，研究团队对音频的位置编码（一种让AI知道"现在处理的是哪个时刻的信息"的机制）做了比例缩放，让音频和视频的时间坐标系对齐。具体公式是将音频的旋转位置编码角度乘以视频帧率与音频帧率的比值，从而让两者在时间轴上说的是同一种语言。

文字描述和参考音色等外部信息则通过交叉注意力机制注入，始终处于"外部顾问"的角色，而不是混入音视频的专属对话空间。这保留了一楼作为专属音视频同步空间的纯粹性。

二楼是"统一融合层"，负责在音视频对应关系已经基本建立的基础上，进行更高层次的协同去噪。经过一楼的充分"磨合"之后，音频和视频的特征已经不再那么"格格不入"，这时候可以安全地让它们共享同一套处理参数，进行更高效的联合生成。二楼的设计删除了音视频之间持续的模态区分，代之以共享的变换器模块，既节省了计算资源，也推动了音视频在更深层次上的协同演化。文字等外部条件仍然通过交叉注意力从外部注入，确保语义指导贯穿整个生成过程。

整体而言，这栋两层小楼的设计哲学是：在最需要精细协调的早期阶段，给音视频提供充分的"专属空间"来建立原生默契；在需要效率和高层融合的后期阶段，则推动两者共享资源进行协同生成。这种从"分"到"合"的渐进设计，是NAVA架构的核心精髓。

**五、音色控制：让AI记住"谁在说话"的创意方案**

NAVA还解决了一个在实际应用中极为重要却常被忽视的问题：如何精确控制生成内容中不同说话人的音色。

考虑这样一个场景：你希望AI生成一段对话视频，左边的人用某个特定演员的声音说话，右边的人用另一个演员的声音说话。这涉及到一个棘手的问题：AI怎么知道哪段文字应该用哪种音色来说？

现有的一些系统虽然能支持参考音色（即给AI一段参考音频，让它"模仿"这段音频的音色来生成语音），但它们通常把音色信息作为一种"全局控制信号"注入——也就是说，整个视频里所有人说话都会受到这一个参考音色的影响。对于单人说话的场景这还勉强够用，但对于多人对话的场景，这种方法完全失灵。

NAVA提出了一种被称为"语境中的音色条件化"（Timbre-in-Context Conditioning）的机制，其解决方案非常优雅。具体做法是：在文字提示里，每段说话内容都用特殊标记`<S>`和`<E>`包裹起来（S代表Start，E代表End），同时把这段话对应的参考音色信息作为一个特殊的"音色令牌"插入到这段文字的前面。这样，整个文字提示就变成了一个结构化的序列，每段说话内容和其对应的参考音色紧紧绑定在一起。

当AI在生成时读取这个结构化提示，它就知道当前处理的这段话应该用哪种音色来说——因为音色信息就"贴"在对应文字的旁边。这种设计的妙处在于：它完全不需要修改NAVA的核心生成架构，也不需要增加额外的"说话人控制模块"，只需要在文字提示的组织方式上做一点创新，就实现了细粒度的多说话人音色控制。对于一段有两个说话人的对话，只需要在提示中插入两个不同的音色令牌，分别绑定到对应的说话片段，AI就能自动理解并执行。

**六、训练方法：循序渐进的三阶段修炼**

NAVA的训练过程被设计成三个递进的阶段，每个阶段有不同的侧重点，整体上遵循"从基础到精细"的逻辑。

第一阶段，以3:1的比例混合纯音频数据和音视频配对数据来训练。这个阶段的主要目标是让模型先学会如何处理音频——毕竟NAVA的视频生成能力是从一个已经很成熟的视频生成模型（Wan2.2-5B）继承来的，不需要从头学，但音频处理能力需要从零建立。以音频数据为主，可以快速建立音频通道的基础能力，同时不让视频生成能力退化。

第二阶段，将纯音频和音视频的比例调整为1:2，同时引入更高质量的音频数据。这个阶段的重点转移到提升音频保真度和音视频同步精度上。有了第一阶段打下的基础，这个阶段可以开始在质量上精益求精。

第三阶段，使用经过精心筛选的高质量音视频数据进行微调。这个阶段着重提升模型对复杂指令的理解和执行能力，包括多说话人对话场景、复杂的镜头运动、音色控制等高级功能。

在训练过程中，NAVA还引入了两种有趣的"随机丢弃"策略，为后续的推理控制打基础。第一种叫"随机跨模态注意力掩码"——以20%的概率随机屏蔽音频和视频之间的注意力连接，让模型同时学会"音视频深度耦合"和"音视频相对独立"两种生成模式，这样在推理时就可以用两种模式的预测差异来估计音视频对齐的"引导信号"。第二种叫"随机音色条件丢弃"——以20%的概率随机将音色令牌替换为空令牌，让模型同时学会"有音色引导"和"无音色引导"两种模式，为推理时的音色控制打下基础。

**七、推理时的精细控制：三个独立的"调音旋钮"**

推理阶段（即实际使用模型生成内容时），NAVA支持一种被称为"条件分解的无分类器引导"的精细控制机制。用通俗的话说，就是提供了三个独立的"调音旋钮"，用户可以分别调节三个维度的强度。

第一个旋钮控制"文字引导强度"——调高这个旋钮，生成的内容会更严格地遵循文字描述；调低则给AI更多的创作自由度。第二个旋钮控制"音视频对齐强度"——调高这个旋钮，生成的音频和视频之间的同步精度会显著提升，但可能在其他方面有所取舍；调低则让音视频更自由地各自发展。第三个旋钮控制"音色保留强度"——调高这个旋钮，生成的语音会更接近参考音色；调低则让AI对音色有更多的自主解释空间。

这三个旋钮背后的数学原理是：在推理过程中，NAVA会同时运行同一个模型的多个"版本"——一个有完整条件的版本，一个去掉文字条件的版本，一个去掉音视频对齐的版本，一个去掉音色条件的版本。然后，用有条件版本的预测减去对应无条件版本的预测，就得到了这个条件的"引导方向"，乘以对应的旋钮强度系数后叠加到最终预测上。这种设计允许用户在不重新训练模型的情况下，在推理时灵活调节这三个维度的强度，针对不同类型的内容做出最优的配置。

**八、数据流水线：从1亿个原始视频到15万个精品样本**

为了训练NAVA，研究团队构建了一套庞大且精细的数据处理流水线，整个过程的工程复杂度堪比建造一座精密工厂。

原始数据层面，团队从多个来源收集了约2000万段音频和1亿段视频，数据来源包括Koala-36M（一个大规模视频数据集）、TED风格的演讲视频，以及电影和电视素材。如此海量的原始数据显然不能直接用于训练，需要经过层层筛选和加工。

第一道工序是"去杂质"——使用OCR技术识别并过滤掉画面中有大量字幕或文字叠加的视频（因为这会让AI学到错误的关联），同时用图像理解工具去除字幕。接着，使用视频理解模型提取每段视频的特征向量，然后通过大规模聚类算法找出并删除重复或高度相似的片段，避免AI反复学习同样的内容。

第二道工序是"贴标签"——对每段保留下来的素材进行细致的分类标注。视觉内容方面，标注包括电影、纪录片、电视剧、直播、新闻、采访等类型；音频内容方面，则区分单人说话、多人对话、环境音、音乐、歌唱等类别。这些标签不只是用于检索，更是用于在不同训练阶段构建针对性的数据子集。

第三道工序是"写说明书"——为每段素材生成结构化的文字描述。团队采用了两阶段策略：对于大规模数据集，分别用Qwen3-VL（视觉理解模型）和Qwen3-Omni（全模态理解模型）生成视觉和音频描述，再用Gemini-3-Flash将两者融合；对于高质量子集和多说话人场景的数据，则直接使用能力更强的Gemini-3-Pro生成更精确、时间戳更准确的描述。

第四道工序是"质量把关"——通过多个评估工具对每段素材进行综合打分，包括视觉美学评分、清晰度、亮度、运动幅度；音频质量评分（使用Meta的AudioBox Aesthetic工具）；以及音视频对齐程度（使用SyncNet、SyncFormer、ImageBind等多个工具交叉验证）。

经过这四道工序的层层过滤，最终从1亿段原始视频中筛选出约1500万段用于大规模预训练，并从中进一步精选出16万段高质量样本用于监督微调阶段。Koala-36M数据集约贡献了最终训练语料的20%，平均每段视频时长约7秒。

**九、提示词工程：教AI听懂"又要看又要听"的复杂需求**

普通的文生视频模型只需要理解"画什么"，而音视频联合生成模型还需要理解"说什么"、"谁来说"、"什么时候说"、"同时有什么背景声"……这对提示词（即用户输入的文字描述）的格式提出了更高的要求。

为此，研究团队设计了一套统一的结构化提示词模板，把对一段视频的描述分成四个层次：全局视觉描述（场景是什么、主体是什么、环境什么样）、时间动态（开始时发生了什么、然后发生了什么、结束时什么状态）、镜头与构图（固定镜头还是跟拍、有没有剪切和场景转换）、音频描述（有没有对话、有什么背景音、音场是怎样的）。

对于包含说话内容的视频，每段对话用`<S>`和`<E>`标记明确圈定范围；对于多说话人场景，每位说话人的音色、情绪、语速、在声场中的位置都会被详细描述。对于无语音的视频，则着重描述动作声、接触摩擦声、物体声、环境氛围声和混响特性。

这套模板不仅用于训练数据的描述生成，也是用户在实际使用NAVA时需要遵循的输入格式。为了让基准测试中的提示词能够适配这个格式，研究团队还使用Gemini-3-Flash对所有测试提示词进行了重新改写，在保留原始语义的前提下转换为NAVA能够最好理解的结构化格式。

**十、实验结果：用数字说明NAVA的实际表现**

研究团队在两个标准测试平台上对NAVA进行了全面评估：一个是Verse-Bench（一个覆盖说话视频、音效视频、乐器演奏视频等多种类型的音视频质量评估基准），另一个是Seed-TTS（专门评估语音生成质量和说话人相似度的基准）。

在Verse-Bench的音视频同步测试中，NAVA的表现最为突出。SyncNet的两项指标分别评估"嘴唇动作和声音的匹配置信度"（Sync-C，越高越好）和"嘴唇和声音的时间偏差"（Sync-D，越低越好）。NAVA的Sync-C得分为7.791，Sync-D为7.566，均优于所有参与比较的竞争对手——Ovi-1.1（10B参数）、MoVA（32B参数激活值）、daVinci-MagiHuman（15B参数）和LTX 2.3（19B参数）。值得特别注意的是，NAVA只用了6.3B参数，却在参数量远大于自身的竞争对手中取得了最好的同步性能。

在视频质量维度，NAVA取得了0.659的得分，同样位居第一，说明其Align-then-Fuse设计在提升音视频同步的同时并没有损害视频本身的生成质量。

语音识别错误率（WER）方面，NAVA以0.099的成绩排名第一，意味着AI生成的语音中，用语音识别工具识别出来的文字和原本应该说的文字吻合度最高，说明NAVA的语音清晰度和内容准确性最好。音频感知质量（PQ）和音频特征分布相似度（FD）方面，NAVA的表现也在竞争对手中处于有竞争力的水平，尽管不是全面第一，但综合来看是最均衡的。

在跨模态语义一致性（IB-Score）维度，NAVA得到0.313分，高于Ovi-1.1，但低于LTX 2.3的0.337——这是NAVA在各项指标中相对较弱的一项，研究团队也坦承了这一点。

在Seed-TTS基准上测试音色控制能力时，NAVA的表现令人印象深刻。它以说话人相似度66.7分、语音识别错误率4.20%的成绩，不仅远超另一个音视频生成模型DreamID-Omni（后者相似度仅35.7分，错误率高达31.76%），甚至比肩了专门的语音生成模型——CosyVoice的相似度是60.9分，CosyVoice2是65.2分，Qwen2.5-Omni是63.2分。一个同时生成视频和音频的通用模型，在音色相似度上超越了只专注于语音生成的专业模型，这一结果很能说明Timbre-in-Context Conditioning机制的有效性。

**十一、人类评估：真实用户眼中NAVA与对手的差距**

除了客观指标，研究团队还招募了真实的人类评估员来进行主观感知测试。250个测试案例覆盖了"纯文字生成音视频"（T2AV）和"文字加参考图片生成音视频"（TI2AV）两种场景，评估者要对比NAVA和其他系统的输出，在"整体质量"和"音视频对齐准确度"两个维度上，给出"NAVA更好"、"差不多"或"对方更好"的判断。

在T2AV场景中，NAVA的表现非常稳健。与Ovi-1.1相比，67.5%的评估者认为NAVA整体质量更好；与LTX-2.3相比，60%的人更偏好NAVA；与daVinci-MagiHuman相比，高达80%的人选择了NAVA。在音视频对齐维度，NAVA的优势同样明显：对Ovi-1.1的胜率是62.5%，对LTX-2.3是65%，对daVinci是72.5%。

在TI2AV场景中，情况稍显复杂。NAVA对daVinci有明显优势（整体质量胜率48.8%，对齐胜率48.8%），对Ovi-1.1也保持优势（整体质量胜率43.9%，对齐胜率51.2%），对MoVA也有一定优势（整体质量胜率37.5%，对齐胜率47.5%）。但对LTX-2.3，NAVA的优势明显收窄——整体质量胜率仅26.2%，对齐胜率33.3%。这说明在有参考图片作为输入的场景中，LTX-2.3是NAVA最强劲的竞争对手，两者互有优劣。

**十二、消融实验：一层一层验证NAVA设计的合理性**

为了验证NAVA各个设计组件确实各自有效，研究团队进行了一系列"拆零件"式的消融实验，即依次删除某个组件，看看性能会如何变化。

关于Align-then-Fuse架构的实验最为关键。研究团队对比了三种变体：只有统一融合层、只有层级对齐层、以及二者兼具的完整NAVA。结果显示，只有统一融合层（参数量5B，因为没有模态专属的对齐层）的变体，在同步性和跨模态语义一致性上都明显更差——这证实了"在共享参数之前先充分对齐"这个设计决策的价值。只有层级对齐层（参数量7.7B，因为保留了更多模态专属参数）的变体，在语音质量方面表现较好（更低的错误率），但在视频质量和跨模态一致性上却下降了——这说明如果始终保持音视频分开处理、不进行深度融合，高层次的联合生成能力就无法充分发挥。完整的NAVA（参数量6.3B，前10层对齐、后20层融合）在各项指标上取得了最佳平衡。

关于条件分解引导的实验同样验证了设计的有效性。去掉对齐引导（即不使用第二个旋钮），NAVA的Sync-C从7.791骤降至6.170，Sync-D从7.566上升至8.755，跨模态语义一致性也从0.402下降至0.355，且语音错误率从0.099上升至0.126。这说明对齐引导对于音视频精确同步来说至关重要，并非锦上添花。去掉音色引导，说话人相似度从66.7降至65.5，语音错误率则从4.20降至3.78——音色相似度下降，但语音内容准确性略有提升，这反映了音色保留和内容准确性之间存在一定的取舍关系，两者需要通过调节旋钮强度来平衡。

**十三、局限性和未来方向：研究者自己也承认的不足**

研究团队对NAVA的局限性保持了坦诚的态度，这也是一篇高质量学术研究应有的风格。

NAVA目前在某些"长尾"和高度复杂的音频事件上仍然表现欠佳。所谓长尾，是指训练数据中相对稀少的类别——比如罕见动物的叫声、特殊乐器的演奏、歌唱（而非普通说话）、以及多种声音事件同时发生的复杂混音场景。这类内容在现有训练数据中占比较小，模型自然难以掌握。

研究团队指出，解决这个问题的根本途径是获取更广泛、更细致整理的音视频数据，特别是针对罕见事件和复杂声音组合的数据。

在未来研究方向上，团队提出了一个颇具想象力的想法：探索"更早的融合机制"，比如直接开发音视频联合的分词器（tokenizer），甚至统一的音视频表征模型。NAVA目前的做法是对音频和视频分别进行编码（各自使用不同的VAE），然后在Transformer层进行融合，这种融合发生在特征层面。如果能在更底层（信号层面或紧凑表征层面）就开始融合，或许能进一步增强同步性和语义一致性。这是一个更具挑战性但也更具潜力的方向。

训练资源方面，NAVA的完整训练需要约107,520个H100 GPU小时——其中前两阶段需要160块H100跑大约三周（约80,640 GPU小时），第三阶段微调需要160块H100再跑一周（约26,880 GPU小时）。这是一个相当可观的计算投入，说明此类系统的开发目前仍然需要大规模的计算资源支撑，并不是普通研究者能够轻易复现的工作。

说到底，NAVA代表了音视频联合生成领域一种务实而有效的新思路。它既没有走"把所有东西都塞进一个锅"的激进统一路线，也没有停留在"分开做完再拼"的保守方案，而是找到了一条中间道路——给音频和视频一个专属的"相互了解空间"，同时保持外部语义信息的灵活注入。从实验结果来看，这条路确实走通了：6.3B的参数量、压倒性的音视频同步性能、媲美专业语音模型的音色控制能力，这些成绩放在一起，是一张相当说得过去的成绩单。

未来的AI生成内容，或许不只是"好看的画面"或"好听的声音"，而是真正"音画合一"的沉浸式体验。NAVA走出了这个方向上一步扎实的探索。对这项研究感兴趣的读者，可以通过论文编号arXiv:2605.30073在arXiv平台上查阅完整的技术细节。

Q&A

Q1：NAVA和普通AI视频生成工具有什么区别？

A：普通AI视频生成工具要么只生成画面，要么先生成视频再单独加音频。NAVA的不同之处在于，它让音频和视频从生成的第一步就开始"相互感知"，在一个专属的对齐空间里共同演化，而不是分开做完再拼合，因此能实现更精确的嘴唇动作与语音同步，以及画面事件与声音事件的自然对应。

Q2：NAVA的音色控制功能是怎么用的？

A：用户只需要在文字提示里用特定标记`<S>`和`<E>`把每段说话内容圈起来，并在对应位置附上一段参考音频，NAVA就能让生成的语音模仿那段参考音频的音色。对于多人对话的场景，可以为不同说话片段分别指定不同的参考音频，系统会自动区分并分别执行，无需任何额外的复杂配置。

Q3：NAVA目前有哪些明显的不足？

A：NAVA在罕见声音类别上表现不够好，比如特殊动物叫声、歌唱、或多种复杂声音同时出现的场景。此外，在有参考图片作为输入的生成任务中，LTX-2.3是其有力竞争对手，两者在整体质量上各有优劣。整个系统的训练需要超过10万GPU小时的算力，目前不具备普通团队自行训练的条件。

人工智能音视频联合生成新型架构

分享至