微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

港科大联手腾讯，打造史上首个"全能音频大脑"：一个模型，听懂、创作、编辑三合一

多模态学习扩散模型音频编辑数据集

港科大联手腾讯，打造史上首个"全能音频大脑"：一个模型，听懂、创作、编辑三合一

作者：科技行者

2026-04-22 13:45

分享至：

这项由香港科技大学与腾讯微信视觉团队联合发布的研究（arXiv:2604.10708，2026年4月）提出了Audio-Omni框架，这是首个将音频理解、生成与编辑统一于单一端到端系统的模型，覆盖通用音效、音乐和语音三大领域。其核心创新在于将冻结的多模态大语言模型与可训练扩散变换器解耦结合，并构建了超百万条样本的音频编辑数据集AudioEdit。实验表明，该模型在多项任务上超越或媲美专门模型，并展现出知识增强生成、跨语言控制等涌现能力。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-22 13:45 • 科技行者

这项由香港科技大学与腾讯微信视觉团队联合开展的研究，成果以预印本形式发布于2026年4月12日，论文编号为arXiv:2604.10708，感兴趣的读者可通过该编号查阅完整论文。

人类的耳朵每天要处理三种截然不同的声音世界：自然界中汽车鸣笛、狗吠、雨声等各种"通用音效"；乐器演奏出的音乐；以及人与人之间交流的语音。长久以来，AI领域处理这三类声音的方式，就像一家餐厅聘请了三位不同的厨师，每位只会做一类菜肴——音效生成的模型管不了音乐，音乐生成的模型也处理不了语音，更别说同时"听懂"声音再去"加工"它了。

研究团队把这个割裂的现状比喻成一个困境：你要给一段视频配音，需要同时找三个专业工具，它们彼此不通气，也无法联动学习。而这个项目——Audio-Omni——就是要打破这堵墙，用一个统一的系统完成所有事情。

在正式进入技术细节之前，先说说这项研究的野心有多大。Audio-Omni要做到的事情包括：听懂一段音频并回答关于它的问题，根据文字描述凭空生成音效或音乐，根据视频画面自动匹配音效，把文字读成指定人声，把一段吉他声"变身"为萨克斯风，从一段嘈杂录音里剥离出单独的声源，甚至能理解中文指令去生成英文音频。所有这些，由同一个系统完成，不切换，不中断。

---

一、为什么以前没人做成这件事

音频世界之所以难以统一，有一个根本原因：这三类声音在数学结构上差异极大，就像要求同一个演员既能演功夫片、又能演歌剧、还能演脱口秀——技能之间几乎没有重叠。

过去的一些尝试确实试图做整合，但都有明显短板。有些系统把多个专门模型拼接在一起，通过中间人协调调度，结果就像一个乐队里每个人都戴着耳机听自己的，最终演奏出来的东西不协调。另一些系统则只挑了其中一两类声音来做，比如专门处理语音的，或者只管音乐的，没能真正覆盖全局。而音频"编辑"这个方向就更惨——因为根本没有足够的训练数据，几乎没有模型能做好"按照文字指令修改一段音频"这件事。

Audio-Omni的研究团队发现，数据稀缺是阻碍音频编辑领域发展的最大拦路虎。于是他们决定自己动手，先解决数据问题，再构建模型。

---

二、先造"食材"：一百万条音频编辑数据从哪来

研究团队专门为这个项目构建了一个叫做AudioEdit的数据集，规模超过一百万条样本，覆盖四种编辑任务：往音频里"加"一个声音、从音频里"删"一个声音、从混合音频里"提取"某个声源，以及改变某段音频的"风格"。

这个数据集的构建方式颇具匠心，分成两条并行的流水线。一条叫"真实数据分支"，专门从现有的真实录音数据库（如VGGSound视频音频数据集）里挖掘真实的编辑对。具体操作是这样的：先用谷歌的Gemini 2.5 Pro大语言模型分析每段音频里主要是什么声音在发声，再用一个叫SAM-Audio的音频分割模型把那个声音从背景中剥离出来，得到"目标声音"和"剩余背景"两条轨道，然后对这两条轨道做严格的质量筛选。这个筛选过程非常苛刻：从最初的54万条候选样本出发，先通过语音活动检测剔除沉默段，保留约34.7万条；再通过CLAP（一种基于语言的音频语义匹配工具）验证分离结果是否符合语义，最终保留约5万条高质量样本，整体保留率约9.2%。研究团队还专门邀请人工核验了一批样本，人工认可率约83%，证明这个筛选流程是可靠的。

风格迁移任务的数据构建更有创意：以筛选出的目标声音为基础，再次用Gemini生成"语义相近但风格不同"的关键词——比如原来是吉他，就生成"萨克斯风"——然后用一个叫ZETA的工具把音频变换到新风格，同时保持节奏和音高不变，最后再把变换后的音频和剩余背景重新混合。这样就得到了真实感很强的"风格迁移前后对"，共约50万条。

另一条流水线叫"合成数据分支"，用程序化的方式批量生成音景：从ESC-50环境声数据集里随机选取前景音效，叠加到AudioCaps背景音频上，同时随机调整开始时间、信噪比、音高偏移和时间拉伸参数，得到大量标注精确的加减提取任务数据。

两条流水线合并之后，AudioEdit共包含约110万条训练样本，覆盖四种任务，另配有2000条测试样本。这个数据集本身就是一项独立贡献，将会公开发布供研究者使用。

---

三、模型架构：一个"大脑"指挥，一个"工坊"执行

Audio-Omni的核心设计思路，可以用一家专业制作公司来理解：公司里有一位资深总监，负责理解客户需求、调动知识和判断；还有一个技术工坊，负责实际产出音频成品。总监和工坊之间有一套精心设计的沟通机制，确保信息传递既不失真，又高效。

具体而言，"总监"的角色由一个叫Qwen2.5-Omni-3B的多模态大语言模型（可以理解文字、音频、视频的综合型AI）担任，并且这个总监在训练过程中始终保持"冻结"状态——也就是说，它的知识和能力不会被改变，而是原封不动地保留下来，为整个系统提供知识基础。这种设计背后有一个关键洞察：大语言模型积累的知识太宝贵了，如果为了音频任务反复微调它，很可能把它原有的理解能力"磨掉"。

"工坊"则是一个叫做扩散变换器（Diffusion Transformer，简称DiT）的生成网络，专门负责把各种条件信号转化为最终的音频波形。它共有36个处理层，隐藏维度2048，32个注意力头，参数量约为7.9亿，是整个系统里唯一在训练中被更新权重的部分。

总监和工坊之间的沟通，由一套"双通道信号体系"完成。第一条通道叫"高级语义通道"，负责传递"这段音频应该是什么"的指令性信息——它把大语言模型倒数第二层的隐藏状态（这一层被证明比最后一层更适合做生成任务，因为最后一层已经过于专门化地服务于文字预测了）和文字转录的字符级编码拼接在一起，通过"交叉注意力"机制注入工坊，让工坊在每一步生成过程中都能随时"查阅"指令。第二条通道叫"低级信号通道"，负责传递"这段音频在时间上应该怎么对齐"的具体参考信息——它把参考音频的梅尔频谱特征（一种表示声音频率随时间变化的图像）和视频的同步特征拼接后，直接与带噪声的音频潜在表示"合并"成输入，给工坊提供逐帧级别的精确引导。

选择从大语言模型倒数第二层提取特征，是一个经过消融实验验证的设计决策。研究团队比较了最后一层、倒数第二层、以及两种基于可学习查询机制的变体，发现倒数第二层的原始特征序列效果最好，说明音频生成对信息"纯度"高度敏感——任何信息压缩或筛选都会损害生成质量。

整个模型的训练使用的是一种叫做"整流流"（Rectified Flow）的框架，可以直观理解为：系统学习如何把一团随机噪声沿着一条尽可能笔直的轨迹"推"向目标音频，而不是像早期扩散模型那样走弯弯曲曲的随机路径。这条直路不仅训练更稳定，推理时也更快。

---

四、训练细节：喂给它什么，它就学会什么

研究团队用约4.3万亿字节量级的混合数据训练了DiT工坊，涵盖六大方向。文字转音效方向用了约1400小时的数据，来源包括AudioCaps、WavCaps、AudioSetCaps和AudioTime等数据集。视频转音效方向用了约700小时的VGGSound和AudioSet Strong数据。文字转音乐方向规模最大，约1.7万小时，融合了多个音乐描述数据集。视频转音乐方向约1.6万小时，来自V2M基准数据集。语音方向约6000小时，使用了Audio-FLAN的英语子集。音频编辑方向约3000小时，正是前面介绍的AudioEdit数据集。

训练时有一个针对语音任务的特殊策略：在输入参考语音的梅尔频谱时，随机遮盖20%到75%的内容，逼迫模型从不完整的片段里推断出说话人的整体音色特征，同时用完整的文字转录重建整段语音。这个"遮挡学习"策略是语音克隆和语音编辑能力的关键来源——模型因此学会了"从一小段声音样本推断一个人的全部嗓音特征"。

整个训练过程约进行了8万步，批量大小5120，使用AdamW优化器，学习率5e-5。推理时使用100步ODE数值求解器生成音频潜变量，再由预训练VAE解码为最终波形，无分类器引导系数设为6.0。

---

五、测试结果：数字背后的实力对比

研究团队在多个公开基准测试上评估了Audio-Omni，与专门模型和其他统一模型进行了全面对比。

在音频理解方面，Audio-Omni在MMSU（覆盖47项口语任务）和MMAU（覆盖27项跨领域推理技能）两个基准上的表现，超过了大多数统一型模型，并接近专门的理解模型水准。得分分别为56.83和63.30，与同样基于Qwen2.5-Omni-3B底座的专用理解模型持平——这证明"冻结总监"的策略成功保留了原有的理解能力，没有在训练过程中退化。

在生成任务上，Audio-Omni使用FAD（频谱音频距离，数值越低越好）作为核心评估指标。文字转音效任务上得分1.86，与业界顶级的专门模型AudioX持平；文字转音乐任务上得分1.94，优于包括MusicGen和Stable-Audio-Open在内的多个专门模型；视频转音效任务上得分1.71，优于MMAudio和VATT；视频转音乐任务上得分1.58，优于VidMuse和AudioX；语音合成任务上的词错率达到1.77%，优于F5-TTS（1.83%）、MaskGCT（2.62%）和CosyVoice3（2.46%）等专门的语音合成系统。换句话说，这个统一系统在语音合成这一单项上，竟然比很多专门为此设计的模型更好，这一点是研究团队也感到振奋的结果。

在音频编辑任务上，Audio-Omni在平均FAD（3.27）和平均对数谱距离LSD（2.27，越低越好）上都优于ZETA、SDEdit和MMEDIT三个对比系统，CLAP语义相关性得分（0.32，越高越好）也排第一。从分项来看，四个任务（添加、删除、提取、风格迁移）中，Audio-Omni在删除和风格迁移上表现最为突出，添加和提取任务也有竞争力。

研究团队还专门邀请了20位音频专业人员做主观评测，对"整体质量"和"与条件的相关性"两个维度打分（满分100分）。Audio-Omni在文字转音乐（82.7/81.6）、视频转音乐（80.3/81.0）和音频编辑（79.8/81.5）三个方向上得分最高，在文字转音效方向与AudioX非常接近，仅在视频转音效方向略低于MMAudio，整体表现相当均衡。

---

六、"意外"能力：没教过，但它学会了

这部分或许是整篇论文最有意思的发现。研究团队在实验过程中发现，Audio-Omni因为"总监"的知识被完整保留，自然继承了一些从未被明确训练过的能力。

第一项是"知识增强生成"。当你告诉系统"生成一段吉米·亨德里克斯演奏的乐器在欢乐氛围下的音乐"时，系统需要先知道吉米·亨德里克斯是谁、他演奏什么乐器（电吉他），才能生成对应的音频。这是纯粹的世界知识推理，普通的文字转音频模型无法完成，但Audio-Omni因为"总监"具备这种知识，自然做到了。

第二项是"上下文学习生成"。提供一段钢琴录音作为参考，再用文字描述"用同样的乐器演奏一段紧张感递进的和弦进行"，系统能够从那段录音里提取钢琴的音色特征，并把它应用到全新合成的音乐片段上。这种能力类似于大语言模型的"少样本学习"——看一个例子就知道格式，再举一反三。

第三项是"零样本跨语言控制"。系统的训练数据几乎全是英文的，但在测试中，用中文、西班牙语、德语、法语、日语等多种语言给出指令，系统都能生成质量相近的音频。以中文指令的表现最佳（FAD 2.26，接近英文的1.86），其他语言也保持在合理范围内。这个能力完全来自"总监"对多语言的理解能力，无需任何额外训练。

第四项是"零样本语音克隆与编辑"。由于训练时采用了遮挡策略，系统学会了从一小段语音样本中提取音色，并在新的内容上重现这种音色；同时也能接受指令"把这段话中的'好'改成'差'"之类的局部编辑，精确修改内容的同时保持其余部分不变。

这些能力都没有被显式训练，却自然地从架构设计中"浮现"出来，这正是"解耦架构"策略的核心价值：用一个拥有丰富知识的冻结大模型作为基础，生成模块不仅获得了基本的指令理解能力，还顺便继承了大模型积累的所有"额外技能"。

---

七、实验验证：怎么知道设计是对的

研究团队还做了一系列消融实验，逐一验证每个设计选择的必要性。

在数据组合实验中，对比了"仅用真实数据"、"仅用合成数据"、"两者混合"三种方案。结果显示混合方案在所有指标上均最优，而仅用合成数据的方案在LSD（对数谱距离）上远高于其他方案（5.17对比约1.8），说明单靠程序化生成的数据，模型根本学不好对真实音频的处理方式。这一发现从侧面证明了构建真实数据分支的必要性。

在条件注入方式实验中，比较了四种不同的特征分配方案：把所有特征都只用交叉注意力注入、把所有特征都只用拼接注入、以及各种分拆方式。结果非常一致地指向同一个最优方案：高级特征（语言模型特征和文字转录特征）用交叉注意力，低级特征（同步特征和梅尔频谱特征）用拼接。这个设计背后的逻辑是：交叉注意力适合传递全局的、抽象的指令，让模型在生成每一帧时都能自由"查询"整体语义；而拼接则适合传递逐帧对齐的具体信号，强制模型在对应时刻对应上正确的内容。

在底座模型对比实验中，研究团队对比了用大语言模型特征、T5文本编码器、CLAP音频编码器三种方案做文字转音效，以及用大语言模型特征、CLIP视觉编码器、VideoMAE视频编码器三种方案做视频转音效。大语言模型在两项任务中均胜出，说明多模态统一编码器带来的跨模态理解能力，是单一模态专门编码器无法替代的。

---

归根结底，Audio-Omni做的事情，是把一个原本需要七八个专门工具才能完成的工作流，压缩进了一个端到端的系统。这不仅仅是工程上的整合，更是一种架构哲学的验证：把"理解"和"创作"两种能力分开培养，再通过精心设计的接口连接起来，创作模块可以在不破坏理解能力的前提下，免费获得理解模块积累的所有知识。

对普通用户而言，这意味着一个未来的可能：你把一段嘈杂的户外录音发给AI，告诉它"把风声去掉，把背景音乐换成爵士风格，再把朋友的声音克隆到标准普通话"，而这一切可以在一个对话里完成，无需在多个工具之间来回切换。当然，从论文里的研究成果到真正好用的产品还有距离，但方向已经清晰——统一才是正途。

有一个值得继续关注的问题：当一个系统能够修改声音、克隆声音，如何防止它被用来制造虚假录音或冒充他人？研究团队在论文末尾也明确提出了这一伦理风险，并承诺在发布时要求用户遵守使用条款，建议社区同步推进音频水印和检测技术。这个问题没有简单答案，但提出来本身就是负责任研究的一部分。

完整的论文和代码、数据集将在香港科技大学和腾讯团队的联合主页上发布，有兴趣深入了解技术细节的读者，可通过论文编号arXiv:2604.10708查阅原文。

---

Q&A

Q1：Audio-Omni和之前的音频AI模型最大的区别是什么？

A：之前的音频AI通常是专才，一个模型只能做语音合成，另一个只能做音效生成，再另一个才能做音乐创作，彼此不互通。Audio-Omni是第一个把"听懂声音""生成声音""编辑声音"三件事合并在一个系统里完成的框架，而且覆盖通用音效、音乐和语音三大领域，不需要在不同工具之间切换。

Q2：AudioEdit数据集是怎么造出来的，为什么要自己造？

A：因为市面上几乎没有"按指令编辑音频"的大规模数据集，是制约这个方向发展的根本瓶颈。研究团队用两种方式造数据：一是从VGGSound真实录音里用AI分离声源，经严格筛选得到约5万条真实编辑对；二是用程序自动混合音效生成大量标注精准的合成数据。两者合并，最终得到超过110万条样本，覆盖添加、删除、提取、风格迁移四种任务。

Q3：Audio-Omni为什么能理解中文指令但生成出正确的英文音频？

A：因为系统里负责"理解指令"的那部分（Qwen2.5-Omni-3B大语言模型）本身就是多语言模型，能理解中文、西班牙语、日语等多种语言。这个模型在训练中被完整保留、不做改动，它的多语言理解能力就自然传递给了整个系统。Audio-Omni的训练数据虽然几乎全是英文，但"理解"是多语言的，"生成"只需对应到正确的音频特征，语言之间的鸿沟就这样被架桥了。

多模态学习扩散模型音频编辑数据集

分享至