这项由Meta AI与美国东北大学联合完成的研究,于2026年5月以预印本形式公开发布,论文编号为arXiv:2605.18749,有兴趣深入了解技术细节的读者可通过该编号查阅完整原文。
当你看一段没有声音的视频时,你的大脑会自动"补脑"出那些声音——马蹄踩在地上的嗒嗒声、拳头击打沙袋的闷响、小企鹅迈步时的嘎吱声。现在,人工智能也在尝试做同样的事情:给无声视频自动配上贴切的音效。这个任务在业界被称为"Foley风格生成"(灵感来自好莱坞的音效师艺术),而最近Meta AI团队提出的WavFlow框架,走了一条与众不同的路。
绝大多数同类系统在生成声音之前,都会先把音频"翻译"成一种压缩过的中间语言,就像把一首乐谱先缩写成摘要,再让另一个人根据摘要来演奏——这个过程不可避免地会丢掉一些原始细节。WavFlow则直接从乐谱本身出发,绕过了这个摘要环节,在原始音频波形空间中直接生成声音。研究团队为此发展出一套精妙的解决方案,在视频转音频和文字转音频两个主流测试集上都达到了与顶尖同类方法相当甚至更优的表现。
一、为什么"直接生成"这么难
要理解WavFlow的价值,首先得明白"直接在波形空间生成音频"到底难在哪里。音频波形就像一条密密麻麻的折线图,每秒钟在16000个点上记录着空气压强的变化。对于一段8秒的音频,这就意味着模型需要同时处理12.8万个数据点,这比处理一张普通图片的数据量要大得多,计算上非常吃力。
更麻烦的是,这12.8万个数据点的绝大多数都挤在零附近。现实中的音频信号能量往往极低,平均振幅(一种衡量音量的指标,简称RMS)通常低于0.2。换句话说,这条折线图几乎是一条贴近零轴的细线,而AI训练时使用的噪声信号则是一团宽广的随机涨落。当信号极其微弱而噪声相对强大时,模型很难区分"哪些是真正的音频信息,哪些只是随机噪声",训练过程就变得不稳定。
前人在图像领域尝试"直接在原始像素空间生成图片"时也遇到过类似问题。麻省理工学院的研究者发现,干净的图像其实只占据了高维空间中的一个很小的区域(专业上称为"低维流形"),而噪声或速度场却铺满整个高维空间。这个观察启发了WavFlow:既然如此,不如让模型直接预测"干净的信号本身",而不是预测"从噪声到信号的变化速度",这样任务难度会大幅下降。
此外,数据稀缺也是一大障碍。哪怕是业界最常用的VGGSound数据集,也只有约20万条视频-音频配对样本,大约500小时,规模远远不够支撑一个从零开始学习原始波形的模型。
二、把声波折叠成一块"积木"
面对高维度的挑战,WavFlow团队想出了一个优雅的变通方法——把一维的长波形折叠成二维的方块,他们称之为"波形分块"(Waveform Patchify)。
具体操作是这样的:把一段8秒、16000赫兹的音频(共128000个采样点)切成一块一块的小片段,每片包含200个采样点,然后把这640块小片段排列成一个640行的表格,每行就是一个"音频词元",类似于ViT图像模型中把图片切成小方块的做法。这样一来,模型处理的不再是一条长达12.8万个节点的细线,而是一个整齐的640×200方格,结构上更易于Transformer架构处理。
每块片段覆盖12.5毫秒的时间,这个粒度比人类听觉能感知到的最小时间差(约25毫秒)还要精细,足以捕捉细腻的声学瞬态。这个过程完全不需要任何参数,也不需要额外训练,只是一种重新排列数据的方式,生成结束后再把方格"还原"成波形即可,同样无损且不需要任何解码器。
至于每块应该包含多少个采样点,研究团队做了详细的对比实验。当每块过大(512个点,32毫秒)时,模型捕捉声学细节的能力明显下降;当缩减到200个点(12.5毫秒)时,性能趋于稳定,继续缩小到160个点带来的额外收益已经可以忽略不计。有趣的是,数据量增大能在一定程度上弥补分块较粗带来的信息损失,但当分块粗到512个点时,即便增加数据量也难以突破性能瓶颈。最终,640×200成为研究团队选定的默认配置。
三、给微弱的声音"穿上放大镜"
解决了维度问题,还有能量问题。前面提到,原始音频信号极其微弱,容易被训练时的随机噪声"淹没"。WavFlow的解决方案被团队命名为"振幅提升"(Amplitude Lifting),原理简单直接。
首先,计算每段音频的实际平均振幅(RMS值),然后把这段音频的振幅归一化到一个目标值(0.33),确保不同音频的能量处于同一起跑线;接下来,再把整个信号乘以3倍,把振幅范围从0~1左右扩展到-3~3左右;最后,对超出范围的极端值进行截断(clamp)以防止溢出。这样处理后,音频信号的能量分布和训练时所用的标准高斯噪声(N(0,1))更加接近,模型能更清晰地"看见"信号,训练过程也随之稳定下来。
消融实验(即通过拆掉某个组件来验证其作用的对比实验)有力地证明了这一点:在1倍缩放时,不做RMS归一化会让分布相似度指标(FDPaSST)从65.83急剧劣化至81.26,同步误差(DeSync)也从0.49上升到0.57;而在3倍缩放时,两种操作的组合表现最佳,缺少任意一项都会带来可观的性能损失。推理结束后,模型输出的波形会被缩小回原来的比例,并按照广播标准(-23 LUFS)调整响度,确保播放效果舒适自然。
四、用"流动匹配"把噪声变成声音
知道了如何表示波形,下一个问题是:模型是如何从一团随机噪声出发,一步步"流动"到一段有意义的音频的?
WavFlow使用的是一种名为"条件流匹配"(Conditional Flow Matching)的生成范式。可以把它理解成一场接力赛:起跑点是纯粹的高斯噪声(随机乱响),终点是干净的目标音频(正确的声音)。训练时,在这条从噪声到信号的路径上随机抽取一个中间点,让模型在给定视频和文字条件的情况下预测"这个中间点对应的干净音频是什么样的"——这就是"x预测"(x-prediction),直接预测目标信号本身,而不是预测"应该朝哪个方向走多快"(v预测)。
实验对比表明,x预测在这里比v预测表现更好,这与图像领域的发现一致:因为干净音频本身处于一个结构紧凑的低维空间,直接预测它比预测高维空间中的方向向量要容易得多。在损失函数的选取上,研究团队最终采用了"用x预测搭配v损失"的组合:网络输出的是预测到的干净音频,但损失函数计算的是由此推导出的速度场与真实速度场之间的差异。这个组合在频率多样性和高频细节保真度上取得了最佳平衡。
推理时,模型从噪声出发,用欧拉方法解微分方程,走50步就能生成一段音频;同时还配合"无分类器引导"(Classifier-Free Guidance)技术,通过对"有条件"和"无条件"生成结果做加权差值,来强化生成音频与视频或文字描述的语义对应关系。实验表明,引导强度设为4.5、步数设为50时性能最佳,超过50步后收益趋于零。
五、模型如何同时理解"说什么"和"什么时候说"
WavFlow的神经网络骨架采用了多模态扩散Transformer(MMDiT)架构,这是一种能同时处理音频、视频和文字三路信息的联合注意力机制。整个网络由两段组成:前面的"联合块"负责三路信息的深度融合,后面的"融合块"则专门用于纯音频的精细生成。
为了让模型既能理解"这个场景应该有什么声音",又能精确掌握"哪个瞬间应该发出那个声音",研究团队设计了双层条件系统。
第一层是"全局条件",负责回答"说什么"的问题。模型从冻结的CLIP视觉编码器中提取视频的整体语义特征,从CLIP文字编码器中提取文字描述的语义特征,把两者与时间步嵌入加在一起,形成一个关于"这段视频大致在讲什么声音"的全局语义向量。
第二层是"帧级条件",负责回答"什么时候"的问题。这里用到了一个冻结的专用同步网络Synchformer,它能从视频中提取精细的时间对齐特征——比如"第3秒零200毫秒时马蹄接触地面"这类信息。这些同步特征加上全局条件,形成了一个与音频词元逐帧对应的条件序列,通过AdaLN调制机制注入到Transformer的每一层,确保生成的声音在时间轴上与视频动作精确对齐。
值得一提的是旋转位置编码(RoPE)的处理细节。音频序列有640个词元,而视频序列只有64个帧特征,两者帧率不同。如果直接套用相同的位置编码基频,同一时刻对应的音频词元和视频帧就会被赋予不同的旋转角度,导致模型误以为它们处于不同的时间位置。研究团队的解决方案是:给视频流的RoPE基频乘以音频与视频的帧率比值(640/64=10),确保同一相对时刻在两个模态中获得匹配的旋转相位。
六、5百万条数据从哪来
无论模型设计多精妙,没有足够多的高质量数据,一切都是空谈。研究团队为此专门构建了一套三阶段的自动化数据筛选流水线。
起点是一个庞大的媒体数据库(约5000万条候选片段)、VGGSound数据集,以及AudioCaps、Freesound等开源文字-音频数据集。第一阶段做粗筛:剔除时长不足8秒的片段、超过80%内容为静音的片段、美学质量评分过低(基于Meta自研的audiobox-aesthetics模型,要求PQ≥6.0)的片段,以及分类置信度处于最低10%的片段(基于PANNs音频分类模型判断)。经过这道关卡,5000万条候选片段保留了约5000万条合格媒体片段、10万条合格VGGSound样本和15万条合格开源文字-音频样本。
第二阶段做平衡与增强:把5000万条媒体片段按照VGGSound的类别分布进行平衡采样,最终保留500万条类别均衡的媒体数据;对较小的VGGSound和开源文字-音频数据集,通过从0秒和1秒各截取一段8秒片段的方式进行时间增强,将数量各翻倍至20万和30万。
第三阶段形成最终训练混合集:视频转音频任务用500万条媒体数据加20万条VGGSound(约5.2百万条);文字转音频任务用30万条开源数据加从媒体数据中随机抽取的100万条,形成约130万条的混合集。这种设计确保了两个任务的数据分布尽量一致。
研究团队还发现了一个有趣的"文字风格陷阱":直接把VGGSound(稀疏标签,如"狗吠叫")和开源文字-音频数据(细粒度描述,如"一辆汽车引擎加速后怠速运转")混合训练会导致训练发散——损失值先下降后突然暴增。原因在于两种文字风格在语义空间中相去甚远,没有视觉信息作为桥梁,模型无法建立一致的"文字→音频"映射关系。引入媒体数据后,因为两个数据集都有视觉模态作为语义锚点,即使文字风格不同,训练也能稳定进行。
七、两个模型版本和训练细节
研究团队提供了两个规模版本。中等规模版本(WavFlow-M)包含4个联合块和8个融合块,约6.24亿参数;大规模版本(WavFlow-L)包含7个联合块和14个融合块,约10.3亿参数。两者的隐藏维度均为896,注意力头数均为14。
16千赫兹版本从零开始训练,16千赫兹大模型和中模型分别训练400轮(epoch),视频转音频任务使用约1.07万小时等效数据、全局批量大小10752;文字转音频任务使用约0.7万小时数据、批量大小8192。44.1千赫兹高保真版本则以收敛后的16千赫兹大模型为起点进行微调,学习率降为原来的十分之一,批量大小缩小为1536,训练650轮。所有版本均使用AdamW优化器、BF16混合精度、梯度裁剪阈值1.0,以及0.9999的指数移动平均衰减系数。
模型收敛速度与数据规模密切相关:数据量在100万条以上时,约400轮即可收敛;而仅用20万条VGGSound数据时,需要约650轮才能稳定。
八、实验结果:跟"有中间层"的方法一决高下
研究团队在两个标准测试集上评估了WavFlow的性能,指标涵盖分布相似度(FD,越低越好)、音频多样性(IS,越高越好)、音画同步误差(DeSync,越低越好)和语义对齐(IB、CLAP)等维度。
在视频转音频的主力测试集VGGSound(约1.5万条测试视频)上,中等规模的16千赫兹版本就已经超越了Frieren、V2A-Mapper和HunyuanVideo-Foley等多个已有方法,在多项指标上逼近此前最强的MMAudio-L-44.1kHz。大规模的16千赫兹版本在分布相似度指标FDPaSST上以59.98对60.60超越了MMAudio,同时在同步误差(DeSync:0.44)和音频多样性(ISPANNs:17.40)上与其持平。进一步微调到44.1千赫兹后,FDPaSST进一步降至55.82,成为所有对比方法中的最优,同时保持0.46的良好同步表现。
在文字转音频的测试集AudioCaps(约4800条测试样本)上,仅使用中等规模16千赫兹模型,WavFlow就在FDPANNs(10.63)和ISPANNs(12.62)两项指标上超越了AudioLDM 2、TANGO、TANGO 2、Make-An-Audio 2、GenAU-Large以及MMAudio等全部对比方法,即便这些方法中有些是专门为文字转音频任务设计的专用模型。
研究团队还在Meta自己的MovieGen-Audio-Bench测试集(完全由AI生成的视频构成,难度更高)上进行了额外评估。WavFlow以约1.1万小时训练数据、10.3亿参数,在音频质量(IS:8.95)和同步误差(DeSync:0.77)上超越了MMAudio(IS:8.40,DeSync:0.77),尽管参数量和训练数据规模几乎相同;与MovieGen相比,WavFlow在音频质量上相当(IS:8.89对8.95),但训练数据只用了后者的约1%,同步性能也更优(DeSync:0.77对1.00)。
从频谱图的直观对比来看,WavFlow生成的音频呈现出更清晰、更垂直的能量脉冲,说明其对短暂的声学瞬态(比如马蹄踩地、拳头击沙袋的瞬间冲击)的捕捉能力更强。在一个拳击场景中,当拳手挥空拳(未击中沙袋)时,WavFlow正确地省略了冲击声,而另外两个模型都错误地生成了击打音效——这说明WavFlow对视觉细节的理解更为精准。
九、研究局限与未来展望
WavFlow并非没有短板。目前它主要擅长环境音效和事件声音的生成,对于人类语音和歌声的合成效果还不理想——生成的人声发声不能构成有意义的语言,也缺乏歌声的旋律性。这是因为语音和歌声涉及更精细的语言学结构和发音机制,需要更大规模的专项语音数据集和更细粒度的语言级条件信号才能支撑。研究团队指出,如果未来能引入更大规模的语音语料和细粒度的语言字幕,WavFlow框架在原理上完全可以扩展到同时建模环境音效和人类语音,成为更完整的通用音频生成系统。
此外,研究还发现噪声等级偏移(Noise-Level Shift)这一在图像生成中有效的技巧,在音频波形空间中非但无益反而有害。把噪声等级偏移系数从1.0提高到3.0,FDPaSST从63.05劣化到73.17;提高到5.0时更恶化至92.21。研究团队将此归因于音频波形的天然低能量密度:图像像素有着宽广的动态范围,适当提升噪声有助于模型学习全局结构;而音频波形即便经过振幅提升处理后,信息密度依然相对有限,进一步增加噪声只会让原本就不强的信号更加难以恢复。
说到底,WavFlow想证明的事情其实很朴素:AI生成音频,不一定非要经过那个"先压缩再解压"的中间环节。就像你可以直接手工画一幅画,而不是先把它转换成某种抽象的数学代码、再让另一台机器把代码还原成画。去掉这个中间层,不仅简化了整个系统的复杂度,也消除了因压缩而丢失高频细节和相位信息的隐患,让生成的声音在细节层面有机会更忠实于真实世界的物理声学。
这对普通用户而言意味着什么?短期内,视频博主、游戏开发者和影视制作者可能会最先感受到这类技术带来的变化——更快、更便宜、更精准的自动配音工具将逐渐普及。从更长远的视角来看,一个真正能理解视觉-语义-时间三重对齐关系的音频生成系统,将是构建更真实的虚拟世界、更智能的交互界面的重要基础组件。
有兴趣探索更多技术细节的读者,可以通过arXiv编号2605.18749查阅完整论文,或访问研究团队在GitHub上公开的代码仓库。
Q&A
Q1:WavFlow和MMAudio这类主流音频生成模型有什么本质区别?
A:主流音频生成模型(包括MMAudio)都会先把原始音频压缩成一种抽象的中间表示(通过VAE或神经音频编解码器),再在这个压缩空间里做生成,最后解码回波形。WavFlow直接在原始波形空间操作,完全跳过了编码和解码这两个环节,没有因压缩带来的信息损失,系统结构也更简洁。
Q2:WavFlow生成一段8秒音频需要多少计算步骤?
A:推理时,WavFlow用欧拉方法求解常微分方程,默认走50步即可生成一段8秒音频,超过50步后性能不再提升。使用的引导强度(CFG)为4.5,过高或过低都会降低生成质量。
Q3:波形分块中每块200个采样点这个数字是怎么确定的?
A:研究团队对160、200、256、512个采样点做了系统对比实验,发现在300万条训练数据规模下,从512缩减到200时性能有显著提升,但从200继续缩减到160只有极微小的改善,说明200是计算效率与生成质量的最优平衡点,因此选定为默认配置。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。