微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 BinauralFlow:元(Meta)团队开发的超高质量空间音频技术,让虚拟声音像真实世界一样环绕你的耳朵

BinauralFlow:元(Meta)团队开发的超高质量空间音频技术,让虚拟声音像真实世界一样环绕你的耳朵

2025-07-07 17:36
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-07 17:36 科技行者

这项由罗切斯特大学的Susan Liang与Meta公司Codec Avatars实验室的Dejan Markovic、Israel D. Gebru、Steven Krenn、Todd Keebler、Jacob Sandakly、Frank Yu、Samuel Hassel、Chenliang Xu和Alexander Richard共同完成的研究,发表于2025年5月的第42届国际机器学习大会(ICML 2025)。有兴趣深入了解的读者可通过文中项目页面https://liangsusan-git.github.io/project/binauralflow/访问更多演示视频。

一、声音也能"身临其境"?认识双耳空间音频

想象这样一个场景:你戴着耳机,闭上眼睛。突然,你听到有人在你左边说话,声音从远到近;接着,脚步声从你背后绕到右边,仿佛真有人在你周围移动。这种能让声音在三维空间中精确定位的技术,就是我们今天要讲的"双耳空间音频"(也称为"双耳声音"或"3D音频")。

与普通的单声道音频(只有内容,没有空间感)不同,双耳空间音频通过两个音频通道(对应你的左右耳),创造出声音来自不同方向和距离的感觉。这种技术对提升沉浸感和用户体验至关重要,被广泛应用于电影、游戏,以及虚拟现实(VR)、增强现实(AR)和混合现实(MR)等快速发展的领域。

虽然研究人员在这个领域已经做了大量工作,但现有的双耳音频合成方法仍面临两大挑战:一是渲染质量不够高,无法达到与真实录音无法区分的程度;二是无法实现因果性和流式推理,也就是说,无法实时连续地生成高质量的空间音频。

Meta和罗切斯特大学的研究团队提出了一种名为"BinauralFlow"的全新解决方案,这是一种基于流匹配模型(Flow Matching Models)的双耳语音合成框架,不仅能生成高质量的双耳音频,还支持流式推理,让音频合成过程能够实时连续进行。

二、传统方法难以逾越的障碍

为什么生成真正逼真的双耳音频如此之难?要回答这个问题,我们需要理解声音在现实世界中的传播特性。

想象你站在一个房间里,有人在说话。这个声音到达你耳朵的过程中会发生很多事情:声源与听者之间的距离会影响声音的整体音量(越远音量越小);它们的相对方向会影响你感知到的声音方向(例如,时间差和音量差);声音会在房间内的墙壁、地板、天花板和物体上反射,产生回声和混响;房间内还会有各种背景噪音,如空调声、电子设备的嗡鸣等。

现有的方法大致可分为两类:数字音频渲染和神经音频渲染。

数字音频渲染方法使用数字信号处理技术,通过一系列线性时不变系统来估计双耳音频,包括房间冲激响应、头部相关传递函数和叠加环境噪声。但由于简化的几何模拟、非个性化的头部相关传递函数和假设的静态噪声,真实录音和生成声音之间存在明显的质量差距。

神经音频渲染方法则利用深度神经网络的强大拟合能力。比如,Gao和Grauman开发了一种视觉引导的双耳化网络,根据视频帧生成双耳音频;Richard等人设计了一个神经变形网络,根据时间延迟和听者位置来变形单声道音频。虽然这些方法能够产生合理的语音结果,但它们的回归机制限制了生成能力,无法生成输入数据中缺失的精确房间声学和环境噪声。

此外,大多数先进的神经渲染方法不支持连续合成,这是因为它们使用非因果模型架构和低效的多步推理程序。

三、BinauralFlow:重新思考音频生成

为了解决上述问题,研究团队提出了BinauralFlow,这是一个流匹配的流式双耳语音生成框架。这个方法的核心是将双耳渲染问题视为一个生成任务,而不是传统的回归任务。

### 1. 条件流匹配模型:双耳音频的魔法烹饪

传统方法尝试用回归方式预测混响效果和背景噪声是很困难的,因为这些特征在输入音频信号中不存在,而且它们表现出随机行为。BinauralFlow将这个问题重新定义为一个生成任务。

想象流匹配模型就像一位厨师,开始时有一堆原料(噪声),通过精确控制的烹饪过程(去噪过程),最终做出一道美味佳肴(双耳音频)。这个"烹饪"过程需要遵循一个"食谱"(向量场),告诉厨师每一步如何处理食材。

具体来说,研究团队设计了一个条件流匹配模型,通过增强感知真实性来渲染逼真的声学效果和动态环境噪声。为了增强渲染的双耳语音与精确的双耳提示,他们将模型条件设置为声源和接收者的姿态,以指导语音渲染。

在技术层面,这个过程首先将单声道音频和双耳音频从时间域转换到时频域,使用短时傅里叶变换(STFT)。然后,模型采样一个随机噪声,中心在单声道输入周围。流匹配模型的目标是设计一个流,将源数据(噪声)移动到目标数据(双耳音频)。

研究团队使用了最优传输公式来定义流函数,它在时间步t是源和目标之间的线性插值。当t=0时,分布围绕单声道音频;当t逐渐增加,分布的均值线性地从单声道移向双耳音频,同时标准差减小。t=1时,分布收缩到双耳音频。

通过这种方式,定义的流将围绕输入音频中心的样本移动到双耳音频,方差逐渐减小。研究团队设计了一个深度神经网络来匹配向量场,使用条件流匹配L1损失函数,同时将模型预测条件设置为说话者和听者的姿态,以精确建模双耳线索。

### 2. 因果U-Net架构:时间只向前流动

现有的流匹配模型通常无法支持连续推理,这是因为非因果模型架构和多步推理要求。流行的生成框架通常使用由卷积和注意力块组成的非因果U-Net作为骨干网络。非因果卷积核和全局感知的注意力计算机制在渲染过程中破坏了时间因果性。

为了解决这个问题,研究团队引入了一种因果U-Net架构,通过精心设计因果2D卷积块,使下一个音频块的预测仅依赖于过去的块。

想象这就像是一本书的连载,作者只能根据已经写下的章节来创作新章节,而不能基于还未写出的未来情节。同样,因果U-Net架构确保音频生成过程只依赖于已经处理过的历史信息。

具体来说,研究团队设计了一个因果U-Net,它有一个收缩部分和一个扩展部分,中间有跳跃连接。每个部分由几个因果2D CNN块组成。每个块包含规范化和激活层、因果卷积层和可选的因果下采样/上采样层。

在规范化和激活层中,他们使用组归一化来稳定训练,但将计算限制在每个单独帧上,而不是所有帧,以确保因果性。他们使用Sigmoid线性单元作为激活函数。因果卷积层是具有1的步长和2的单侧填充的3x3卷积层。单侧填充将卷积核的感受野限制在历史信息中。

由于U-Net需要在每个块中减少或增加特征维度,他们设计了一个因果下采样/上采样层。因果下采样层包含一个步长为2的4x4卷积函数,它将特征维度减半。因果上采样层包含一个4x4转置卷积函数,它使特征维度加倍。

### 3. 连续推理管道:无缝流式音频的秘密

仅有因果骨干网络还不足以进行流式推理,因为生成模型需要的多步生成过程。生成性扩散和流匹配模型依赖于一个迭代去噪过程,需要几个步骤来完成生成过程。

为了实现连续生成,需要确保所有推理步骤的时间因果性。为此,研究团队构建了一个连续推理管道,包括流式STFT/ISTFT操作、缓冲区库、中点求解器和早期跳过计划。

这就像是一条高效的装配线,原材料(单声道音频块)进入后,经过一系列精确协调的工作站处理,最终连续不断地输出成品(双耳音频)。即使新的原材料不断到达,整个过程也能无缝运行,不会出现中断或不连续。

具体来说,流式STFT/ISTFT通过添加缓冲区和调整填充方式来适应流式处理。在因果U-Net中,他们为每个因果卷积层引入缓冲区,存储当前音频块的隐藏特征。这些缓冲区用于填充下一个音频块。

由于去噪过程涉及多个推理步骤,在所有步骤中重用同一缓冲区会覆盖历史信息。为解决这个问题,他们构建了一个基于字典的缓冲区库,存储所有时间步骤t的网络缓冲区。

对于求解常微分方程,他们选择中点求解器,因为它能有效减少函数评估次数,同时保持性能。此外,为进一步减少函数评估次数,他们提出了一个早期跳过计划。

标准时间计划将0到1的区间分成相等的段,并从0到1顺序移动。他们设计了两个新计划:跳过前半段的早期跳过计划和避免后半段的晚期跳过计划。他们发现使用早期跳过计划不会影响渲染质量,而晚期跳过会降低性能,背景噪声建模更差。他们推测流匹配可能能够在推理的后半部分纠正前半部分的错误,所以即使进行早期跳过,也不会明显影响性能。因此,他们使用早期跳过策略将推理步骤减少到6步。相比之下,SGMSE模型需要30步才能生成可比结果。

四、实验验证:BinauralFlow的惊人表现

为了评估BinauralFlow的效果,研究团队收集了一个新的高质量双耳数据集。他们在没有显著隔音或吸音材料的标准房间中录制了10小时的配对单声道和双耳数据,以及说话者和听者的头部姿势。为了匹配真实世界场景,他们收集了来自多个空调通风口和电子设备的背景噪声。此外,他们没有使用双耳人体模型和扬声器,而是让真实参与者担任说话者和听者。在录制过程中,说话者可以在房间内自由移动,听者可以坐在椅子上自由转动头部。

他们将数据集分为训练/验证/测试子集,分别为8.47/0.86/1.33小时。测试子集包含两名在训练期间未见过的额外说话者,一男一女。

研究团队将他们的方法与数字音频渲染和更先进的神经音频渲染方法进行了比较。他们选择SoundSpaces 2.0作为DSP基线,使用2.5D Visual Sound、WaveNet和WarpNet作为基于回归的基线,并使用BinauralGrad和SGMSE作为生成性基线。BinauralGrad是双耳语音合成任务的最先进方法,是一个两阶段扩散模型。

量化评估结果显示,BinauralFlow在所有指标上都大幅超过现有基线。与先前的最佳模型相比,BinauralFlow在波形L2误差上降低了35.5%,在幅度L2误差上降低了6.6%。此外,BinauralFlow的推理速度比其他生成模型快得多,达到了更有利的性能和推理速度之间的平衡。

质量比较也直观地展示了BinauralFlow的优势。SoundSpaces方法估计了传输单声道音频和接收双耳音频之间的不准确时间延迟。BinauralGrad和SGMSE预测了准确的时间延迟,但它们的振幅不匹配。相比之下,BinauralFlow模型正确预测了时间延迟和音频振幅。

最重要的是,研究团队进行了一项全面的感知评估,以评估渲染输出的质量和真实性。他们招募了23名参与者,请他们完成ABX测试、A-B测试和MUSHRA评估。ABX测试测量生成声音和录制声音(基准真实)之间是否有可感知的差异。A-B测试测量用户是否能可靠地识别生成声音与真实声音。MUSHRA评估让受试者根据环境(环境噪声和混响)和空间化(声源位置)的相似性对参考(基准真实)和生成样本进行评分。

感知评估结果显示,BinauralFlow在所有任务中都明显优于其他方法。特别是在A-B测试中,他们实现了42%的混淆率(上限是50%),表明用户几乎无法区分他们生成的声音和录制的样本。这一结果证明了BinauralFlow在渲染真实性方面的卓越表现。

五、深入分析与未来方向

研究团队还分析了不同设计选择对他们的双耳语音合成框架的影响。

首先,他们比较了提出的流匹配模型和简化流匹配框架的性能。他们的方法在L2、Mag和Phase误差上都取得了更好的结果,证明了其条件流匹配方法的有效性。

其次,他们比较了连续推理管道和非流式推理管道,并展示了生成的谱图。给定一系列音频块,非流式管道单独双耳化每个块,导致相邻块之间出现明显的伪影。相比之下,他们的管道合成无缝平滑的谱图。

他们还计算了不同函数评估数量下模型的实时因子。当NFE设置为6时,实时因子为0.239。如果牺牲一些性能以实现更快的推理,将NFE设置为1会导致RTF为0.04。这表明他们的模型有实时流式生成的潜力。

最后,由于在真实世界场景中录制10小时数据的成本高昂且费力,研究团队开发了一种大规模预训练策略。他们使用扬声器和人工双耳头代替真实个体,收集了一个包含超过7,700小时双耳音频数据的大规模数据集,涵盖了来自英语多说话者VCTK语料库的97个说话者身份。实验结果表明,这种预训练策略显著提高了性能,预训练模型的零样本性能与仅使用1%或5%真实数据从头开始训练的模型相当或超过它。这证明了他们模型的强大泛化能力及其在各种应用中的潜力。

六、总结:声音也能有"3D效果"

归根结底,BinauralFlow代表了双耳音频合成领域的一个重大突破。通过将双耳渲染问题重新定义为一个生成任务,而不是传统的回归任务,研究团队创造了一个能够产生高度逼真空间音频的系统,这些音频几乎无法与真实世界录音区分开来。

更重要的是,通过精心设计的因果U-Net架构和连续推理管道,BinauralFlow实现了流式推理能力,使其非常适合需要实时音频生成的应用,如实时语音合成、交互式游戏或增强现实系统。

这项技术的潜在应用非常广泛:从创造更身临其境的虚拟现实体验,到改善视频会议中的音频质量,再到为听力受损者开发更好的辅助设备。想象一下,未来的AR眼镜可能能够实时将周围环境的声音转换为高度个性化的空间音频,大大提升用户体验。

如果你对这项技术感兴趣,可以访问研究团队的项目页面(https://liangsusan-git.github.io/project/binauralflow/)查看演示视频,亲身体验BinauralFlow的神奇效果。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-