微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

数据清洗与扩充让开源语音模型更强大：卡内基梅隆大学团队打造的OWSM v4如何超越工业级模型

人工智能语音识别开源模型

数据清洗与扩充让开源语音模型更强大：卡内基梅隆大学团队打造的OWSM v4如何超越工业级模型

作者：科技行者

2025-07-07 17:37

分享至：

卡内基梅隆大学与本田研究所日本分部的研究团队通过数据扩充和清洗技术，打造了新一代开源语音模型OWSM v4。研究者们开发了一套三步数据清洗流程，从原始YODAS数据集中提取出166,000小时高质量语音数据，涵盖75种语言。基于此数据训练的OWSM v4模型系列在多语言语音识别、语言识别和翻译任务上大幅超越先前版本，甚至在多个场景中与工业级模型Whisper和MMS比肩。该研究证明，即使在学术资源有限的条件下，开源模型通过有效的数据清洗也能实现卓越性能。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-07 17:37 • 科技行者

在当今人工智能快速发展的时代，语音识别技术已成为我们日常生活中不可或缺的一部分。无论是语音助手、语音输入还是翻译应用，它们背后都依赖于强大的语音模型。然而，业界领先的语音模型大多来自资源丰富的商业公司，如OpenAI的Whisper模型，它们虽然性能卓越，但往往不公开其训练数据、代码和训练日志，这引发了有关隐私、透明度和可重复性的担忧。

这项由卡内基梅隆大学的彭亦凡、William Chen、田金川、林启俊和渡边慎二，以及本田研究所日本分部的Muhammad Shakeel和Yui Sudo共同完成的研究，于2024年5月发表在arXiv上。他们的研究成果"OWSM v4: 通过数据扩充和清洗改进开放Whisper风格语音模型"为我们带来了一个好消息：学术团队也能打造媲美商业巨头的开源语音模型！

想象一下，你打算做一道美味的蛋糕。你需要什么？当然是优质的原料和正确的配方。在语音模型的世界里，数据就是原料，而训练方法则是配方。卡内基梅隆大学的研究团队正是通过改良"原料"——大规模清洗和扩充训练数据，成功打造了一系列名为OWSM v4的开源语音模型，这些模型在多项测试中不仅超越了之前的开源版本，甚至在某些方面超越了由资源丰富的商业公司开发的顶尖模型，如OpenAI的Whisper和Meta的MMS。

这就像一位家庭厨师用精心挑选的食材，做出了媲美米其林餐厅的美食——这在语音识别的世界里是一项了不起的成就！让我们一起深入了解这个研究团队是如何实现这一壮举的。

一、研究背景：为什么我们需要更好的开源语音模型？

在语音技术的世界里，有一些巨无霸级的模型，比如OpenAI的Whisper，它能听懂多种语言的语音并将其转换为文字，甚至可以翻译成英语。这类模型通常被称为语音基础模型（Speech Foundation Models，简称SFMs）。这些模型之所以表现出色，是因为它们"吃"了海量的训练数据——Whisper模型就"消化"了680,000到500万小时的语音数据！

然而，Whisper模型有一个不小的问题：尽管它的模型权重是公开的，但它的训练数据、训练代码和训练日志并不对外开放。这就像一个大厨给你展示了一道美味佳肴，却不告诉你具体的食谱和烹饪过程。这引发了科研界对隐私保护、研究透明度和可重复性的担忧。

为了解决这个问题，卡内基梅隆大学的研究者们开发了一系列完全开源的Whisper风格语音模型（Open Whisper-style Speech Models，简称OWSM）。这些模型使用公开可获取的数据和开源工具包ESPnet进行训练。尽管早期的OWSM v1、v2和v3版本建立了可重复的Whisper风格训练流程，但它们的性能仍然有限，这主要是因为训练数据不足。

最近的研究着眼于两个方面来提升语音基础模型的效果和效率。第一个方向是改进模型架构，例如Conformer、Branchformer和Zipformer等新型架构比传统的Transformer表现更好。OWSM v3.1采用了E-Branchformer架构，相比OWSM v3有了显著提升。OWSM-CTC则提出了一种基于层次化自条件连接时序分类（CTC）的新型非自回归架构，将语音识别、语音翻译和语言识别统一在一个仅有编码器的模型中，相比基于注意力的编码器-解码器（AED）模型，OWSM-CTC提高了推理速度并减少了幻觉生成。

第二个方向是改进训练数据。无监督数据选择和数据清洗技术被广泛用于创建高质量的语音识别数据集。受此启发，田金川等人基于语音识别错误率筛选OWSM v3.1的训练数据，并使用大型语言模型恢复标点和大小写。与OWSM v3.1相比，由此产生的OWSM v3.2模型在语音识别性能相当的情况下，在语音翻译方面略有提升，尽管训练数据减少了15%。然而，这种数据过滤方法仅针对原始的v3.1数据，这些数据质量本身就不错，并没有包括来自其他公开来源的新数据，因此数据过滤带来的性能提升是有限的，且并不稳定。

受到数据规模扩大能提升多语言语音识别系统性能的启发，研究团队提出通过整合来自YODAS的高质量数据来增强OWSM。YODAS是一个大规模的网络爬取数据集，具有创作共享许可证。与其他流行的数据集如MSR-86K、LibriHeavy、GigaSpeech和MOSEL相比，YODAS有几个显著特点：(1) YODAS以创作共享许可证公开发布音频文件，而不仅仅是原始来源的链接，简化了数据下载并提供了静态源供再分发；(2) YODAS建立了一个可扩展的流程来爬取网络数据，目前版本已包含149种语言的37万小时音频，未来版本可以进一步扩大；(3) YODAS涵盖多样的讲话风格和声学环境，还发布了未分割的长音频录音，这些都适合Whisper风格的训练。

然而，简单地添加更多数据而不进行仔细清理可能会因为原始数据中的噪声注释而降低性能。因此，数据清洗对于确保高质量至关重要。

二、数据清洗的魔法：如何从杂乱无章的数据中提炼出珍珠？

想象你继承了一箱旧书，里面混杂着各种语言、内容错乱的书籍，有些甚至扉页和内容不符。如果你想建立一个有价值的图书收藏，首先需要做的是什么？当然是整理和筛选！这正是研究团队面对YODAS数据集时所做的工作。

原始的YODAS数据集尚未经过严格的清洗过程，可能包含各种注释错误。常见问题包括语言标签错误和音频与文本的不匹配。因此，数据清洗对于确保准确性和可靠性至关重要。研究团队设计的数据清洗流程包括三个步骤：重新分割、基于语言识别的过滤和基于CTC得分的过滤。

首先，在重新分割阶段，研究人员面对的是YODAS提供的未分割的长格式录音，每条录音都附有带有开始和结束时间戳的文本转录列表。但这些时间戳往往不准确。因此，第一步是使用CTC分割算法重新对齐音频和文本。研究团队使用公开可用的OWSM-CTC v3.2模型进行这项工作，该模型支持YODAS中存在的一部分语言。重新对齐后，长格式音频被分割成较短的片段，每个片段最长30秒。仅包含非语音元素（如音乐）的片段被移除。经过处理后的数据集包含83种语言的34.5万小时音频。此外，CTC分割后，每个短片段都被分配了一个置信度分数，该分数量化了音频和相应文本之间的对齐质量。这个置信度分数随后被用于过滤低质量数据。

其次，在基于语言识别的过滤阶段，研究人员观察到某些片段的语言标签是不正确的。为解决这个问题，他们对音频和文本都进行了语言识别。具体来说，基于文本的语言识别模型来自fastText，而基于语音的语言识别模型则基于SpeechBrain开发的ECAPA-TDNN。他们只保留了那些原始语言标签与文本预测语言和音频预测语言都匹配的片段。应用这一过滤步骤后，得到了包含75种语言的28.4万小时音频的数据集。

最后，在基于CTC得分的过滤阶段，研究人员移除了具有低质量音频-文本对齐的片段，这些片段由之前步骤计算的CTC分数指示。CTC置信度分数是与语言相关的，因此他们在每种语言内对短片段的分数进行排序，并选择一个相对阈值（分位数）θCTC。对于每个长格式片段，如果其任何构成的短片段落在最低的θCTC分位数内，则整个片段将被丢弃。

不同的阈值会导致保留不同数量的数据。为确定合适的阈值，研究团队在不同阈值过滤的清洗YODAS数据上微调了一个预训练的小型OWSM v3.1（3.67亿参数）模型，然后在Common Voice和一个网络演讲语料库上评估它们的短格式和长格式语音识别性能。

当θCTC = 0.00时，没有应用过滤，所有经过语言识别过滤后的28.4万小时音频都用于微调。然而，在Common Voice上的表现非常差且不稳定。解码过程经常陷入几个标记的重复，导致单词错误率(WER)超过100%。这一观察确认了原始YODAS数据中存在大量的错位问题。

相反，应用CTC得分过滤（θCTC > 0）后，性能显著提高，证明了数据清洗的有效性。不同测试集上的性能趋势各不相同。在某些情况下，增加数据移除会带来更好的性能，而在其他情况下，则呈现相反的趋势。虽然更精细的过滤可能会为个别语言优化性能，但研究团队选择了θCTC = 0.10的阈值。这个值保留了大部分数据，同时在各种语言上提供了普遍良好的性能。这一过滤过程最终得到了75种语言的16.6万小时音频。

与原始YODAS数据相似，清洗后的数据在不同语言之间的分布仍然高度不平衡。英语占据最大份额，而许多其他语言继续代表性不足。为简单起见，研究团队在这项工作中保持了原始分布，没有进行任何重采样。

三、OWSM v4模型：学术资源下的开源语音模型如何与商业巨头抗衡？

为进一步评估清洗后的YODAS数据质量，研究团队使用这些精心整理的数据与之前的OWSM v3.2数据一起训练了一系列新的OWSM v4模型。这个系列包括三个基于注意力编码器-解码器(AED)的模型，参数范围从1亿到10亿不等，以及一个具有10亿参数的基于CTC的模型。

v4模型采用了与之前的v3.1相同的配置，只是将Mel滤波器组数量从80增加到128，这一改变参考了Whisper-large-v3的设置。语音特征以8倍下采样，导致80毫秒的时间移动。语音编码器采用E-Branchformer架构，而解码器（如果存在的话）则采用Transformer架构。模型基于PyTorch在ESPnet中实现。为了提高效率，使用了FlashAttention-2技术。优化器采用AdamW，批量大小为320。所有模型训练70万步，相当于约3个训练周期。

研究团队在多语言语音识别、语言识别和语音翻译基准测试上评估了OWSM v4模型，使用贪婪解码，除非另有说明。虽然研究团队确实包括了由资源丰富的商业实体（如OpenAI的Whisper和Meta的MMS）开发的模型的结果，但他们主要与来自学术机构的基线进行比较，考虑到他们的资源有限。

在语言识别方面，OWSM v4系列在FLEURS基准测试上大幅超越了早期版本。与工业规模的模型相比，OWSM v4 medium和OWSM-CTC v4都实现了高于Whisper和MMS-lid的准确率，其中OWSM v4 medium达到了95.6%的最高准确率。这些结果表明，清洗后的YODAS数据包含高质量的语言标签，这得益于语言识别过滤阶段。

在多语言语音识别方面，OWSM v4系列在MLS基准测试上实现了比之前的OWSM模型低得多的错误率，突显了数据扩充和清洗的益处。与领先的工业模型相比，OWSM v4 medium实现了比Whisper-medium更低的平均WER（9.4%对9.7%），推理速度相似。OWSM-CTC v4实现了比MMS-fl102低得多的WER（10.7%对17.6%）和与MMS-all相似的WER（10.7%对10.6%），同时速度快20%。

在FLEURS基准测试上，OWSM-CTC v4在所有102种语言上都优于v3.1，并在100种语言上超过v3.2。表1展示了OWSM-CTC v4错误率低于20%的21种语言。在这些语言中，OWSM-CTC v4在13种语言上优于MMS-all。这些发现进一步验证了研究方法的有效性。

在英语语音识别方面，OWSM-CTC v4在Hugging Face Open ASR排行榜上的8个测试集中的6个上优于之前的OWSM-CTC。平均WER从8.12%改善到7.44%。该模型也显著超越了MMS-fl102和MMS-all，尽管它们具有相似的大小。与在专有数据上训练的领先工业模型相比，该模型优于Whisper-medium，并达到了与Whisper-large-v3和Parakeet-CTC相当的性能。在推理速度方面，OWSM-CTC v4比AED模型（如Whisper和Canary）快几倍，这与之前的研究发现一致。

在长格式英语语音识别方面，OWSM v4模型显著优于相同大小和类别（AED或CTC）的之前的OWSM v3.1和v3.2。值得注意的是，OWSM v4 base（1亿参数）已经超越了OWSM v3.1 medium（10亿参数）。与前沿工业模型相比，OWSM-CTC v4实现了最低的长格式WER 3.3%，略优于Whisper-large-v3，后者参数多50%且训练数据多15倍。这些发现突显了从YODAS清洗的英语数据的质量，并展示了数据扩充的好处。

在语音翻译方面，研究团队没有添加任何新的语音翻译数据，使用与v3.2完全相同的语音翻译数据。他们的目标是展示v4模型维持类似的语音翻译性能。他们在CoVoST-2 X-En和En-X上评估语音翻译性能。OWSM-CTC v4在四个X-En测试集上实现了比之前的OWSM更高的BLEU分数，并在En-X测试集上达到与v3.2相当的分数，证实使用来自YODAS的额外语音识别数据不会对语音翻译性能产生负面影响。

四、结果解读：开源语音模型的新纪元已经到来？

研究团队的实验结果令人印象深刻，也给我们带来了一些深刻的启示。

首先，数据质量比数据数量更重要。从原始YODAS数据集到最终清洗后的数据集，数量减少了一半以上（从37万小时减少到16.6万小时），但模型性能却大幅提升。这就像烹饪一样，使用少量精心挑选的新鲜食材，往往比大量平庸的食材做出更美味的菜肴。

其次，开源社区的力量不容小觑。OWSM团队使用的是学术规模的资源，远低于商业巨头如OpenAI和Meta的资源投入，但通过精心设计的数据清洗流程和有效的训练方法，他们的模型在多项测试中不仅超越了之前的开源模型，甚至在某些情况下超越了由资源丰富的商业公司开发的顶尖模型。这向我们展示了，即使资源有限，只要方法得当，也能取得出色的成果。

第三，数据清洗是一个值得投入精力的过程。研究团队开发的三步清洗流程——重新分割、基于语言识别的过滤和基于CTC得分的过滤——为我们提供了一个可扩展的范例，说明如何处理大规模、来源多样的语音数据。这个流程不仅适用于YODAS数据集，也可以应用于其他大规模语音数据集的处理。

第四，模型架构的选择也很关键。研究团队的OWSM-CTC v4模型采用了非自回归架构，这使得它在推理速度上比基于注意力的编码器-解码器模型快许多倍，同时还能保持竞争性的准确率。这对于实际应用来说是一个很大的优势，特别是在资源受限的环境中。

最后，这项研究为开源语音模型的未来发展指明了方向。通过结合高质量的公开数据和有效的模型架构，开源社区有潜力开发出与商业闭源模型相媲美的语音技术，从而促进这一领域的民主化和透明度。

值得一提的是，研究团队承诺将公开发布他们的数据清洗流程、清洗后的YODAS数据、训练代码、预训练模型权重和训练日志。这种开放态度不仅有助于研究的可重复性，也为整个社区提供了宝贵的资源，使更多研究者能够在此基础上进行进一步的改进和创新。

五、未来展望：开源语音模型的潜力与挑战

尽管OWSM v4系列模型取得了显著成就，但仍有一些挑战和潜在的改进方向。

首先，清洗后的YODAS数据在不同语言之间的分布仍然高度不平衡，英语占据了最大份额，而许多其他语言的代表性不足。未来的工作可以探索如何通过数据增强或重采样来平衡不同语言的表示，从而进一步提高模型在低资源语言上的性能。

其次，尽管研究团队的数据清洗流程非常有效，但它依赖于现有的语言识别和语音识别模型，这些模型本身可能对某些语言有偏见。未来的研究可以探索如何减轻这种潜在的偏见，确保清洗过程对所有语言都公平。

再者，虽然OWSM-CTC模型在推理速度上有显著优势，但在某些语言的翻译任务上，其性能仍有提升空间。未来的工作可以探索如何在保持高推理速度的同时，进一步提高翻译质量。

最后，随着更多高质量的公开数据集的出现，以及更先进的模型架构的发展，我们有理由相信，开源语音模型的性能将继续提高，最终可能全面超越闭源商业模型。这将为语音技术的民主化和透明度带来重大推动，使更多人能够访问和利用先进的语音技术。

总结来说，卡内基梅隆大学研究团队的这项工作不仅推动了开源语音模型的技术边界，也为如何有效利用公开数据资源提供了宝贵经验。随着他们承诺公开的各种资源的发布，我们期待看到更多研究者基于这些资源进行创新，共同推动语音技术的发展。正如他们在论文中所强调的，这项工作旨在"推进开放学术研究"，这种开放和协作的精神正是科学进步的核心动力。

想了解更多详情的读者可以通过arXiv访问完整论文（arXiv:2506.00338v1），或者关注OWSM项目官方网站（https://www.wavlab.org/activities/2024/owsm/）获取最新进展和资源。

人工智能语音识别开源模型

分享至