微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

CapSpeech：开创风格提示语音合成的下游应用新纪元

人工智能语音合成自然语言处理

CapSpeech：开创风格提示语音合成的下游应用新纪元

作者：科技行者

2025-06-09 10:35

分享至：

CapSpeech是约翰·霍普金斯大学等机构联合提出的风格描述文本转语音合成基准，包含超过1000万机器标注和36万人工标注的语音-描述配对。它支持五大下游任务：基础风格描述、带音效的语音合成、口音控制、情感表达和表现力丰富的虚拟代理。研究团队开发了自回归和非自回归两种模型，并通过客观和主观评估证明了该基准的有效性。CapSpeech不仅丰富了语音合成的表现力和可控性，还为实际应用如有声读物、对话代理和跨文化语音合成铺平了道路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-09 10:35 • 科技行者

研究背景与团队介绍

想象一下，你能够通过简单的文字描述就让AI说话的语调变得悲伤、兴奋，甚至模仿特定口音，或在语音中加入敲门声、笑声等环境音效。这听起来像科幻小说，但约翰·霍普金斯大学、北京大学、南加州大学、香港中文大学和麻省理工学院的研究团队已经让这一切成为现实。他们最新发表的论文《CapSpeech: Enabling Downstream Applications in Style-Captioned Text-to-Speech》（CapSpeech：实现风格描述文本转语音的下游应用）将在2025年6月发表于arXiv预印本平台（arXiv:2506.02863v1）。

近年来，生成式AI在语音合成领域取得了巨大突破，特别是在模仿特定说话者的声音方面。然而，对于说话风格的精细控制，比如情绪表达、语速变化或口音模仿等，仍然面临巨大挑战。以往的文本转语音（TTS）系统主要关注说话者身份特征，而对语音风格的微妙变化研究不足。说话风格包含两大类特征：一类是与说话者身份紧密相关的内在特征（如年龄、性别、音色）；另一类是与特定表达相关的风格特征（如情绪、语速）。

最近，研究人员开始尝试使用自然语言描述（即"提示语"）来控制这些风格元素，这种方法被称为"风格描述文本转语音"（CapTTS）。但要构建这样的系统，需要大量带有风格标注的语音-描述配对数据，这些数据的标注工作耗时费力且成本高昂。虽然已有一些数据集如Parler-TTS、ParaSpeechCaps等尝试解决这个问题，但它们缺乏统一的风格描述框架，使得跨领域比较变得困难。更重要的是，目前对下游应用的探索也很有限，比如将模型迁移到新的描述风格或在合成语音中加入环境音效等。

CapSpeech：统一的风格描述语音合成基准

为了解决上述挑战，研究团队提出了CapSpeech，这是一个创新的基准数据集，专为风格描述文本转语音及其相关下游任务设计。想象CapSpeech就像一个巨大的乐高积木集，里面包含了各种形状和颜色的积木（不同风格的语音和描述），让研究人员可以按照自己的需求组合出不同的语音效果。

CapSpeech包含两个主要阶段：预训练阶段和监督微调阶段。预训练阶段使用超过1000万个机器标注的语音-描述配对，而监督微调阶段则包含近36万个人工标注的高质量语音-描述配对。这些数据涵盖了广泛的内在说话者特征和表达风格特征，数据来源包括Emilia、GigaSpeech、CommonVoice、MLS、LibriTTS-R、EARS、Expresso、VCTK、VoxCeleb和VoxCeleb2等多个公开语音库。

除了整合现有数据集外，研究团队还特别创建了两个全新的数据集：一个用于聊天代理（AgentTTS）任务，由专业配音演员录制；另一个用于带音效的风格描述文本转语音（CapTTS-SE）任务，由五位经验丰富的音频工程师精心处理。这些新数据集为研究人员提供了探索真实世界应用场景的宝贵资源。

CapSpeech支持的五大下游任务

CapSpeech基准支持五个相互关联但各具特色的下游任务，就像一个语音合成的"瑞士军刀"，每个任务都针对特定的应用场景：

首先是基础的风格描述文本转语音（CapTTS）任务，这像是一种通用语音合成工具，通过自然语言描述控制语音的各种属性，如说话者特征（年龄、性别、口音）、表达风格（情绪、语速）或情境上下文（对话语调、耳语）。虽然这个任务不针对特定应用，但它提供了一个多样化的基准，用于评估在各种描述引导条件下的语音生成能力。

第二个任务是带音效的风格描述文本转语音（CapTTS-SE），它扩展了CapTTS的功能，允许在合成语音中添加非语言声音事件。想象一下有声读物，当故事提到"敲门声"时，系统会在适当位置真的加入敲门声，或者当提到"背景嘈杂的咖啡厅"时，会添加相应的环境音效。这些声音事件可以作为语音的背景，也可以在特定位置插入。这个任务特别适合有声书籍和直播等需要增强听觉体验的场景。

第三个任务专注于口音控制（AccCapTTS）。与传统的依赖预定义类别的口音控制系统不同，AccCapTTS通过自由形式的自然语言提示提供更加用户友好和灵活的控制。这非常适合跨文化声音设计、个性化语音合成和本地化内容创建等应用场景。

第四个任务关注情感表达（EmoCapTTS）。这个任务通过自然语言描述同时控制说话者的情感状态和身份。与传统的依赖离散类别（如快乐、悲伤、愤怒）的情感TTS系统相比，EmoCapTTS通过自由形式的文本描述实现更加灵活和表现力丰富的情感控制。这个任务在故事叙述和游戏NPC（非玩家角色）等需要多个AI说话者的应用中特别有用。

最后一个任务专注于表现力丰富的虚拟代理（AgentTTS）。虽然它也使用类似EmoCapTTS的描述，但它将广泛的情感类别细化为更加细粒度的状态，捕捉情感状态之间的微妙差异（如恐惧与惊慌），模拟情感状态与低级说话风格（如音高和速度）之间的相互作用，并整合表现力丰富的非语言发声（如叹息、笑声、啜泣）。这个任务紧密反映了构建定制对话代理、客户服务机器人、AI治疗师等会话AI应用的真实场景需求。

数据集的构建与处理

构建CapSpeech数据集就像是一项精细的拼图工作，需要将各种来源的语音数据和风格描述巧妙地组合在一起。首先，在预训练阶段，研究团队对四个英语语音语料库（Emilia、MLS、GigaSpeech和CommonVoice）进行了清洗和标注。对于MLS、GigaSpeech和CommonVoice，他们标注了年龄、性别、音高、语调表现力和语速，并使用大型语言模型生成基于这些特征的自然语言描述。对于Emilia，他们采用了ParaSpeechCaps中提供的风格标注，包括59种多样化的风格标签。

为了创建带音效的预训练数据（CapTTS-SE-PT），他们使用LibriTTS-R语音语料库和三个音效语料库（VGGSound、FSDKaggle2018和ESC-50）进行模拟。他们从这些数据集的类别中精选了394种不同的音效，并使用两种模式将音效引入语音：插入模式（在特定位置插入音效）和背景模式（将音效作为背景层叠在语音下方）。为了确保模拟的音频听起来自然流畅，他们在单词之间选择间隔至少0.3秒的插入点，以确保不会破坏词语的连续性。最终，每个语音样本都模拟了五种不同的配置，以扩大数据规模。

在监督微调阶段，CapTTS、EmoCapTTS和AccCapTTS共享相同的基础语音语料库和一些共同的风格属性（如音色、语速）。研究团队整合了来自六个公开可用语料库的人工标注数据：LibriTTS-R、VCTK、VoxCeleb、VoxCeleb2、EARS和Expresso。整合过程包括直接使用现有描述、用额外的说话者特征增强描述，以及使用基于结构化标签的大型语言模型生成描述。

此外，研究团队还创建了两个全新的数据集。CapSpeech-SEDB包含500个音频混合物，整合了10种常见音效（咳嗽声、笑声、掌声、开罐声、脚步声、键盘打字声、闹钟声、敲门声、狗叫声和猫叫声），由五位在音乐制作或电影音效设计方面有专业经验的音频工程师精心制作。CapSpeech-AgentDB则包含约10,000对描述-语音配对，总计约25.2小时的单一女性说话者的高质量录音，其中500对保留用于测试。这个数据集捕捉了情感状态之间的微妙变化，并包含了在现有语音情感语料库中很少出现的情绪（如好奇、嫉妒、怨恨、专注、分心）。

模型架构与实验设计

为了评估CapSpeech数据集的有效性，研究团队开发了两种基于最先进生成式TTS骨架的风格描述TTS模型：一种是自回归（AR）模型，另一种是非自回归（NAR）模型。

自回归模型CapSpeech-AR基于Parler-TTS，这是一种基于编解码器语言模型的最先进方法。它使用44.1kHz版本的Descript Audio Codec（DAC）提供离散音频表示，应用延迟模式处理多个码本，并使用交叉注意力机制整合基于描述的风格控制。FLAN-T5用于从转录文本和风格描述中提取特征。为了支持CapTTS-SE任务，他们在架构中添加了特殊标记。如图1所示，CapTTS-SE中的转录支持两种整合音效的模式：背景模式和插入模式。音效标记（如``、``）放在序列开头，标签``和``标记背景音效段的开始和结束，而``和``则表示插入点。这种设计允许灵活控制合成语音中音效的位置和类型。

非自回归模型CapSpeech-NAR基于F5-TTS，这是一种基于流匹配的扩散Transformer的最先进方法。在他们的改编中，移除了音频提示掩码组件，而是使用交叉注意力整合基于描述的风格控制。BigVGAN用作声码器，并应用QK-Norm稳定训练。转录通过音素转换处理，并插入特殊标记``、``、``和``表示基于背景和插入的音效。为了增强泛化能力，他们不直接在输入序列中包含音效标记，而是提取指定音效的LAION-CLAP嵌入并将其作为额外输入。这种设计允许模型在推理过程中泛化到未见过的音效。与AR模型类似，FLAN-T5用于从风格描述中提取文本特征。由于NAR模型无法直接预测音频持续时间，他们微调了一个BERT模型，该模型同时接收转录和描述作为输入，以估计整个音频的总持续时间。

所有模型都使用AdamW优化器进行训练。AR模型的批量大小为32，预训练阶段学习率为1e-3，微调阶段为1e-4。NAR模型使用512的批量大小，预训练阶段学习率为2e-4，微调阶段为2e-5。预训练在8个NVIDIA H100 GPU上进行，而微调则在单个NVIDIA A100 GPU上执行。

实验结果与分析

研究团队通过客观和主观两种方法评估了模型性能。客观评估包括风格一致性、音频质量和清晰度三个方面。对于风格一致性，他们计算了多个类别的分类准确率，包括年龄、性别、音高、语调表现力、语速、口音和情感，并将这些属性的平均准确率报告为Style-ACC。音频质量通过UTMOSv2评估，而清晰度则通过计算生成语音的ASR转录与输入转录之间的文本标准化WER来评估。

主观评估方面，研究团队招募了15名通过Prolific平台筛选的母语为英语的评估者，评估三个主观方面：风格一致性MOS（SMOS）、自然度MOS（NMOS）和清晰度MOS（IMOS）。每个样本由三名评估者评分，并报告平均分数及95%置信区间。

预训练阶段的结果显示，在CapTTS任务上使用CapTTS预训练集训练的模型在风格一致性、自然度和清晰度方面均显著优于使用先前的大规模数据集ParaSpeechCaps训练的模型，证明了研究团队所提出数据集的有效性。与AR模型相比，NAR模型在所有指标上一致取得更好的性能，突显了它们在CapTTS任务上的进步。

微调阶段的结果表明，预训练为所有下游任务提供了显著益处，特别是对于数据有限的CapTTS-SE和AgentTTS任务。值得注意的是，研究基准表明，在CapTTS、EmoCapTTS和AccCapTTS任务上可以实现较强的风格一致性、自然度和清晰度，NAR模型的SMOS、NMOS和IMOS评分至少达到3.77、3.88和4.34。此外，AR模型在CapTTS-SE和AgentTTS任务的某些指标上超过了NAR模型。

研究团队还观察到，在AgentTTS任务中保持风格一致性以及在CapTTS-SE任务中实现高清晰度仍然特别具有挑战性。特别是，在CapTTS-SE任务中，模型在WER指标上表现良好但在IMOS上表现较差，表明音效的生成质量低于语音。

研究意义与局限性

CapSpeech代表了风格描述文本转语音合成领域的重要进步，为研究人员提供了一个全面的基准来评估和改进这一技术。通过引入多种下游任务和丰富的数据集，CapSpeech使研究人员能够探索更多实际应用场景，如带音效的有声读物、具有细粒度情感控制的对话代理以及可灵活控制口音的跨文化语音合成等。

然而，这项研究也存在一些局限性。首先是AI安全方面的考虑，特别是关于水印和合成语音检测的问题。随着生成语音质量的不断提高，语音欺骗、身份冒充和错误信息传播的风险也在增加。虽然CapSpeech引入了几种语音合成任务，为水印和深度伪造检测开辟了新的机会和挑战，但研究人员尚未在此方面进行深入探索。

其次是语言覆盖范围和评估指标的局限性。虽然CapSpeech的设计可以轻松扩展到其他语言，但当前的数据集仅限于英语。此外，风格描述TTS任务依赖于昂贵且主观的人工评估，因为缺乏可靠的自动评估指标。目前，没有现有的理解模型能够生成高质量的语音描述。不过，CapSpeech数据集为训练此类模型提供了有希望的基础，类似于图像-文本模型如CLIP和BLIP的发展路径。

结语

CapSpeech是风格描述文本转语音合成领域的一个重要里程碑，它不仅提供了大规模的数据资源，还设计了一系列具有实际应用价值的下游任务。通过这项研究，我们看到了AI语音合成正朝着更加自然、富有表现力和可控的方向发展。

想象一下未来的可能性：有声书籍能够自动匹配角色情绪并添加恰当的环境音效；虚拟助手能够根据对话情境调整语调和情感表达；语言学习应用能够展示各种真实的口音变体。这些应用场景不再遥不可及，CapSpeech的出现让它们变得触手可及。

对于对该领域感兴趣的读者，研究团队已经公开发布了他们的数据集、听音样本、源代码、预训练检查点和评估工具，以支持未来的研究。所有资源都在CC BY-NC 4.0许可（知识共享署名-非商业性使用）下发布，允许在适当归属的情况下用于非商业研究目的。

人工智能语音合成自然语言处理

分享至