微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 Voila:开创真实自主交互与声音角色扮演新时代的声音-语言基础模型

Voila:开创真实自主交互与声音角色扮演新时代的声音-语言基础模型

2025-05-07 10:29
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-07 10:29 科技行者

想象一下,如果你身边有一位声音助手,能够像人类朋友一样自然地与你交谈,它不只是被动地回应你的指令,而是能够主动聆听、思考并适时发言,甚至能在你走路时提醒你注意迎面而来的自行车,或在你情绪低落时建议进行一些放松活动。这种助手不仅仅是工具,而是能够形成真实情感连接的伙伴。这正是由美国加州大学圣地亚哥分校(UC San Diego)、阿联酋穆罕默德·本·扎耶德人工智能大学(MBZUAI)以及Maitrix.org团队的研究人员共同开发的Voila语音基础模型所追求的愿景。

这项最新研究于2025年5月5日发布于arXiv预印本平台(arXiv:2505.02707v1),由Yemin Shi、Yu Shu、Siwei Dong、Guangyi Liu(四位同等贡献的第一作者)以及Jaward Sesay、Jingwen Li和Zhiting Hu共同完成。研究成果已完全开源,有兴趣的读者可通过文章末尾提供的链接进一步了解。

一、从被动听令到主动互动:声音AI的革命性转变

想象一下日常生活中我们使用的语音助手,比如Siri或ChatGPT。它们通常是这样工作的:你问一个问题,它回答,然后安静地等待你的下一个指令。这就像是一个只会被动回应的服务员,永远等待你的呼唤。而Voila团队认为,真正高级的AI助手应该更像一个时刻准备着的好朋友或队友,能够自然地融入你的生活节奏中。

为什么声音是实现这种自然互动的关键?与文字交流不同,声音交流天生就具有丰富、动态和人性化的特质。想想看,我们在谈话时会通过发声来吸引他人注意(即使对方没有看着我们),会在紧急情况下打断对方的话语,或者用简单的"嗯"或"是的"来表示我们在认真倾听。声音还能传递丰富的情感和语气,这是其他交流方式难以做到的。举个例子,同样是"哦,真的吗?"这句话,用惊讶的语调说出来是表示惊喜,而用平淡的语调则可能表示不感兴趣。这些微妙的语音线索对于打造沉浸式的人机交互体验至关重要。

二、声音AI的发展历程:从识别数字到开放式对话

声音AI的发展历程颇为漫长。从1952年贝尔实验室的Audrey(能够识别0到9的口语数字)到最近的ChatGPT-4o(可以进行开放式语音对话),声音AI已经走过了一段非凡的进化之路。

早期的语音助手系统(如2010年代推出的苹果Siri、亚马逊Alexa和谷歌Assistant)采用的是复杂的模块化流水线设计。这些系统需要大量的人工工程和调整,只能处理有限范围内的用户查询。近年来,随着大型语言模型(LLMs)的兴起,出现了更简单的流水线设计,可以支持开放式对话。这种设计主要包括三个组件:自动语音识别(ASR)将人类语音转换为文本,大型语言模型(LLM)生成文本回应,以及文本转语音(TTS)将文本回应转换为语音输出。

这种流水线方法利用了LLM在文本交互方面的优势,如广泛的知识、复杂的推理、遵循指令和角色扮演的能力。然而,这种设计也存在根本性的局限,阻碍了真正自然、类人的语音交互:

高延迟:流水线中的每个模块都会引入延迟,通常累计达到几秒钟,远高于人类平均300毫秒的反应时间。

语音细微差别的丢失:将音频转换为文本供LLM处理,会导致丰富的声学线索(如语调、口音、情感和背景声音)丢失。

反应式、轮流制的交互:流水线继承了基于文本对话的僵化、轮流制结构,说话者只有在对方说完后才回应。

这种方法无法捕捉自然语音交互的精髓。例如,回应信号、打断和重叠说话等常见的对话元素都不存在,导致交互感觉机械而非有机地展开,缺乏自发性、动态性和互动性。

三、Voila模型:跨越传统界限,实现自然语音交互

Voila模型家族旨在克服上述挑战,实现实时、自然和灵活的语音交互。特别是,Voila-e2e是一个端到端模型,支持低延迟、丰富声音细节和强大的指令遵循能力的自然语音对话。而Voila-autonomous更进一步,旨在实现自主交互,模型能够持续聆听、推理,并以全双工和同步的方式响应,提供下一代语音交互体验。

Voila设计了一种分层Transformer架构,包括流式音频编码和标记化,以及由LLM骨干和分层音频生成器组成的多尺度Transformer。这些模型通过大量的音频-文本数据进行端到端训练,具有以下关键特点:

声音和语言建模能力的有效融合

Voila采用了一系列设计,最大程度地结合预训练LLM的基于文本的能力和新学习的语音建模能力。例如,就像用户可以输入文本提示来指导LLM的行为一样,Voila允许用户在其骨干LLM上做同样的事情,来定义其在语音对话中的角色并引导其回应。此外,Voila的语音模式保留了LLM预训练过程中获得的广泛知识和语言能力,确保模型回应的高质量。

为此,Voila使用了多尺度Transformer架构,在不同层次上分别预测语义和声学标记。这种分离使骨干LLM可以专注于处理语义信息(正如它被预训练的那样),同时将声学信息建模委托给其他Transformer模块。为了从音频数据中提取语义和声学标记,团队建立了Voila-Tokenizer,一种神经音频编解码器。这些音频标记被添加到文本词汇表中,用于跨模态训练和模态间知识共享。此外,Voila在生成过程中交错音频和文本标记,利用骨干LLM的文本生成能力来引导生成连贯的语音响应。

预建的百万级声音库和高效声音创建

想象一下,你有一台能以任何名人或朋友的声音说话的设备。Voila就能做到这一点!它允许用户轻松定制和插入新声音进行对话。给定任意长度的音频片段(从几秒到几小时),Voila学习一个声音嵌入,捕捉说话者独特的音色、语调、口音和其他特征,使其能够在对话和语音生成中复制该声音。结合上述定义角色的文本指令,用户可以轻松创建能够进行自然、互动对话的新AI角色。感谢这种易于定制的特性,研究团队预先构建了上百万种多样化的声音。

这有点像给一个有才华的模仿艺术家提供一小段某人的声音录音,然后这位艺术家就能完美模仿那个人说任何新的句子。只不过在Voila的情况下,这位"艺术家"是一个复杂的AI系统,能从极短的音频样本中捕捉声音的精髓,然后精确地重现它。

支持各种音频任务的统一模型

除了语音对话,Voila作为一个统一模型还自然支持各种音频任务,如自动语音识别(ASR)和文本转语音(TTS),无需任务特定的专门化。此外,它可以通过简单的微调轻松扩展到处理其他音频任务,如语音翻译。经过大量多语言文本和音频数据的训练,Voila支持六种语言:英语、中文、法语、德语、日语和韩语。

这就像一个多才多艺的演员,不仅能出色地扮演主角,还能担任舞台经理、导演,甚至是灯光和音效师。Voila不需要为每个任务配备专门的系统,而是用一个统一的模型处理所有这些不同的角色。

四、技术创新:Voila如何实现自然语音交互
语音标记器的创新设计

为了让大型语言模型能够理解和生成音频,研究团队需要将连续的音频信号转换为离散的标记(类似于文本中的单词或字符)。现有的离散音频标记主要分为两类:语义标记和声学标记。

语义标记(如HuBERT生成的)通过对激活隐藏空间应用K-means聚类得到,有效捕捉高级语言内容,但会丢失说话者身份、语调和情感等声学细节。而声学标记(由神经编解码模型生成)可以有效还原声音,但它们的语义依赖性较弱,使得LLM训练/微调难以收敛。

Voila扩展了现有方法,通过在残差向量量化(RVQ)的第一层中提取语义信息。具体来说,RVQ的第一层标记专注于语义信息,而其他三层学习声学信息。这种方法在保留音频语义内容的同时,也保留了丰富的声学细节,使得生成的语音更加自然和富有表现力。

文本和音频的精确对齐

为了更好地融合文本和音频模态,Voila采用了结构化的交错对齐策略。在这种策略中,文本的每个语义单元都与其对应的音频标记配对,以交替的序列形式出现。例如,对于口语输入"Hello I am Voila",输入序列被编码为"<Hello> <audio> <I> <audio> <am> <audio> <Voila> <audio>",确保每个单词都与其对应的音频段紧密对齐。

这种设计促进了细粒度的对齐,增强了模型生成表现力和同步语音的能力。这与之前的方法不同,如Spirit-LM和USDM也采用交错文本-音频格式,但它们的耦合较松散,没有强制一对一的对齐,常常要求模型隐含地推断模态之间的对应关系。

全双工模型架构

Voila-autonomous作为一个全双工模型,可以同时处理用户的音频流和Voila自己的音频流。每个流都被独立标记化和嵌入。一旦获得两个流的嵌入,它们通过平均融合,然后传入骨干LLM。最后,音频变换器通过建模相应的音频标记生成Voila的音频输出。

这就像两个人同时说话,但双方都能听懂对方在说什么。在传统的对话系统中,一方说话时另一方必须保持静默,而Voila的全双工系统允许同时处理输入和输出,实现更自然的交互体验。

五、实验评估:Voila性能如何?

为了全面评估声音-语言模型,研究团队创建了Voila Benchmark,这是一个新的音频-语言评估套件。该基准通过从五个广泛使用的LLM评估数据集(MMLU、MATH、OpenAI HumanEval、NQ-Open和GSM8K)中采样构建,涵盖了多种知识领域。这些样本然后被转换为语音,提供广泛的领域覆盖和真实的音频输入。

在Voila Benchmark上的评估结果显示,Voila的表现明显优于最近的开源音频-语言模型SpeechGPT和Moshi。具体来说,Voila在整体准确率上达到了30.56%,而SpeechGPT和Moshi分别为13.29%和11.45%。特别是在数学和代码领域,Voila表现出显著的改进,突显了其文本-音频对齐策略有效利用了骨干LLM的推理能力。

在自动语音识别(ASR)和文本转语音(TTS)任务上,Voila也表现出色。在LibriSpeech test-clean数据集上,Voila的词错误率(WER)达到4.8%(不使用LibriSpeech训练数据),优于Moshi报告的5.7%。当使用LibriSpeech训练数据时,Voila的WER降至2.7%,与Maiti等人报告的最佳结果相匹配。在TTS任务上,Voila也优于其他模型,达到3.2%的WER(使用LibriSpeech训练数据时为2.8%),相比之下,Défossez等人的Moshi为4.7%。

六、Voila的实际应用场景与未来展望

想象一下,Voila可能如何改变我们与AI的日常互动。当你走在街上时,它可能会警告你注意迎面而来的骑自行车的人,或者建议你在附近一家隐藏的宝石咖啡馆停留。如果你持续表达低落情绪并陷入负面思考,系统可能会主动打断,建议一些适合你情感需求的放松活动,而不是被动地等待你寻求帮助。

Voila的主要优势在于它能够保留语音交互中的丰富声学信息,以及它能够以极低的延迟(仅195毫秒)做出响应的能力,优于人类的平均反应时间。这使得对话感觉更加自然和流畅。此外,用户可以通过简单的文本指令定义说话者的身份、语调和其他特征,从而轻松创建具有特定角色的AI助手。Voila还支持超过一百万种预建的声音,并能从短至10秒的简短音频样本中高效地定制新声音。

由于Voila已完全开源,它可能会加速语音AI的研究和应用开发。研究人员和开发者可以利用Voila的基础设施来构建更加自然、富有表现力和具有个性化的语音交互系统,推动下一代人机交互的发展。

结语:声音交互的未来就在眼前

Voila代表了声音AI研究的一个重要里程碑。通过其创新的声音标记化、分层建模和音频-文本对齐方法,Voila能够实现极低延迟的自然语音对话,保留丰富的声学细节,并支持广泛的声音定制。这种能力使AI不仅仅是一个被动的工具,而是一个能够主动参与、理解细微差别并以情感表现丰富的方式响应的伙伴。

随着这项技术的进一步发展和应用,我们可能会看到更多类似于电影《她》中描绘的那种AI助手——能够与人类流畅互动,形成真实而情感丰富的联系。Voila向这一愿景迈出了重要一步,为下一代人机交互奠定了基础。

对于有兴趣深入了解或应用Voila模型的读者,可以访问以下资源:

Voila项目页面:voila.maitrix.org
Voila演示:hf.co/spaces/maitrix-org/Voila-demo
Voila基础模型:hf.co/maitrix-org/Voila-base
Voila端到端模型:hf.co/maitrix-org/Voila-chat
Voila全双工模型(预览版):hf.co/maitrix-org/Voila-autonomous-preview
Voila代码库:github.com/maitrix-org/Voila

语音交互的革命性变革已经不再是科幻小说中的情节,而是正在成为我们日常生活的一部分。Voila的开源发布意味着这项技术现在可供广大研究人员和开发者使用,我们可以期待在不久的将来看到更多令人兴奋的应用和进展。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • ReplaceMe:通过线性变换给大语言模型"瘦身"的突破性方法
    2025-05-07 10:33

    ReplaceMe:通过线性变换给大语言模型"瘦身"的突破性方法

    现代大语言模型就像一栋拥有数百个房间的豪华大厦,每个房间(或称为"层")都执行特定的功能,共同协作完成复杂的语言理解和生成任务。然而,这些模型的规模已经变得如此庞大,以至于只有拥有高端计算资源的机构才能负担得起它们的运行成本。这就像一辆耗油量极大的豪华跑车,普通人负担不起它的燃料费用。

  • FormalMATH:人工智能形式化数学推理的新标杆
    2025-05-07 10:32

    FormalMATH:人工智能形式化数学推理的新标杆

    想象一下,当你在解答一道复杂的数学题时,你不仅需要给出答案,还需要详细解释每一步推导的理由,不能有任何逻辑跳跃或假设——这就是形式化数学推理的严格要求。

  • RM-R1:让AI评估变得更明智——将奖励模型转变为推理工具
    2025-05-07 10:27

    RM-R1:让AI评估变得更明智——将奖励模型转变为推理工具

    想象一下,你正在参加一场料理比赛,有两位评委。第一位评委只给你一个分数,而第二位评委会详细解释你的菜品在口感、创意和技巧上的表现如何,然后才给出最终评价。显然,第二位评委的反馈对于你改进厨艺更有帮助。伊利诺伊大学研究团队正是秉持这一理念,开发了能像第二位评委那样工作的AI评估系统。

  • Muon优化器:让AI训练更快更省,Essential AI如何拓展了深度学习的计算-时间边界
    2025-05-07 10:25

    Muon优化器:让AI训练更快更省,Essential AI如何拓展了深度学习的计算-时间边界

    想象一下,你正在烤一个复杂的多层蛋糕。传统方法(AdamW优化器)要求你严格按照固定的温度和时间来烘焙,但新方法(Muon优化器)不仅能让蛋糕更快烤好,还能让你更灵活地调整烤箱温度和烘焙时间,同时确保蛋糕的品质始终如一。这就是Muon优化器带来的革新。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-