在2025年6月发布于arXiv的一项最新研究《音频感知大型语言模型作为说话风格的评判者》(Audio-Aware Large Language Models as Judges for Speaking Styles)中,来自台湾大学的钟成汉(Cheng-Han Chiang)和李鸿毅(Hung-yi Lee)与微软的王晓飞(Xiaofei Wang)、林忠庆(Chung-Ching Lin)、林凯文(Kevin Lin)、李林杰(Linjie Li)、拉杜·科佩茨(Radu Kopetz)、钱姚(Yao Qian)、王振东(Zhendong Wang)、杨正元(Zhengyuan Yang)和王丽娟(Lijuan Wang)共同探索了一个引人注目的问题:能否让具有音频理解能力的大语言模型(ALLMs)来评估语音的说话风格?
想象一下,你正在使用一个语音助手,比如苹果的Siri或者亚马逊的Alexa。你可能希望它不仅能理解你说的内容,还能以适当的情感和语调回应你。例如,当你兴奋地分享好消息时,你希望它也能用欢快的语调回应,而不是像朗读天气预报一样平淡无奇。但如何评判这些语音助手的说话风格是否自然、是否符合情境呢?这正是这项研究要解决的问题。
研究团队使用了两种具有音频感知能力的大语言模型——GPT-4o-audio和Gemini-2.5-pro——来评估语音生成模型(SLMs)的说话风格。就像美食评论家会品评一道菜肴的口感、香气和摆盘一样,这些"音频评判员"会评估语音中的情感、音量、语速、重音、音调和非语言元素(如笑声、停顿)是否恰当。
这项研究构建了两个任务来测试:一是"语音风格指令跟随"(voice style instruction following),二是"角色扮演"(role-playing)。在第一个任务中,研究人员要求语音模型按照特定的说话风格指令来朗读一句话,比如"用颤抖的声音说这句话"或"在说到某个词时加重语气"。在第二个任务中,则要求语音模型扮演特定角色进行对话,例如扮演一位刚刚订婚的人和她的朋友之间的对话。
研究团队评估了四个语音生成模型的表现:GPT-4o-audio、GPT-4o-mini-audio、Step-Audio和Qwen-2.5-Omni。他们发现,Gemini-2.5-pro作为评判员时,其评分与人类评判者的一致性甚至高于人类评判者之间的一致性。这就像两位专业音乐评论家对一首歌的评价比两位普通听众之间的评价更加一致。
这项研究的结果令人振奋,它表明音频感知大语言模型可以作为自动评判员来评估语音生成模型的说话风格,这可能会大大加速语音技术的发展。同时,研究也发现,即使是像GPT-4o-audio这样先进的语音模型,在控制说话风格和生成自然对话方面仍有很大的改进空间。
一、研究背景与动机:为何我们需要语音风格的自动评判员?
语音交互技术正在迅速发展。自从OpenAI在2024年推出GPT-4o语音模式以来,许多研究团队都在努力开发能够理解语音输入并生成流畅语音输出的系统。这类研究主要分为两种:一种是音频感知大语言模型(ALLMs),它们能够接收文本和音频作为输入,然后生成文本;另一种是口语语言模型(SLMs),它们能接收音频和文本作为输入,然后生成语音输出。
当我们评估这些语音生成模型时,评价文本内容相对简单——我们可以先将语音转录为文本,然后使用各种文本评估指标来评价。例如,对于问答任务,我们可以检查答案的准确性;或者使用"大语言模型作为评判员"(LLM-as-a-judge)的方法进行无参考评估。
但评估语音的非语言方面,比如情感、韵律和重音,就困难得多。传统上,这通常需要人工评估,如同品酒师需要亲自品尝葡萄酒一样。人工评估不仅成本高,还往往存在较大的评分差异,就像不同人对同一部电影的评价可能大相径庭。
这项研究的核心问题是:能否让那些已经具备音频理解能力的大语言模型来担任这个"语音风格评判员"的角色?如果可行,这将极大地简化评估过程,就像有了一个永不疲倦、标准一致的专业评委一样。
二、研究方法:如何设计语音风格评估任务?
为了探究音频感知大语言模型是否能胜任说话风格的评判工作,研究团队精心设计了两个任务,这两个任务都要求语音模型生成具有适当说话风格的语音,然后用人类和音频感知大语言模型来评估这些语音。
第一个任务是"语音风格指令跟随"。想象一下,你在指导一位演员如何朗读一段台词:"请用颤抖的声音,表达出害怕的情绪来说这句话。"在这个任务中,研究者给语音模型一个句子和详细的说话风格指令,然后评估模型是否能准确按照指令生成语音。
研究团队构建了20个多样化的案例,每个案例都包含一个需要说出的句子和特定的说话风格。与以往的语音风格转换或指令跟随文本转语音研究不同,这项研究的风格指令涵盖了不同的粒度和说话风格的广泛方面。有些指令要求在一个句子内改变音量、语速或音调;有些要求强调特定的词;有些要求以特定的情绪说话;有些甚至要求在说话时加入啜泣、结巴或非语言元素(如笑声、叹息或停顿)。
评估采用5分李克特量表。1分表示语音没有按照给定的文本生成;2到5分表示语音遵循了文本,但在风格方面的表现从"完全不符合要求"到"完全符合要求"不等。评估者(无论是人类还是AI)会收到应该说的文本、期望的说话风格和生成的语音,然后根据评分标准给出评分。
第二个任务是"角色扮演"。这个任务同样旨在评估语音模型是否能生成具有适当说话风格的语音,但方式更加自然和开放。在这个任务中,研究者只给语音模型一个角色扮演的背景和对话的第一句话,然后期望模型生成符合角色的对话,并使用适当的说话风格。
研究团队从IEMOCAP数据集创建了20个对话情境。有趣的是,他们让同一个语音模型扮演对话中的两个角色,就像一个演员在一人独角戏中扮演多个角色一样。模型需要在两个角色之间切换说话,形成一个多回合的对话。然后,研究者将两个角色生成的语音连接起来,形成一个对话,并截取一分钟的音频进行评估。
对角色扮演任务的评估基于两个方面:风格和真实感。风格评估使用5分量表,1分表示模型未能完成角色扮演任务,2到5分表示模型能够保持角色一致性且内容适当,但说话风格从"差"到"非常自然"不等。真实感评估则使用二元判断,0表示对话不太可能是人类生成的,1表示对话可能是人类生成的。
三、研究设置:谁是参赛选手,谁是评判员?
在这场语音风格的"选秀比赛"中,四位"选手"(语音生成模型)需要完成上述两个任务,而评判则由两位AI评委和人类评委组成。
四位参赛的语音生成模型包括: - GPT-4o-audio(简称4o-audio):OpenAI开发的先进语音模型 - GPT-4o-mini-audio(简称4o-mini-audio):OpenAI开发的较小版本语音模型 - Step-Audio:一个开源语音模型 - Qwen-2.5-Omni:另一个开源语音模型
研究者选择这些模型的原因是它们都是公开可用的,且支持多回合对话。这就像选择市面上常见的、消费者可以使用的产品进行测试一样。
担任评判的两个音频感知大语言模型是: - GPT-4o-audio(是的,它既是参赛者也是评判员,这有点像运动员兼任裁判) - Gemini-2.5-pro:谷歌开发的先进AI模型
为了验证这些AI评判员的可靠性,研究团队还招募了人类评估者进行同样的评估任务。他们尽可能保持给人类评估者和AI评判员的指令相似,就像在一场比赛中确保所有裁判使用相同的评分标准一样。
在模型生成评估结果时,研究者允许AI评判员使用"思维链"(chain-of-thought)推理,这就像让评委在给出最终分数前先写下自己的思考过程。对于每个评估实例,研究者会采样五个评判结果并合并判断,这就像在体操比赛中去掉最高分和最低分,取平均值一样,可以减少偶然因素的影响。
四、研究发现:AI评判员与人类评判有多一致?
在语音风格指令跟随任务中,人类评判者给予GPT-4o-audio最高评分(平均3.65分),而其他三个模型得分相对较低且彼此接近。这表明GPT-4o-audio能够跟随一些或大部分风格指令,但仍然远非完美。通过分析模型表现不佳的例子,研究者发现所有模型都无法在一个句子内改变说话速度。他们还发现Qwen-2.5-Omni和Step-Audio有时无法插入非语言元素,如笑声或叹息,而是直接读出"叹息"这个词。
有趣的是,AI评判员也给GPT-4o-audio打出了最高分。虽然使用GPT-4o-audio评判自己可能存在自我提升偏差,但人类评估和Gemini-2.5-pro的结果都支持这一判断。对于剩下三个模型的排名,AI评判员和人类评判员之间存在一些不一致,但这并不奇怪,因为这三个模型在人类评估中的平均分非常接近。这表明虽然AI评判员能够区分好的语音模型和不好的语音模型,但可能难以比较几个同样表现不佳的模型。
研究者还计算了不同评判者之间评分的皮尔逊相关系数。人类评判者之间的平均相关系数为0.596,这相当高,证明了人类评估的质量。Gemini与人类评判者的平均相关系数达到0.640,甚至高于人类评判者之间的相关性。而GPT-4o评判员与人类评判者的相关性则明显较低,仅为0.355。这验证了在这个任务上使用Gemini作为评判员可以获得接近人类评估的结果。
在角色扮演任务中,人类评判者给予IEMOCAP中人类录制的对话平均4.03分,明显高于所有语音模型。人类录制的对话和GPT-4o生成的角色扮演在5分制的风格方面只相差0.64分,这看起来差距不大。但在真实感评分上,人类录制的对话得分几乎是GPT-4o的两倍。这表明当前的语音模型仍然不足以生成真实的对话。
Gemini评判员在很大程度上与人类评判者一致。它也将人类录制的对话评为风格最佳且最真实,而GPT-4o-audio是表现最好的语音模型但仍落后于人类。GPT-4o和GPT-4o-mini之间的差距不是很明显,这与人类评估结果一致。Qwen-2.5-Omni和Step-Audio的表现不如两个GPT-4o系列模型;它们的表现相似,难以确定哪一个更好,这也与人类评估结果一致。
在角色扮演任务中,人类评判者之间的平均皮尔逊相关系数只有0.253,这表明评估对话的风格可能有些主观,但人类评估者之间仍存在一定的弱一致性。人类-GPT-4o相关性和人类-Gemini相关性都高于0.30,超过了人类-人类相关性。这表明使用AI评判员评估角色扮演至少与使用人类评估者一样好。
五、研究意义与启示:我们能从中学到什么?
这项研究首次尝试使用音频感知大语言模型来评判语音生成模型的说话风格,就像邀请一个精通音乐的AI来评判歌唱比赛一样。研究结果表明,特别是Gemini-2.5-pro,确实可以作为自动评判员来评估语音风格,其与人类评判者的一致性甚至超过了人类评判者之间的一致性。
这一发现具有深远的意义。传统上,评估语音的非语言方面需要耗时且昂贵的人工评估。现在,我们可以使用AI评判员来自动化这一过程,这不仅可以节省时间和成本,还可以提供更一致的评估结果。这就像有了一个永不疲倦、标准始终如一的专业评委,可以大大加速语音技术的发展和评估过程。
研究也揭示了当前语音生成模型的局限性。即使是像GPT-4o-audio这样先进的模型,在控制说话风格和生成自然对话方面仍有很大的改进空间。例如,所有测试的模型都无法在一个句子内改变说话速度,有些模型甚至无法正确插入非语言元素。这些发现为未来语音模型的开发提供了明确的改进方向。
此外,研究中使用的两个任务——语音风格指令跟随和角色扮演——为评估语音模型的说话风格控制能力提供了有用的框架。这些任务可以被自动评估,这使得开发和测试语音模型变得更加高效。
总的来说,这项研究不仅展示了音频感知大语言模型作为语音风格评判员的潜力,还为语音技术的评估和发展提供了新的思路和工具。随着语音交互技术继续发展,这类自动评估方法将变得越来越重要,帮助我们创造出能够以更自然、更富有表现力的方式与人交流的AI系统。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。