想要让AI在和你说话时听起来更像人类吗?复旦大学的研究团队和阿里巴巴集团在2025年9月联手发布了一项令人瞩目的研究成果——VStyle语音风格适应评测基准。这项研究由复旦大学的詹俊、谢宇轩、张冬、黄可心等研究者与阿里巴巴的韩明阳、王晨、石浩翔等工程师共同完成,发表在arXiv预印本平台,论文编号为arXiv:2509.09716v1。有兴趣深入了解的读者可以通过该编号在arXiv网站上访问完整论文。
近年来,语音AI技术发展迅猛,从Siri到ChatGPT的语音版本,这些系统已经能够准确理解和回应我们的问题。但是,你有没有发现一个问题:这些AI说话时总是用同一种语调,缺乏人类说话时那种丰富的情感表达和风格变化?当你心情低落时希望AI温柔地安慰你,当你需要激励时希望AI说话更有力量,但现在的AI往往做不到这一点。
这就是研究团队要解决的核心问题。他们发现,目前的语音AI研究主要专注于"说什么"(内容准确性),而很少关注"怎么说"(表达风格)。就好比一个演员虽然能记住台词,但无法根据不同角色和情境调整自己的说话方式。研究团队认为,真正自然的人机对话不仅需要准确的内容,更需要恰当的表达风格。
为了填补这个空白,研究团队创造性地提出了"语音风格适应"(Voice Style Adaptation,简称VSA)这一全新任务。这个任务要求AI不仅要理解用户说的内容,还要根据用户的口头指令调整自己的说话风格,比如音色、语调、情感或说话者身份。这就像要求一个演员不仅要演好剧本,还要能够根据导演的即时指导随时调整表演风格。
一、四大类型的语音风格控制,涵盖现实交互的方方面面
研究团队构建的VStyle评测基准就像一个综合性的"语音表演考试",包含了四个不同难度和类型的测试类别,每个类别都模拟了现实生活中可能遇到的语音交互场景。
第一类是声学属性控制,这是最基础也是最直接的测试。就像调节收音机的各种旋钮一样,用户可以明确指定AI说话时的各种声音特征。比如,用户可以说"请用一个年轻女性的声音说这句话"或"请说得更快一些,声音更响亮"。这类测试包括了年龄、性别、语速、音调、音量和情感等六个基本声学维度。每个维度都有明确的标准,就像烹饪食谱中精确的调料分量一样,能够直接评估AI对声音细节的控制能力。
第二类是自然语言指令控制,这就像给AI一个更加灵活和开放的表演指导。用户不再需要使用技术术语,而是可以用日常语言描述想要的说话风格。比如,用户可以说"请用温柔关怀的语气说话"或"请模仿播音员的专业风格"。这类测试又分为三个子类型:情感表达,允许用户用任何词语描述想要的情感状态;风格指定,让用户能够自由描述全局的说话风格;以及最有挑战性的变化控制,要求AI在同一句话中实现情感或风格的动态变化,就像音乐中的强弱变化一样。
第三类是角色扮演控制,这可以说是对AI"演技"的终极考验。就像要求演员快速进入角色一样,AI需要根据特定的场景或角色描述来调整自己的说话方式。这类测试包括两种情况:场景角色扮演,比如"请以客服代表的身份回答这个问题";以及人物角色扮演,比如"请模仿一位慈祥老人的说话方式"。成功完成这类任务需要AI不仅理解角色特征,还要能够在语音中准确表现出相应的音色、情感和说话风格。
第四类是隐性共情控制,这是最接近真实人际交往的测试类型。在这类测试中,用户不会明确告诉AI要用什么风格说话,而是表达自己的情绪状态,期望AI能够像朋友一样察言观色,给出恰当的情感回应。比如,当用户说"我今天特别沮丧,工作出了大问题"时,AI需要自动识别用户的情绪状态,并用温暖、理解和鼓励的语调回应。研究团队选择了四种典型的情感场景:愤怒、焦虑恐惧、悲伤失望,以及喜悦兴奋,每种情感都需要AI给出不同的共情回应。
整个VStyle评测基准包含了1523个精心设计的双语(中文和英文)语音指令,涵盖了从简单的声音调节到复杂的情感交互的各种现实场景。这就像为AI准备了一套完整的"语音表演教程",从基础练习到高难度表演应有尽有。
二、革命性的AI评判系统,让语音质量评估更加客观
评估语音质量一直是一个棘手的问题,就像评价一幅画的美丑一样主观。传统的评估方法要么过于机械(只看发音准确性),要么成本高昂(需要大量人工评估)。研究团队创造性地提出了"大型音频语言模型作为评判者"(LALM-as-a-Judge)的评估框架,这就像雇佣了一个既专业又客观的"AI评委"来判断语音表现。
这套评估系统的工作原理就像一个经验丰富的语音教师的评分过程。当收到一个AI生成的语音回应时,评估系统会按照三个层次进行逐步评判,每个层次都有明确的标准和要求。
第一层是内容准确性检查,这就像检查学生是否回答了正确的问题。如果AI生成的语音内容完全偏离了用户的指令要求,那么无论声音多么动听,都会被直接打1分(最低分)。这确保了AI首先要理解并正确执行基本的内容要求。
第二层是风格契合度评估,这是整个评估的核心环节。如果内容通过了第一层检查,评估系统就会仔细分析AI的说话风格是否符合用户的要求。如果完全不符合风格要求,比如用户要求温柔说话但AI用了严厉的语调,那么会被评为2分。如果部分符合但还不够完美,比如情感表达有些到位但还不够自然,则会得到3分。只有当风格要求得到很好满足时,才能进入下一层评估。
第三层是自然度评价,这是对AI语音表现的最高要求。即使内容正确、风格适当,如果说话听起来僵硬、不自然,像机器人一样,那么会得到4分。只有当语音听起来既符合要求又自然流畅,像真人说话一样,才能获得5分的最高评价。
这种分层评估方法的优势在于它反映了人类对语音交互的真实期待:首先要说对内容,然后要用对风格,最后还要听起来自然。就像评价一个演员的表演一样,台词、情感表达和自然度缺一不可。
研究团队选择了当前最强大的音频理解模型Gemini-2.5-pro作为评估工具,就像选择了最有经验的评委来打分。这个系统能够同时理解语音的内容和风格特征,并给出相对客观和一致的评分。
三、商业巨头与开源系统的较量,揭示技术发展现状
为了全面了解当前语音AI技术的真实水平,研究团队选择了市面上最具代表性的七款系统进行测试,就像组织了一场语音AI的"奥运会"。参赛选手包括三款商业系统:OpenAI的GPT-4o Audio、GPT-4o-Mini Audio和字节跳动的豆包,以及四款开源系统:Step-Audio、Kimi-Audio、百川-Audio和Qwen-2.5 Omni。
测试结果让人既有些意外,又在情理之中。商业系统确实展现出了明显的技术优势,就像专业运动员和业余选手的差距一样显著。在英文任务中,GPT-4o取得了4.05分的最佳成绩,而在中文任务中,豆包以4.10分领跑。相比之下,开源系统的表现普遍在2到3分之间徘徊,其中Kimi-Audio在中文任务中表现最好(3.11分),Step-Audio在英文任务中相对领先(2.77分)。
这种差距背后有着深层的技术和资源原因。从技术角度看,商业系统在语音生成的稳定性和表现力方面明显更胜一筹。大多数开源系统更关注"说对话"而不是"说好话",它们主要依赖语义层面的表示,对声音的细节特征建模不够充分。这就像很多人能够背诵诗词,但无法用富有感情的语调朗诵一样。
不过,也有例外情况值得注意。百川-Audio采用了统一编码的技术路线,能够更好地捕捉声音特征,在年龄控制任务中表现出色,并且具备了一定的音色控制能力。这说明技术路径的选择对最终效果有着重要影响。
从资源角度看,商业公司拥有更大规模的训练数据和更强的计算资源,这让它们能够训练出更稳定、更全面的模型。开源系统往往在指令跟随能力上存在不足,经常出现理解偏差导致的低分,从而拉低了整体表现。
不同任务类型的表现差异也很有启发性。在声学属性控制方面,需要同时控制多个声音特征的复合任务明显比单一特征控制更困难。在自然语言指令控制方面,GPT-4o在各种子任务中都表现出色,特别是在最困难的风格变化任务上仍能保持高水准。其他模型在风格变化方面的表现明显逊色,说明这确实是一个技术难点。
在角色扮演任务中,GPT-4o在场景和人物角色方面都很出色,而豆包在中文场景任务中表现突出,体现了本土化优势。在隐性共情任务中,多个模型都能较好地处理情感交互,无论是积极还是消极情绪都能给出恰当回应,这说明情感理解和表达已经达到了一定的成熟度。
语言偏好也是一个有趣的发现。豆包、Kimi-Audio和Qwen-2.5 Omni在中文任务中的表现明显好于英文,而GPT-4o系列则相反。这可能反映了训练数据的语言分布差异,也可能说明语音生成中的跨语言迁移比文本生成更加困难,毕竟不同语言的发音规律和表达习惯存在显著差异。
四、AI评判与人类评估的一致性验证
为了验证AI评判系统的可靠性,研究团队进行了一次严格的"人机对比实验"。他们随机选择了约一半的测试样本进行人工评估,就像对AI评委的判断进行"人工复核"一样。
这次人工评估的设计非常严谨。所有参与评估的专家都需要先完成试验任务并通过资格测试,确保他们理解评估标准和流程。每个音频样本都由五位专家独立评分,就像奥运会比赛中的多位裁判打分一样,以确保结果的公正性和准确性。更重要的是,人工评估采用了与AI评判完全相同的评估标准和指导原则,确保比较的公平性。
实验结果令人振奋。通过斯皮尔曼等级相关系数的计算,研究团队发现AI评判系统与人类专家的一致性相当高。在英文任务中,AI评分与人类共识评分的相关性达到了77.01%,而在中文任务中也达到了73.03%。作为对比,人类专家之间的一致性在英文中为78.58%,中文中为70.54%。
这些数据说明了什么?AI评判系统的表现已经接近了人类专家之间的一致性水平。换句话说,AI评委和人类评委的判断标准已经高度吻合,AI评判系统可以作为人工评估的可靠替代方案。这就像发现了一个既不会疲劳、也不会带有个人偏见的专业评委,能够提供一致、客观的评分。
这种一致性的实现对整个研究领域具有重要意义。传统的人工评估不仅成本高昂、耗时长久,而且容易受到评估者个人喜好和状态的影响。现在有了可靠的自动评估系统,研究人员可以更高效地测试和改进语音AI系统,加速技术发展的步伐。
五、技术局限与未来展望
当然,这项开创性研究也并非完美无缺。研究团队坦诚地指出了当前工作的几个局限性。
首先是数据构建方面的局限。VStyle数据集虽然涵盖面广,但它的构建过程依赖于人工设计和大语言模型扩展,这意味着数据分布可能反映了研究者的偏好和模型的生成模式,而不一定完全代表真实用户的需求和使用习惯。就像根据厨师的经验设计菜谱,可能无法涵盖所有食客的口味偏好一样。
其次是评估方法的局限。尽管大型音频语言模型在评估中表现出色,但它们仍然可能出现"幻觉"现象,也就是给出看似合理但实际错误的判断。为了应对这个问题,研究团队采用了分步提示和明确指导原则的方法来提高评估的一致性和可靠性,但这个问题并未完全解决。
不过,研究团队对技术发展保持乐观态度。随着AI推理能力和听觉感知能力的不断提升,评估系统的准确性和可靠性必将进一步改善。未来的评估系统可能会更加智能,能够理解更加复杂和微妙的语音表达差异。
展望未来,这项研究为语音AI技术的发展指明了新的方向。VStyle不仅仅是一个评测基准,更是一个技术发展的催化剂。它的双语设计和多类别覆盖反映了现实交互需求的复杂性,从基础的声学控制到高级的情感共情,形成了一个完整的技术发展路径图。
研究团队希望VStyle能够发挥双重作用:既作为诊断工具帮助发现现有模型的不足,又作为推动力促进更自然、更可控、更人性化的语音生成系统的发展。随着越来越多的研究者使用这个基准来测试和改进他们的系统,语音AI技术有望在表达能力方面实现质的飞跃。
说到底,这项研究解决的是一个根本性问题:如何让AI不仅能够正确地与人类对话,还能够以恰当和自然的方式进行表达。这对于构建真正智能的语音助手、情感陪伴机器人,以及各种需要语音交互的AI应用都具有重要意义。当AI能够根据不同的情境和用户需求调整自己的说话风格时,人机交互将变得更加自然和富有人情味。
归根结底,VStyle代表了语音AI技术发展的一个重要里程碑。它不仅揭示了当前技术的真实水平和存在差距,更为未来的研究方向提供了清晰的指引。随着技术的不断进步,我们有理由期待在不久的将来,AI将能够像人类一样灵活自如地运用各种说话风格,真正实现富有表现力的语音交互。对于想要深入了解这项研究细节的读者,可以通过arXiv:2509.09716v1在相关学术平台查阅完整的研究论文。
Q&A
Q1:VStyle语音风格适应评测基准包含哪些测试类型?
A:VStyle包含四大类测试:声学属性控制(如调节年龄、性别、语速等),自然语言指令控制(用日常语言描述想要的说话风格),角色扮演控制(模仿特定场景或人物说话),以及隐性共情控制(AI需要自动识别用户情绪并给出恰当回应)。整个基准包含1523个中英文双语指令。
Q2:目前商业语音AI和开源系统在风格控制方面差距有多大?
A:差距相当显著。商业系统如GPT-4o和豆包的评分在4分左右(满分5分),而开源系统普遍在2-3分之间。商业系统在语音表达的稳定性和风格控制能力方面明显更强,这主要源于它们拥有更大规模的训练数据和更强的计算资源。
Q3:LALM-as-a-Judge评估系统是如何工作的?
A:这套AI评判系统像经验丰富的语音教师一样,分三层评估:首先检查内容准确性,如果不符合就打1分;然后评估风格契合度,完全不符合打2分,部分符合打3分;最后评价自然度,不自然打4分,自然流畅打5分。这个系统与人类专家评估的一致性达到73-77%,接近人类专家之间的一致性水平。
好文章,需要你的鼓励
OpenAI团队的最新研究揭示了大语言模型产生幻觉的根本原因:AI就像面临难题的学生,宁愿猜测也不愿承认无知。研究发现,即使训练数据完全正确,统计学原理也会导致AI产生错误信息。更重要的是,现有评估体系惩罚不确定性表达,鼓励AI进行猜测。研究提出了显式置信度目标等解决方案,通过改革评估标准让AI学会诚实地说"不知道",为构建更可信的AI系统指明方向。
字节跳动AI实验室提出"逆向工程推理"新范式,通过从优质作品反推思考过程的方式训练AI进行创意写作。该方法创建了包含2万个思考轨迹的DeepWriting-20K数据集,训练的DeepWriter-8B模型在多项写作评测中媲美GPT-4o等顶级商业模型,为AI在开放性创意任务上的应用开辟了新道路。
ByteDance Seed团队开发的UI-TARS-2是一个革命性的AI助手,能够通过观看屏幕并用鼠标键盘操作电脑,就像人类一样完成各种任务和游戏。该系统采用创新的"数据飞轮"训练方法,在多项测试中表现出色,游戏水平达到人类的60%左右,在某些电脑操作测试中甚至超越了知名AI产品,展现了AI从对话工具向真正智能助手演进的巨大潜力。