
这项由印度理工学院马德拉斯分校、AI4Bharat研究机构与Josh Talks公司联合开展的研究,以预印本形式于2026年4月23日发布在arXiv平台,论文编号为arXiv:2604.21481,当前正处于INTERSPEECH 2026的审稿阶段。
印度是一个用声音说话的国家。不是比喻——是字面意思。相当大比例的印度网民更愿意通过语音而非打字来使用手机应用、搜索信息、接受教育或进行医疗咨询。加上印度拥有数百种语言、极普遍的双语甚至多语现象,人们在日常交流中频繁地把两种语言混搭在一起说——比如说着说着印地语突然蹦出一个英语单词,或者把英语词汇用印地语的方式拼写出来——这种现象被称为"代码混用"。这一切都催生了一个巨大的需求:印度需要真正听起来自然、听得懂、讲得准的语音合成系统。
然而,评价一个语音合成系统到底好不好,比评价一篇文章或一张图片要难得多。声音是多维度的,它同时包含发音是否清晰、情感是否自然、语调是否抑扬顿挫、背景是否干净无杂音等多个层面,而每个人对这些层面的感受又不尽相同。更复杂的是,印度有十几种主要语言,每种语言的母语者对"好听"的感受标准也有差异。
正是为了系统解决这个问题,来自印度理工学院马德拉斯分校、AI4Bharat与Josh Talks的研究团队设计了一套大规模、多维度、有严格控制的人工评测框架,对目前最先进的七款语音合成系统进行了全面比较。他们收集了横跨十种印度语言的五千多个句子,招募了超过一千九百名来自全印度的母语人士,累计完成了超过十二万次两两对比评测,同时还从六个感知维度收集了精细的主观评分。最终,他们不仅给出了一份榜单,还深入分析了"人们为什么更喜欢某个系统"这个问题。
---
一、为什么现有的评测方法不够用
在语音合成领域,最传统的评分方式叫做MOS,也就是让听众给一段语音打1到5分的"平均意见分"。这种方式就像让不同的人给同一道菜打分——有人觉得偏淡是缺点,有人觉得清淡就是好,最终的平均分未必能真正反映这道菜的水准。研究者们早就发现,MOS评分受个体口味差异影响极大,同一段语音在不同的评测批次中可能得到截然不同的分数,换句话说,你用MOS比较两个系统,得到的结论可能并不稳定。
更大的问题在于,MOS评分只给出一个总体分数,但它背后隐藏的信息却是多维度的。一段语音可能发音非常清晰,但情感表达很机械;另一段可能听起来很有感情,却时不时跳过或多念了某个词。这两种情况的总体分数可能相差无几,但它们的问题截然不同。仅凭一个数字,你无法知道该系统哪里需要改进。
相比之下,"成对比较"的评测方式就像让人直接在两道菜之间做选择:"你更喜欢这个还是那个?"这种方式消除了个人绝对打分标准的差异,只需要人们做出相对判断,结果往往更稳定、更可靠。通过一种叫做"布拉德利-特里模型"的数学工具(可以把它理解为一种像体育排名积分一样的算法),可以把大量成对比较的结果转化为一份科学可靠的排行榜。
这项研究的核心创新,就是在这个成对比较的框架上,额外增加了六个精细维度的评分,让听众不仅告诉研究者"我更喜欢A",还告诉他们"我在哪些具体方面更喜欢A"。这就像一个美食评审不仅给出总体评分,还分别评价味道、摆盘、食材新鲜度、口感和分量。
---
二、测试题库:五千多个专门设计的"刁钻句子"
要公平地评测语音合成系统,首先需要一套好的测试题目。这个道理就像考驾照需要各种路况的考题——光考直线行驶不够,还得考倒车入库、雨天行驶、紧急制动。研究团队为此专门构建了一个包含五千三百五十七个句子的测试集,横跨孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、泰米尔语、泰卢固语和乌尔都语这十种印度语言,同时覆盖十六个与日常生活密切相关的领域,包括政务、医疗、教育、商业、旅行、叙事等。
这些句子并非随机收集,而是经过精心设计,以涵盖真实世界中语音合成系统最容易"翻车"的场景。一类是"符号类"句子,包含数字、公式、缩写等符号,测试系统能否正确地把"?1,200"念成"一千两百卢比",或者把"CO?"念成"二氧化碳"。另一类是"规范化类"句子,同样的内容已经被预先展开成文字,测试系统的基础发音能力。最考验人的是"代码混用类"句子,这类句子在印度语言的句子中穿插了英语单词、用印度文字拼写的英语词汇,或者混用了两种书写系统——这正是印度人日常对话的真实面貌。
此外,研究团队还专门加入了绕口令、极端重复词汇、大量专业术语密集的STEM内容,以及来自RASA测试集的一百个富有情感表现力的语句,专门用于测试情绪和韵律。所有句子都经过内部母语专家的严格审核,确保语言准确、流畅、领域术语无误。
---
三、招募评审:超过一千九百名来自全印度的真实听众
有了好的测试题,还需要靠谱的评审。这项研究在评审招募环节同样下了大功夫,建立了一套三阶段筛选和培训机制。
候选评审首先要完成一道听力筛选题:在一段明显有噪声的低质量录音和一段干净清晰的录音之间,找出哪个更好。这一步是为了确保评审具备基本的听力辨别能力。通过第一关的候选人进入第二关,他们需要在听完两段录音后,用本研究设定的六个感知维度来解释自己的判断理由,以验证他们能够理解并运用这些维度做出有意义的评价。通过两轮筛选的评审才会接受正式培训,学习评测指南、平台使用方法和质量要求,然后才能正式参与评测。所有参与者都签署了知情同意书,整个研究方案经过了内部伦理审查,评审按照行业标准获得了合理报酬。
最终参与的一千九百一十五名评审中,女性占比略高于男性(约一千一百四十八名女性对七百六十七名男性),年龄主要集中在十八岁到四十岁之间,来自印度的二十二个邦,提供了真实多元的地域和语言背景。
---
四、评测流程:先整体判断,再精细剖析
为了避免一个常见的心理陷阱——人们在做判断时往往会受到自己已知信息的反向影响,事后给自己的总体判断找理由——研究团队设计了一个严格的两步走流程,两步之间有不可逆的"锁定机制"。
第一步,评审看到文字内容和两段匿名随机排序的音频(标注为"系统A"和"系统B")。在听完两段音频后,必须先给出整体判断:A更好、B更好、两个都好,或者两个都差。这个判断一旦提交就无法修改,系统会立刻锁定。
第二步,在整体判断被锁定后,界面才会显示六个精细维度的评分界面,让评审对同一对音频从六个角度分别做出判断。这样设计的好处是:整体判断反映的是评审未经干扰的第一直觉,而精细评分则作为独立的诊断信息,两者互不干扰。每位评审随机分配一百五十个句子进行评测。
这六个精细评分维度分别是:发音清晰度(发音是否准确、清晰,包括代码混用词汇);表现力(韵律、语调和情感表达是否得当);音色质量(声音是否自然、是否有人声的质感);生动性(语速和节奏是否有活力、是否单调乏味);幻觉程度(是否忠实于文字内容,有没有漏读或多读);以及噪声程度(背景是否干净,有没有杂音、嗡嗡声或静电声)。
---
五、七款顶级系统同台竞技,结果一目了然
参与评测的七款系统涵盖了目前市场上最具代表性的语音合成产品,包括谷歌的Gemini 2.5 Pro TTS、OpenAI的GPT-4o-mini TTS、ElevenLabs V3、Sonic 3、Speech 2.8 HD、专门针对印度语言优化的Bulbul V3 Beta,以及开源系统Indic F5。
为了确保比较公平,所有系统都使用完全相同的文字输入,不施加任何风格控制指令,每个系统使用官方推荐的默认声音配置,在非流式模式下生成音频。当某个系统提供了多个声音选项时,研究团队在跨系统对比时特别注意声音性别的匹配,避免因为"一个是女声一个是男声"而产生干扰性的偏好。
最终的排行榜结果相当清晰。Gemini 2.5 Pro TTS以一千一百二十八点五三的布拉德利-特里分数名列第一,胜率高达百分之七十,并在十种语言中的九种语言中排名第一。在马拉地语这一门语言中,它与ElevenLabs V3的表现几乎不分伯仲。ElevenLabs V3(一千零五十六点二八分)和Sonic 3(一千零五十点八三分)并列第二,两者的分数差异在统计上不显著,可以视为同一梯队。Bulbul V3 Beta(一千零二十一点九一分)排名第四,Speech 2.8 HD(九百九十三点九四分)排名第五,GPT-4o-mini TTS(九百四十二点七六分)排名第六。开源系统Indic F5(八百零五点七五分)排在最后,尽管它参与了全部十种语言、超过四万两千次的比较,胜率仅有百分之十九,与其他商业系统之间存在显著差距。
值得关注的是,研究团队对每个分数都用统计方法计算了置信区间,绝大多数相邻名次之间的分数差距都超出了各自的置信区间,意味着这份排名是统计上可靠的,不是偶然波动。
---
六、深挖细节:不同语言、不同领域、不同输入类型下,排名会变吗
一份好的评测不只是给出总排名,还需要回答:这个排名在各种不同情境下是否稳定?
从语言角度看,Gemini 2.5 Pro TTS在几乎所有语言中都保持领先,但ElevenLabs V3、Sonic 3和Bulbul V3 Beta三者之间的排名在不同语言中有一些移动,差距也相对较小,说明这三个系统各有所长,在某些语言上可能互有胜负。
从领域角度看,研究团队把所有句子分成十六个领域:公告、商业、指令、对话、客户服务、表现力语句、政务与法律、人文、长篇叙事、医疗、中性STEM文学、STEM符号、压力测试、绕口令和旅游。Gemini 2.5 Pro TTS在全部十六个领域中都排名第一,展现了极强的一致性。在压力测试类别中,Speech 2.8 HD意外拿下第一,在绕口令类别中则有多个系统并列。这说明,对于大多数使用场景,领域差异不会撼动总体排名,但对于某些特殊场景,不同系统有其各自的擅长之处。
从输入类型角度看,研究团队分别对"规范化句子"(数字已展开为文字)、"符号句子"(保留原始数字和符号)和"代码混用句子"三种类型单独计算了排名。结果显示,整体排名变化不大,Gemini 2.5 Pro TTS在三种条件下均保持第一。不过可以观察到,Bulbul V3 Beta在符号类输入中的表现相对提升,表明它在处理数字和公式方面有相对优势。Indic F5在规范化输入中的分数(八百四十九点七五)明显高于符号类输入(七百八十五点四二),说明原始符号文本对这个系统的影响更大。
---
七、是什么让听众更喜欢一个声音:SHAP分析告诉我们答案
这项研究最有学术价值的部分之一,是试图回答一个更深层的问题:当听众说"我更喜欢这个系统"的时候,他们的脑海中究竟在权衡什么因素?
研究团队把这个问题变成了一个机器学习问题。对于每一次成对比较,他们构建了一个特征向量,记录系统A在六个维度上是否分别优于系统B,然后训练了一个XGBoost分类器(一种高效的机器学习算法),让它学会根据这六个维度的对比结果来预测整体偏好。这个模型在留出的测试语言(孟加拉语、卡纳达语、马拉雅拉姆语、马拉地语和乌尔都语)上达到了百分之八十六点一的准确率,在各语言上的表现也相当一致(从百分之八十三点六到百分之九十一点零)。这个结果说明,听众在跨语言场景中使用的是稳定且可迁移的评价标准,而不是因语言不同而改变评判逻辑。
接下来,研究团队使用SHAP值分析(一种解释机器学习模型决策依据的工具)来搞清楚每个维度对整体偏好的贡献大小。结果非常明确:表现力的贡献最大(SHAP值为1.01),其次是发音清晰度(0.62),再次是生动性(0.60)和音色质量(0.43)。而幻觉程度(0.17)和噪声(0.10)的贡献则明显偏低。
这里需要解释一个可能让人困惑的地方:噪声和幻觉对听众来说当然很重要——没有人喜欢听一段满是杂音、或者莫名其妙漏读了词语的语音。但是,在这项研究评测的七个系统中,绝大多数都已经把噪声和幻觉控制在了一个较低的水平。正因为大家在这两个维度上差距不大,这两个维度就没有太多区分度,自然对预测整体偏好的贡献就变小了。换句话说,这个结果告诉我们:当一个系统已经基本做到"没有明显缺陷"之后,听众最在乎的就是它说话是否有感情、是否听得清楚、是否有活力而不单调。这对未来开发语音合成系统的方向有着明确的指导意义。
---
八、多少评审、多少句子才够用:一个关于效率的实验
做大规模人工评测需要花费大量人力和资金,所以一个非常实际的问题是:到底需要多少评审、多少句子,排行榜才算可靠?这项研究对此进行了系统性的分析。
研究团队用斯皮尔曼等级相关系数(一种衡量两份排名是否一致的统计指标,满分为1.0)来衡量排名的稳定性,并以等级相关系数达到零点九五作为"可靠"的门槛。
在评审人数方面,研究团队模拟了从少量到全量评审的情况,分别对比较三个系统、五个系统、七个系统这三种规模进行了分析。结果显示,评比五个系统时,大约需要两百名评审才能稳定达到零点九五的相关系数;评比七个系统时,只需约一百名评审就够了——系统数量越多,可供比较的信息量越大,反而更容易收敛到稳定排名。在两百名评审这个规模上,置信区间均值宽度约为十七点三六,评比三个系统时约需六十名评审即可。这说明,排名的稳定性在中等规模时就已经基本可靠,但如果想让每个系统的精确分数估计足够精确,还需要更多数据。
在句子数量方面,固定两百名评审,随机增减句子数量,同样测量排名稳定性。结果显示,评比三个系统时大约五百个句子就够了,而评比五个或七个系统时,需要约一千个句子才能稳定达到零点九五的门槛。超过这个数量之后,继续增加句子主要能缩小置信区间(让分数估计更精确),但对排名顺序本身的贡献已经非常有限。这个发现对未来设计类似评测有很强的实践指导价值:先确保句子覆盖够广,在此基础上再控制评审数量,是更高效的做法。
---
归根结底,这项研究做了一件看似朴素却相当扎实的事:拒绝用一个数字概括一个复杂系统的表现,而是设计了一套有科学依据、有精细维度、有规模保证的评测框架,让我们能更清晰地看到不同语音合成系统在印度语言上的真实能力全貌。
从实际结果来看,以Gemini 2.5 Pro TTS为代表的顶级商业系统已经在整体表现上遥遥领先,而开源系统Indic F5与商业系统之间仍然存在显著差距——这对于希望在印度语言上推动普惠式语音技术的研究者来说,是一个值得认真对待的信号。
更重要的是,这项研究揭示了一个关键洞察:在当前水平下,听众已经默认系统不会有刺耳的噪音或漏读词语,他们真正在乎的是这个声音有没有感情、说话是不是清楚、整体听起来是不是有活力。这意味着,下一代印度语言语音合成系统的竞争,将在"表现力"和"清晰度"这两个维度上见真章。
如果你对这项研究的完整细节感兴趣,可以在arXiv平台通过论文编号arXiv:2604.21481找到完整论文,基准测试集和评测数据也将作为研究成果的一部分公开发布。
---
Q&A
Q1:布拉德利-特里模型在语音合成评测中是怎么工作的?
A:布拉德利-特里模型是一种通过大量两两对比结果来给所有参赛者计算综合能力分数的统计工具,原理类似体育赛事的积分排名。在语音合成评测中,每次评审听两段音频后选出更好的那个,模型就把这个偏好信息积累起来,用数学方式推算出每个系统的潜在能力分数。系统赢得越多对比、赢得的对手越强,得分就越高。研究团队还通过反复抽样重算来估计每个分数的误差范围,只有当两个系统的误差范围完全不重叠时,才认定两者存在真正的差异。
Q2:代码混用对语音合成系统的评分有什么影响?
A:从这项研究的数据来看,代码混用输入对各系统的排名影响整体上不大,Gemini 2.5 Pro TTS在代码混用条件下依然排名第一。不过,各系统在代码混用与规范化输入之间的分数确实存在一定波动,比如Indic F5在规范化输入下的分数明显高于符号类输入,说明部分系统对混合文本的处理能力相对较弱。总体而言,代码混用是对系统处理真实印度日常语言能力的一个重要考验。
Q3:语音合成系统评测需要多少评审才够可靠?
A:根据这项研究的分析,当评比五个系统时,大约需要两百名母语评审就能让排名结果稳定可靠(斯皮尔曼相关系数达到0.95);评比七个系统时,甚至只需约一百名评审就能达到同样的稳定性。同时,评测句子数量也很重要,评比五到七个系统时大约需要一千个句子。在此基础上继续增加评审或句子,主要能让每个系统的分数估计更精确,但对排名顺序本身影响已经很有限。
好文章,需要你的鼓励
本文介绍了弗莱堡大学等机构提出的3D-SC框架,通过引入三维基础模型的几何先验,无需人工标注即可解决AI图像匹配中的左右混淆和重复部件分不清的问题。
这项来自诺基亚贝尔实验室与巴黎理工学院的研究提出了In-Writing框架,让大语言模型先自由推理、再套用格式约束,准确率最高提升27%。
KAIST与MIT研究发现,RLHF对齐训练存在"对齐篡改"漏洞:当AI生成的偏见回答与高质量回答相关联时,对齐流程会反向放大偏见,现有缓解方法均未能有效解决这一结构性缺陷。
这项研究提出Skill0.5框架,通过区分通用技能(内化进参数)和特定技能(动态外置使用),配合难度感知路由和反走捷径机制,显著提升AI智能体在未见新任务上的泛化表现。