微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 当AI说印地语、泰卢固语和泰米尔语,它听起来像个外国人吗?Praxel Ventures的新评测工具揭开了语音合成系统的"口音面纱"

当AI说印地语、泰卢固语和泰米尔语,它听起来像个外国人吗?Praxel Ventures的新评测工具揭开了语音合成系统的"口音面纱"

2026-05-07 11:35
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-07 11:35 科技行者

这项由Praxel Ventures独立完成的研究发表于2026年4月,以预印本形式发布于arXiv平台,编号为arXiv:2604.25476v1,研究方向属于语音信号处理与计算语言学交叉领域,感兴趣的读者可通过该编号查询完整论文。

你有没有遇到过这样的情况:一个外国人说中文,每个字都发音准确,每个词也都用对了,但听起来就是不像中国人说话?那种说不清楚的"外国腔",其实是一个非常具体、可以被拆解的问题。语音合成技术(也就是让机器说话的AI)在印度语言上,正面临着完全相同的困境。

现代语音合成系统在印度语上的表现,颇像一位刻苦备考的外国留学生——他能背出所有单词,在考试(也就是错误率测试)中得高分,但一开口说话,印度当地人就能听出来"不对劲"。研究团队发现,目前用来衡量语音合成质量的主流指标,比如词错误率(衡量机器说了多少错误词)和自然度评分(衡量声音是否悦耳),根本无法捕捉这种"外国腔"问题。一个系统可以在这些指标上拿满分,但说出来的印地语、泰卢固语或泰米尔语,依然带着明显的非母语口音。

正是为了解决这个盲区,这项研究提出了一套名为PSP(Phoneme Substitution Profile,音素替换档案)的全新评测框架。这套框架的核心思路,是把"口音"这件事拆解成几个具体的、可以单独测量的维度,就像体检报告一样——不是给你一个笼统的"健康/不健康"结论,而是分别告诉你血压多少、血糖多少、心率多少,让你知道哪里出了问题、问题有多严重。

一、为什么测"口音"这么难,以及为什么印度语言特别棘手

要理解这套工具的价值,首先得明白印度语言在发音上有多特殊。印度的主要语言,包括印地语、泰卢固语和泰米尔语,都有一类在汉语或英语中几乎不存在的发音特征,叫做"卷舌音"。卷舌音是指发音时舌头向后卷,触碰到口腔上方靠后的位置。在印度语言里,卷舌音和非卷舌音是完全不同的音,就像汉语里的"b"和"p"一样,换错了意思就变了。

除了卷舌音,印度语言还有送气音(发音时伴随一口气)与不送气音的区分,类似汉语的"波"和"坡";有长元音和短元音的区分,同一个元音拖长还是不拖长,意思可能完全不同;泰米尔语还有一个独特的音,叫做"zha音"(类似卷舌近似音),这个音在其他语言里几乎找不到对应。

问题在于,非母语的语音合成系统(尤其是以英语为核心训练的商业系统)面对这些发音特征时,往往会悄悄"偷懒"——把卷舌音发成非卷舌音,把送气音发成不送气音,把长元音发成短元音。这种替换在发音上只有细微差别,ASR(语音识别系统)在做转写时往往认不出来,所以词错误率显示"很好",但母语者一听就觉得"不对"。

研究团队把这个问题比作一道质检难题:现有的质检工具只能检查"包装上写的字对不对",却检测不出"里面的味道正不正"。PSP就是那个专门测味道的工具。

二、PSP如何把"口音"拆成六个可以测量的维度

PSP框架的核心,是把"口音准不准"这件模糊的事情,拆成六个具体的检测项目,每项各司其职,共同构成一份完整的"口音体检报告"。

第一个维度叫做卷舌音折叠率(RR)。这个指标测量的是:当文本里出现需要发卷舌音的位置时,机器合成的声音有多少比例"偷懒"发成了非卷舌音。卷舌音包括卷舌塞音、卷舌鼻音、卷舌边音等,对应的"偷懒版"是把舌头放平直接发的齿音或边音。这个指标直接反映了机器在印度语言最核心发音特征上的表现。

第二个维度叫做送气音保真度(AF)。这个指标主要针对印地语——因为印地语里送气与不送气的区分非常丰富,而泰米尔语根本没有音位层面的送气对立(送气不送气不改变意思),泰卢固语的送气音也相对稀少。这个指标测量机器在发"带气流的爆破音"时是否准确区分了送气和不送气版本。

第三个维度叫做元音长度保真度(LF)。印度语言里,同一个元音拖长发和短发是截然不同的音。这个指标通过比较机器合成音频里长元音和短元音的时长比例,与母语者的自然比例之间的差距,来衡量机器是否正确区分了长短元音。

第四个维度叫做泰米尔zha音保真度(ZF),这是专门针对泰米尔语独有的那个卷舌近似音设计的指标。这个音极难模仿,甚至很多非泰米尔语背景的印度人也发不准。指标测量的是这个特殊音发对的比例。

前四个维度都是针对具体音素的"显微镜式"检测,而第五和第六个维度则是"全景式"的分布测量。

第五个维度叫做弗雷歇音频距离(FAD)。这个指标借鉴了图像生成领域评估AI生成图像质量的方法。具体来说,研究团队先收集了大量真实母语者的录音,提取这些录音的"声学特征向量"(可以理解成每段音频的"声学DNA"),然后计算机器合成音频的声学特征分布与母语者分布之间的距离。距离越小,说明合成音在整体声学风格上越接近真实母语者,不仅仅是发音准确,连带着音色、共振特征、音素频率分布都更像。

第六个维度叫做韵律签名散度(PSD)。韵律是指说话的节奏、音调变化、语速等"说话的方式",而不是说了什么内容。这个指标通过五个韵律特征——音调范围、平均音高、语速、音节间隔变异系数(nPVI,衡量说话节奏是否有弹性)和平均音节时长——来衡量机器说话的"韵律风格"与母语者之间的距离。这个指标能捕捉到那种"说得对但听起来很机械、很平淡"的问题。

这六个维度共同构成了一份可解读的口音档案,每一项都指向不同的问题来源,让开发者能够精准定位、有针对性地改进。

三、这套工具是怎么工作的——技术原理的通俗解释

PSP的工作方式,可以用一个"比对母语原版"的思路来理解。

研究团队首先做了大量准备工作:他们从现有的印度语言语音数据库中,挑选了经过确认的母语者录音,每种语言各500段,覆盖至少20位不同的母语者(印地语覆盖40位以上),确保"参考标准"不是某一个人的口音,而是母语发音的整体面貌。然后,他们用一个叫做Wav2Vec2-XLS-R的预训练神经网络模型,把这些录音转换成高维数值向量(可以理解成把每段声音的特征编码成一串数字),再取平均值,得到每个目标音素的"母语发音中心点"。

评测一个新系统时,工具会先用强制对齐技术(一种把文本中每个字对应到音频中具体时间段的方法)定位目标音素的位置,提取该位置的声学特征向量,然后计算这个向量与"母语发音中心点"的相似度,以及与"非母语替代发音中心点"的相似度,两者相比较就得出了这个音素位置上的保真度得分。

整个评测流程是自动化的,不需要人工听音评分,也不需要针对目标语言有高质量的语音识别系统。这一点很关键,因为印度语言的语音识别准确率本身就不高,如果用语音识别来判断发音对不对,错误会叠加在一起,反而不准确。PSP直接测量声学特征,绕开了这个问题。

研究团队还做了一件重要的校准工作:把母语者的录音本身也送进PSP评测,看看得分是多少。理想状态下,母语者的发音应该得到满分。结果发现,印地语的母语者录音在卷舌音和送气音两个指标上确实得到了满分,但泰卢固语和泰米尔语的母语者录音却显示出43%到86%的"虚假折叠率"——也就是说,工具把母语者自己的发音也标记成"发音不准"了。这并不是母语者发音真的有问题,而是泰卢固语和泰米尔语的强制对齐工具本身精度不够高,导致音素定位出现偏差。

这个发现让研究团队得出了一个重要的使用建议:FAD和PSD这两个全局性指标在三种语言上都可以作为绝对数值来比较;而卷舌音、送气音等逐音素指标,在印地语上可以直接比较绝对值,在泰卢固语和泰米尔语上只能用来比较不同系统之间的相对排名,不能作为绝对准确率来读。

四、测试了哪些系统,结果怎么样

研究团队测试了四个主要的语音合成系统,分别是商业系统ElevenLabs v3、Cartesia Sonic-3、Sarvam Bulbul,以及开源系统Indic Parler-TTS,同时还测试了他们自己正在开发中的Praxy Voice系统的多个版本。

印地语的测试结果可以说是一个"大家都过关"的故事。四个商业和开源系统在卷舌音和送气音两个指标上全部表现接近满分,22个卷舌音位置和18个送气音位置的折叠率均为零或接近零。这与印度TTS社区的共识相符:现代印地语语音合成在音素层面基本已经达到母语者水准。

但是,即便在这个"大家都过关"的印地语测试中,FAD指标还是揭示出了有意义的差异。Sarvam Bulbul的FAD得分最低(211.8),意味着其整体声学分布最接近母语者;ElevenLabs排第二(227.5);Indic Parler-TTS排第三(248.4);Cartesia排最后(267.4)。关键在于,ElevenLabs在印地语词错误率方面在先前行业测试中排名第一,Cartesia排第二,但在FAD上的排名恰好相反。这种"词错误率领先但分布距离更远"的现象,正是PSP框架想要揭示的核心:单凭词错误率,你看不出谁的声音更"像印地语"。

泰卢固语的测试结果就惨烈多了。所有系统的卷舌音折叠率都在33%到50%之间——意味着本应发卷舌音的位置,有三到五成被发成了非卷舌音。Sarvam和Indic Parler-TTS并列最低折叠率(33%),Cartesia最高(50%),ElevenLabs和Praxy Voice两个版本都在40%。

泰卢固语测试中还出现了一个格外有趣的发现,靠韵律散度指标(PSD)揭露出来。ElevenLabs在泰卢固语上的PSD得分高达154,而Sarvam是11,Indic Parler-TTS是10。深入查看五维韵律特征向量后,研究团队发现ElevenLabs泰卢固语的音调范围比母语者窄了40%(母语者的对数音高范围是1.44,ElevenLabs只有0.87),而且节奏类型也偏离了母语者(nPVI指数92对比母语者的107)。换句话说,ElevenLabs泰卢固语说每个词都说对了,但整个说话方式平淡得像念稿子,缺少泰卢固语应有的抑扬顿挫。这个问题词错误率完全捕捉不到,只有PSD能看见。

关于Praxy Voice自己的R5和R6两个版本的对比,也提供了一个颇具说服力的案例。R5是在约85小时数据上训练到4000步的版本,R6是在约1220小时数据上训练到8000步的版本,规模扩大了约14倍。结果显示,卷舌音折叠率完全没有变化(都是40%),因为LoRA微调只调整了语言模型的词汇路径,没有更新声学解码器的权重,所以更多数据并不能让声学生成器学会区分卷舌和非卷舌的发音位置。FAD改善了34%(从534降到355),说明声学整体风格变得更像泰卢固语了。但PSD反而变差了(从14.1升到61.7),说明韵律签名反而偏离了母语者。与此同时,语义词错误率大幅改善(从0.171降到0.034,接近商业系统水准)。

一位泰卢固语母语者在听测时形容R6的输出是"发音正确但节奏像外国人说泰卢固语"——这八个字,精准概括了PSP工具在这个案例里发现的问题:音素对了,韵律没跟上。

研究团队还测试了一种叫做"声音提示恢复"的方法:在生成时,除了给机器看要合成的文字,还提供一段8到9秒的真实泰卢固语母语者录音作为参考,让机器模仿这段录音的音色和韵律风格。结果令人印象深刻。以Sarvam Bulbul的一段泰卢固语录音为参考时,Praxy R6的卷舌音折叠率从40%降到了26.7%,低于所有被测商业系统;PSD从61.7降到13.1,与Sarvam Bulbul自己的得分(11.1)几乎持平;FAD也大幅改善。词错误率基本不变。这说明,单纯提供一段参考音频,就能让系统的口音质量发生实质性的飞跃,而这种飞跃在词错误率上几乎看不出来,却在PSP的多个维度上清晰可见。

泰米尔语的测试结果是三种语言里最令人担忧的。四个系统的卷舌音折叠率都在64%到71%之间;独特的zha音折叠率更是高达86%,意味着七个zha音里只有一个被正确发音;长短元音保真度在0.13到0.30之间,说明所有系统都没有充分区分长元音和短元音。

不过,即便是在这片"惨烈"的泰米尔语测试中,不同系统之间的差异依然清晰可辨。开源系统Indic Parler-TTS在卷舌音折叠率、zha音保真度、元音长度保真度和韵律散度四个维度上都是最好的,Sarvam则在FAD(整体声学分布距离)上拿到最低分。没有任何一个系统在全部六个维度上同时领先——这正好验证了PSP框架的核心观点:口音不是一个单一的数字,不同维度揭示的是不同的问题。

五、跨语言的规律,以及这些规律意味着什么

把三种语言的数据放在一起看,出现了几个一致的规律。

卷舌音折叠率随语言难度单调递增:四个商业系统平均在印地语上约1%,泰卢固语约40%,泰米尔语约68%。这个排序与印度TTS社区的经验判断完全一致——印地语TTS已经相当成熟,泰卢固语和泰米尔语还有相当大的差距。一个自动化指标能够重现这种经验性判断,本身就是对这个指标有效性的一种验证。

Indic优先的系统(Sarvam和Indic Parler-TTS)从印地语到泰米尔语的FAD变化幅度很小,甚至略有改善;而以英语为核心的商业系统(Cartesia和ElevenLabs)从印地语到泰米尔语的FAD急剧恶化——Cartesia的FAD增长了51%,ElevenLabs的韵律散度从几十跳到两百多。核心是训练数据:Sarvam和Parler-TTS在大量印度语言数据上训练,对泰米尔语的声学特征有更好的覆盖;而以英语为核心的系统在遇到越来越"不像英语"的语言时,表现持续退化。

研究团队还发现,五个系统在泰卢固语上,按不同指标排序的名次完全不同:FAD排名中Sarvam领先,PSD排名中Indic Parler-TTS领先,词错误率上Sarvam和Cartesia并列最低,意图保留率上Praxy R6达到100%,没有任何一个系统在所有指标上同时领先。这种"没有绝对赢家"的局面,正是研究者们反复强调的要点:如果把所有指标压缩成一个综合分数,你会得到一个无意义的平均数,掩盖了不同系统各自的优势和短板。口音是多维度的,评测也应该是多维度的。

六、这套工具的局限性,研究者自己怎么说

研究团队在论文中相当坦诚地列出了这套工具的几个已知局限,这种诚实在学术研究中本身就值得肯定。

首先,当前版本的逐音素指标(卷舌音、送气音、元音长度、zha音)在泰卢固语和泰米尔语上受限于现有对齐工具的精度,只能用于系统间相对排名,不能作为绝对准确率来解读。这个问题会随着印度语言语音识别技术的整体进步而自然改善。

其次,这次v1版本的测试集只有每种语言10条句子,每个商业系统生成20条音频(用了男女各一个声音),Praxy Voice生成10条。在如此小的样本量下,5个百分点以内的差距在统计上无法区分。完整的300条测试集版本将在v2中发布。

再者,韵律散度指标的五个维度使用了不同量级的原始数值,还没有做标准化处理,这可能导致量级较大的维度(如nPVI指数,数量级在100左右)对总体散度的影响远超量级较小的维度(如对数音高,数量级在1左右)。v2将提供标准化后的版本。

还有一个尚未评测的维度:联合辅音中间插入音(conjunct epenthesis)——印度语言里多个辅音连在一起时,有时会因为发音习惯在中间插入一个短促元音,非母语系统经常漏掉或多加这个音。这个功能已经在代码框架里预留了接口,但v1版本没有实际评测。代码混用场景(比如印地语夹杂英语单词)也被留到了v2。

此外,这次v1版本的母语参考语料和测试语料都来自同一批数据集(IndicTTS和Rasa),虽然做了分割确保没有重叠,但共享了同一批录音环境和说话人群体。v2计划使用完全独立来源的语料来消除这个潜在偏差。

最后,研究团队明确表示,v1版本的验证只是内部一致性验证——也就是检查这个工具自己的逻辑是否自洽。与真实母语者主观评分(MOS)的相关性测试,需要招募至少50名母语者进行正式评听实验,计划在v2中完成,目标是PSP的卷舌音折叠率和FAD指标与人工评分的皮尔逊相关系数达到0.6以上。

说到底,这项研究做的事情很简单:它给了我们一把尺子,专门用来量那个之前无法量的东西——AI说印度语言时有多像一个外国人。这把尺子不是万能的,当前版本也有明确的适用边界,但它揭示出的那几个规律已经相当有力:同一批顶级商业系统,在印地语上几乎无懈可击,在泰卢固语上每三个卷舌音就漏掉一个,在泰米尔语上更是漏掉近七成;号称词错误率最低的系统,并不是韵律最自然的系统;能让一个系统说话变得更"像泰卢固语"的,并不是更多训练数据,而是一段9秒钟的母语者参考音频。这些发现对于任何想在印度市场做语音产品的团队来说,都是非常实际的信息。

对完整细节感兴趣的读者,可以通过arXiv编号arXiv:2604.25476v1获取原论文,相关评测代码和母语参考数据也已经在github.com/praxelhq/psp-eval和HuggingFace的Praxel/psp-native-centroids仓库下公开发布。

---

Q&A

Q1:PSP评测框架和词错误率(WER)有什么区别,为什么WER不够用?

A:词错误率测的是机器说没说对每个词,但它不管发音方式对不对。PSP框架专门测那些词错误率看不见的问题——比如卷舌音有没有发到位、节奏是否像母语者说话。一个系统可以词错误率接近零,但每个卷舌音都发错,听起来就像外国人说印度语,WER完全检测不到这个问题,PSP则能精确定位是哪个发音维度出了问题。

Q2:PSP评测框架目前支持哪些语言,准确度有多高?

A:目前PSP支持印地语、泰卢固语和泰米尔语三种语言。准确度因语言而异:印地语的逐音素指标(比如卷舌音保真度)可以作为绝对数值直接比较;泰卢固语和泰米尔语受限于现有对齐工具的精度,逐音素指标只适合用于不同系统之间的相对排名;全局分布指标(FAD和PSD)在三种语言上都可以作为绝对数值来解读。

Q3:提供一段参考音频真的能明显改善语音合成的口音质量吗?

A:根据PSP评测结果,效果相当显著。在泰卢固语测试中,给Praxy Voice R6提供一段约9秒的Sarvam母语者录音作为参考后,卷舌音折叠率从40%降到26.7%,低于所有被测商业系统;韵律散度从61.7降到13.1,与Sarvam自己的得分基本持平。词错误率几乎没有变化,但口音质量的多个维度都大幅改善,母语者听感也明显更自然。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-