微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 德黑兰大学首次揭秘:波斯语音频理解的真实挑战有多大?

德黑兰大学首次揭秘:波斯语音频理解的真实挑战有多大?

2026-03-30 10:31
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-03-30 10:31 科技行者

这项由德黑兰大学电气与计算机工程学院和基础科学研究院联合进行的研究,发表于2026年的Interspeech会议。有兴趣深入了解的读者可以通过arXiv:2603.14456v1查询完整论文。

想象一下,你正在和一位伊朗朋友聊天,他突然开始朗诵一首优美的波斯古诗。你虽然听不懂具体内容,但能感受到其中的韵律和节拍。然而,当你把这首诗转换成文字时,那种节奏感完全消失了。这恰恰说明了一个重要问题:纯粹的文字无法完全捕捉语言中的丰富信息。

这正是德黑兰大学研究团队关注的核心问题。他们发现,目前的人工智能语音理解技术虽然在英语等主流语言上表现出色,但在处理波斯语这样具有独特文化背景的语言时,却面临着前所未有的挑战。波斯语不仅仅是一种语言,它承载着深厚的文化传统:古典诗歌的韵律、传统音乐的调式系统,以及现代生活中波斯语与英语频繁混用的现象。

研究团队意识到,现有的音频语言模型评测基准几乎都以英语和西方文化为中心,完全忽略了波斯语这样的低资源语言所面临的独特挑战。这就像用西餐的标准去评判中餐的好坏一样不合理。为了填补这个空白,他们开发了PARSA-Bench——首个专门针对波斯语音频理解的综合性评测基准。

一、波斯语音频理解的独特挑战

要理解这项研究的重要性,我们首先需要了解波斯语所面临的特殊挑战。波斯语是超过一亿人使用的语言,但它在人工智能领域一直处于被忽视的地位。

波斯语的第一个独特之处在于其古典诗歌传统。波斯古诗有着严格的韵律模式,被称为"vazn"。这种韵律就像音乐的节拍一样,完全依赖于语音的抑扬顿挫来体现。关键的问题是,波斯语的书写系统不标注短元音,这意味着仅仅从文字是无法判断诗歌韵律的。就好比你拿到一份只有骨架没有血肉的乐谱,根本无法演奏出真正的音乐。只有通过实际的朗诵,那些省略的短元音才会显现出来,韵律的美感才能完整呈现。

第二个挑战来自波斯传统音乐。波斯音乐采用一种叫做"Dastgah"的调式系统,这套体系与西方音乐理论完全不同。这就像是用中国的五音体系去理解西方的七音阶一样,需要完全不同的听觉训练和文化背景。现有的音频理解模型主要在西方音乐数据上训练,对这种东方调式系统几乎一无所知。

第三个现实挑战是代码转换现象。在现代伊朗,特别是在城市和受过教育的群体中,人们经常在波斯语对话中混入英语词汇和表达。这种语言混用现象在技术讨论、学术交流和日常对话中都很常见。这给语音理解带来了额外的复杂性,因为模型需要同时处理两种语言的切换,并理解这种切换的语用意义。

二、PARSA-Bench:全面的评测体系

面对这些挑战,研究团队构建了一个前所未有的评测基准。PARSA-Bench包含16个不同的任务,总共超过8000个音频样本,覆盖了波斯语音频理解的三个核心维度。

第一个维度是语音理解,包含了10个任务共5000个样本。这个维度测试的是模型对波斯语基本语音内容的理解能力。自动语音识别任务使用了来自Common Voice和ParsVoice的高质量波斯语语音数据,确保涵盖不同说话者的人口统计特征和声学条件。双向语音翻译任务(波斯语到英语,英语到波斯语)使用CoVoST2数据集,测试模型的跨语言理解能力。

更有趣的是那些专门为波斯语设计的全新任务。意图检测和命名实体识别任务利用了多语言MASSIVE数据集的波斯语部分,但由于原始数据只有文本,研究团队使用了最先进的波斯语文本转语音技术来生成音频。正式/非正式语域检测任务特别有意思,因为波斯语在不同社交场合有着明显不同的表达方式,这种差异不仅体现在词汇选择上,更体现在语调和韵律上。

代码转换检测任务结合了自然发生的语言混用样本和YouTube视频中的真实对话。这些视频特别有价值,因为它们捕捉了波斯语使用者在讨论技术话题时自然混入英语术语的现象。阅读理解任务包括基于Wikipedia文章的问题回答和基于简短故事的理解测试,后者特别设计来避免可能存在于模型预训练数据中的内容重叠。

第二个维度是副语言分析,包含3个任务共1500个样本。这个维度测试模型从语音信号中推断说话者特征的能力。年龄识别和性别识别任务使用Common Voice中的自报人口统计信息,确保各个类别的平衡覆盖。情感识别任务使用SHEMO数据库,这是一个包含专业表演的波斯语情感语音数据集,覆盖六种基本情感类别。

第三个维度是波斯文化音频理解,这是整个评测体系中最具创新性的部分。诗歌韵律检测任务选择了Ganjoor数字图书馆中最常见的十种vazn类别,每种约50个平衡样本。这个任务的随机基线F1分数只有0.10,说明其难度极高。诗歌风格分类任务考虑了四种经典的波斯诗歌风格:Ghazal(抒情诗)、Qasideh(颂诗)、Qat'eh(片断诗)、Masnavi(叙事诗)、Ruba'i(四行诗)和Dobeyti(民歌体),随机基线准确率为0.25。

音乐理解任务基于波斯音乐数据集,测试对Dastgah调式系统的理解。这个任务包含三种问题类型:Dastgah分类(识别Shur、Homayoun、Segah、Chahargah等主要调式)、乐器识别(tar、setar、santur、ney、kamancheh等传统乐器)以及节拍检测(慢、中、快三个大致类别)。

三、八大模型的较量

研究团队选择了八个最先进的大型音频语言模型进行评测,这些模型都支持波斯语文本生成。开源模型包括阿里巴巴的Qwen2.5-Omni和Qwen3-Omni系列(3B、7B、30B参数),以及Google的Gemma-3n系列(2B、4B参数)。专有模型包括OpenAI的GPT-4o和GPT-4o-mini,以及Google的Gemini-2.5-Flash。

评测采用零样本音频作为主要配置,即模型在没有任何波斯语音频示例的情况下直接处理任务。研究团队还进行了少样本、思维链推理、以及文本基线等额外实验。文本基线特别重要,它让模型接收转录文本而非音频输入,从而分离出音频处理失败和语言理解失败。

所有提示都使用英语,这基于先前研究表明多语言模型在英语指令下表现更好,无论目标语言是什么。温度设置为零以确保结果可重现。

值得注意的是GPT-4o-audio的一个实际问题:它经常拒绝处理音频问题,回应"我无法听取音频"之类的免责声明。这种行为可能源于安全或指令调优,抑制了某些情境下的音频处理。对于受影响的样本,研究团队将拒绝记录为错误回应。

四、令人意外的发现

评测结果揭示了几个出乎意料的发现。首先,出现了明显的难度层次:模型在词汇内容丰富的语音理解任务上表现最好(阅读理解、代码转换检测),在语用分类任务上表现中等(正式/非正式语域),在文化相关的音频任务上表现最差。

在开源模型中,Qwen3-Omni-30B是整体表现最强的,在波斯语自动语音识别上达到了接近最先进的性能,在大多数语音理解任务上都表现领先。专有模型,特别是Gemini-2.5-Flash,在翻译和意图检测上表现出色。然而,令人惊讶的是,专有模型在文化音频任务上并没有优势:所有模型在波斯诗歌韵律检测上都接近随机水平,无论规模大小或是否为闭源训练。

最关键的发现是音频-文本性能差距的存在。研究团队比较了零样本音频性能和纯文本性能,发现这个差距因任务而异。阅读理解和代码转换检测显示出较小的差距,表明词汇内容在很大程度上决定了答案,音频增加的开销很少。命名实体识别和波斯语到英语翻译显示出最大的差距,揭示了精确转录波斯语命名实体和从音频进行流畅跨语言渲染是主要的失败模式。

有趣的是,诗歌风格分类是唯一一个音频性能超过纯文本性能的任务,证实了朗诵中的韵律和声音特征携带了纯文本无法捕捉的真正风格区分信号。

五、副语言分析的表现层次

三个副语言任务揭示了明确的难度层次。性别识别基本上已经解决:Qwen模型无论规模大小都达到了接近完美的分数,只有Gemma-E2B例外,它崩溃到随机水平,暗示在非常小的模型规模下存在急剧的能力阈值。

情感识别部分得到解决。最佳模型在这个六类任务上达到了有意义的性能,超过了随机基线,但所有模型都远未达到天花板,表明波斯语语音中的细粒度情感感知仍然是一个开放问题。

年龄识别实际上未解决:每个模型,无论规模或训练方式如何,都接近随机基线得分。这并不令人意外——仅从声音估计年龄即使对人类也很困难,人类通常依赖视觉线索和情境熟悉性而非声学特征。

六、文化理解的根本挑战

波斯文化音频理解任务暴露了当前模型的一个质的不同的失败模式。诗歌韵律检测是整个基准中最具挑战性的任务。所有模型都接近随机水平,最佳F1宏平均刚刚超过十类分类问题的随机基线。

Vazn检测需要感知波斯诗歌现场朗诵中的细微韵律和韵律模式——这项任务需要对语言本身的深入理解。由于短元音不写在标准文本中,这些信息无法从纯文本预训练中推断,而且目前模型的训练语料中似乎不存在大量的波斯韵律音频数据集。

诗歌风格分类要容易得多。Qwen模型达到了强大的零样本准确率,受益于其预训练语料中可能出现的波斯文学风格(ghazal、masnavi、qasideh)的文本知识。相比之下,Gemma模型在这个四类任务上接近随机基线。值得注意的是,诗歌风格是整个基准中唯一音频性能超过纯文本性能的任务——声音朗诵风格携带了转录文本中真正缺失的判别信号。

波斯音乐理解在所有模型中表现中等,没有任何模型显著优于其他模型。这个任务汇集了Dastgah分类、乐器识别和节拍检测,代表了对波斯古典音乐传统的基础音频推理。结果表明,当前的模型对这个音乐框架只有有限的理解,这在很大程度上在西方音乐语料库之外是不存在的。

七、提示策略的微妙影响

研究团队对Qwen3-Omni-30B进行了详细的提示策略分析,发现了三个有趣的模式。首先,思维链提示持续地有益于复杂的提取任务,如命名实体识别和意图检测,但对更简单的二元或结构性任务(代码转换、正式/非正式语域)有害,在这些任务中推理轨迹引入噪声而非清晰度。

其次,少样本提示通常会降低性能——可能因为音频演示样本在计算上昂贵且可能引入格式混淆,其负面影响超过了样本的好处。第三,纯文本条件几乎总是性能天花板,确认音频处理——而非语言能力——是PARSA-Bench中的主要瓶颈。

八、模型规模的复杂关系

规模本身并不是性能的可靠预测器。虽然Qwen3-Omni-30B是最强的单一模型,但其优势远非统一。在Qwen系列内部,性能随着参数数量从3B增加到30B而在所有三个维度上持续提升。

然而,这种模式在不同架构间并不成立:Gemma-E4B(4B参数)在文化音频任务上匹配或超过Qwen2.5-Omni-7B,尽管参数大约只有一半,并且在波斯语到英语翻译上表现更好。对于严重依赖清晰波斯音频转录的任务,编码器质量似乎比解码器规模更重要。

相反,在文化相关和语用任务上,Qwen系列受益于更广泛的多语言预训练,可能包括波斯文本语料库——这是Gemma系列内部规模无法复制的优势。值得注意的是,Gemma-E2B在副语言任务上崩溃,暗示在非常小的模型规模下存在急剧的能力阈值。

九、语音理解的细致表现

在自动语音识别方面,Qwen3-Omni-30B达到了最强的波斯语ASR性能,证明大规模多语言预训练可以有效地转移到波斯转录。较小的模型大幅下降,Gemma模型达到的词错率比最佳模型高一个数量级以上,暗示在7B参数规模左右存在可靠波斯ASR的急剧能力阈值。

语音翻译揭示了方向之间的不对称性:英语到波斯语翻译在各模型中持续优于波斯语到英语,反映了当前语料库中英语目标训练数据的更大丰富性。一个意想不到的发现是,尽管参数大约只有一半,Gemma-E4B在波斯语到英语翻译上优于Qwen2.5-Omni-7B,暗示这个方向的架构或数据优势并不能推广到其他任务。

命名实体识别揭示了基准中最大的音频-文本差距。最佳模型在零样本情况下只达到适度的F1-exact分数,相比之下文本基线要强得多。各模型的F1-exact和F1-type分数之间的差距表明,模型经常正确识别实体类型和范围,但未能精确转录波斯实体值——确认NER错误是转录错误而非推理错误。

基于Wikipedia来源段落的阅读理解对顶级模型达到了非常高的准确率,与这些模型拥有广泛的世界知识预训练一致。基于TinyStories的任务更加受控和诊断性,因为段落内容在构造上是新颖的。一旦转录可行,较小的模型在TinyStories上表现出竞争力,表明基于段落的理解主要受音频解码质量而非模型规模的限制。

十、研究的深远意义

这项研究的意义远超技术层面的评测结果。它首次系统性地揭示了当前人工智能在处理非西方文化音频内容时的根本局限性。研究结果表明,简单地扩大模型规模或改进通用音频处理能力并不足以解决文化特定的挑战。

对于波斯诗歌韵律检测这样的任务,所有模型无论大小都接近随机表现,这表明需要根本性的方法改进。这包括开发专门的波斯韵律音频语料库、构建能够访问文化相关音乐和文学知识的检索增强系统、训练专门针对波斯语语音的音频编码器,而不是依赖为其他语言预优化的模型。

研究团队特别强调了一个重要发现:诗歌风格分类是唯一音频性能超过纯文本的任务,这证实了声音朗诵确实携带着文本转录中完全缺失的风格判别信息。这个发现对于理解口语文化传统的价值具有重要意义,也为未来开发更好的文化感知音频模型指明了方向。

PARSA-Bench的发布为这一研究议程提供了评估基础,它不仅是一个测试工具,更是推动整个领域关注低资源语言和文化多样性的催化剂。研究团队希望这项工作能够激发更多针对其他具有丰富口语传统的低资源语言的类似研究。

说到底,这项研究提醒我们,真正的人工智能不应该是西方中心的。当我们谈论构建能够理解人类语言的机器时,我们必须确保这些机器能够理解全人类的语言——不仅仅是文字表面的意思,更要理解其中承载的文化内涵、历史传统和美学价值。波斯语只是一个开始,还有无数种语言等待着人工智能去真正理解和尊重。这项研究为我们打开了一扇窗,让我们看到了通往更加包容和文化敏感的人工智能的道路。

Q&A

Q1:PARSA-Bench是什么,为什么需要专门为波斯语创建这个评测基准?

A:PARSA-Bench是首个专门评测大型音频语言模型在波斯语理解能力的综合基准,包含16个任务超过8000个样本。之所以需要专门创建,是因为现有评测基准都以英语为中心,完全忽略了波斯语的独特挑战:诗歌韵律只能通过音频感知、传统音乐采用不同于西方的调式系统、现代对话中频繁的语言混用现象。这些文化特色无法用翻译英语测试来评估。

Q2:为什么所有AI模型在波斯诗歌韵律检测上都表现很差?

A:这是因为波斯诗歌韵律依赖于音频中的短元音和韵律模式,而这些信息在波斯语文字中是省略的。AI模型的训练数据主要是文本,缺乏足够的波斯语韵律音频数据。就像让一个只看过乐谱骨架的人去识别完整音乐一样困难。即使是最大的模型也只能达到接近随机的表现,说明这需要专门的文化和韵律理解训练。

Q3:这项研究对普通人有什么实际意义?

A:这项研究揭示了当前AI技术的文化盲点,对普通人意味着几个方面:首先,如果你使用波斯语相关的AI应用,现在知道了它们的局限性在哪里;其次,这提醒我们AI发展不应该只关注英语等主流语言,需要保护和发展各种文化的数字化表达;最后,这为波斯语使用者未来获得更好的AI服务奠定了基础,同时也为其他小语种的类似研究提供了参考。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-