微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 ServiceNow推出音频大模型评估神器:AI语音助手测评从此不再头疼

ServiceNow推出音频大模型评估神器:AI语音助手测评从此不再头疼

2025-09-25 14:40
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-25 14:40 科技行者

这项由ServiceNow公司联合德克萨斯大学奥斯汀分校的研究团队开发的创新成果,发表于2025年9月的arXiv预印本平台,论文标题为"AU-HARNESS: AN OPEN-SOURCE TOOLKIT FOR HOLISTIC EVALUATION OF AUDIO-LLMS"。感兴趣的读者可以通过GitHub仓库https://github.com/ServiceNow/AU-Harness或项目主页https://au-harness.github.io获取完整的工具包和技术文档。

当我们日常使用Siri、小爱同学或者ChatGPT的语音功能时,可能很少想过一个问题:这些AI语音助手的能力到底有多强?它们能准确理解我们的话吗?能像人类一样进行复杂的推理吗?答案听起来简单,但要真正测试出来却比登天还难。

就像给汽车做安全测试需要专业的测试场地和设备一样,评估AI语音助手的能力也需要专门的"考场"和"考题"。然而,现有的测试工具就像是用自行车的测试方法来检验跑车——不仅效率低得惊人,测试范围也狭窄得可怜。研究团队发现了三个让人头疼的问题:首先,现有工具的运行速度慢得像蜗牛爬行,处理大量音频样本时经常卡顿;其次,不同工具使用的测试标准五花八门,就像用不同的尺子量同一件衣服,结果自然没法比较;最后,这些工具测试的内容过于单一,就像只考数学不考语文的考试,无法全面反映AI的真实能力。

为了解决这些痛点,ServiceNow的研究团队开发了一个名为AU-Harness的全新评估框架。这个工具就像是为AI语音助手量身定制的"全能体检中心",不仅检查速度提升了127%,还能同时对多个AI模型进行全方位的能力测试。更重要的是,它首次引入了两个全新的测试类别:一个是检验AI能否准确理解"谁在什么时候说了什么"的时间感知能力,另一个是测试AI能否像人类一样进行复杂的语音推理。

这项研究不仅提供了一个强大的测试工具,更揭示了当前AI语音助手存在的显著能力差距。通过对380多项测试任务的全面评估,研究团队发现现有的AI模型在时间理解和复杂推理方面还有很大改进空间。这个发现对普通用户来说意味着什么呢?简单来说,我们日常使用的AI语音助手虽然在基础对话方面表现不错,但在需要精确时间感知或复杂思维推理的场景下,可能还无法完全替代人类的判断和理解能力。

一、效率革命:让测试不再是煎熬

要理解AU-Harness的效率提升有多么显著,我们可以用一个简单的比喻来说明。假如你是一家餐厅的老板,需要评估20位厨师的烹饪技能。传统的测试方法就像让每位厨师单独做菜,然后逐一品尝评分,整个过程可能需要一整天时间。而AU-Harness就像是设计了一个高效的流水线厨房,让多位厨师同时烹饪,多位评委并行品尝,整个测试时间缩短到几小时内完成。

在技术层面,这种效率提升来自于三个关键创新。首先是"令牌池管理系统",这就像是餐厅的订单管理系统一样。在传统方法中,每个AI模型都要排队等待单独处理,就像顾客必须逐一点餐一样低效。AU-Harness建立了一个统一的请求调度中心,所有模型共享一个"令牌池",当有空闲计算资源时,系统会自动分配给等待中的模型,确保计算资源得到最大化利用。

其次是"数据分片技术",这个概念类似于快递分拣中心的工作原理。传统方法就像让一个人处理所有包裹,而AU-Harness将大量音频数据智能分割成小块,分配给不同的处理节点同时处理。更巧妙的是,这种分割是"按需定制"的——计算能力强的节点会分配到更多数据,能力较弱的节点分配较少,确保所有节点能够同步完成任务,避免"木桶短板"效应。

第三个创新是与vLLM推理引擎的深度整合。vLLM就像是一台经过精密调校的跑车引擎,专门为大语言模型优化。传统工具使用的是通用引擎,就像用家用轿车的引擎来驱动赛车一样,性能自然大打折扣。AU-Harness将vLLM的批处理优化、内存管理和并行计算能力发挥到极致,实现了质的飞跃。

为了验证这种效率提升,研究团队进行了一项综合性测试。他们选择了500个音频样本,分别来自三个不同特点的数据集:MELD-Emotion包含短小的情感语音片段,LibriSpeech-clean是中等长度的朗读音频,ClothoAQA则是长篇的描述性音频。这种设计就像是测试汽车在城市道路、高速公路和山区道路上的综合表现一样全面。

测试结果令人印象深刻。在实时因子(RTF)这个关键指标上,AU-Harness达到了3.6的成绩,相比表现最好的竞争对手Kimi-Eval的7.1,实现了48.75%的大幅改进。实时因子就像是"效率倍数",数值越低表示处理速度越快。这意味着处理同样数量的音频,AU-Harness只需要竞争对手一半的时间。

在每秒处理样本数这个直观指标上,AU-Harness更是遥遥领先,达到了3.65个样本每秒的处理速度,比第二名Kimi-Eval的1.87提升了95.19%。这个提升幅度相当于将原本需要10小时完成的测试缩短到5小时内,大大降低了研究人员的等待时间和计算成本。

为了确保测试的公平性,研究团队还设计了两种极端场景的对比测试。"顺序执行"场景模拟最低效的情况,就像让所有任务排成一队逐一执行。"并行执行"场景则代表理想状态,假设所有任务能够完美并行,没有任何通信开销。在这两种场景下,AU-Harness都保持了显著的性能优势,证明其设计的稳健性和实用性。

这种效率提升对整个AI语音研究领域意味着什么呢?研究人员现在可以在相同时间内测试更多模型,或者对单个模型进行更深入的分析。这就像是从手工作坊升级到了现代化工厂,不仅生产效率大幅提升,还能承担以前无法想象的大规模项目。对于AI公司来说,这意味着可以更频繁地进行模型测试和优化,加速产品迭代周期。

二、标准化测试:让比较真正公平

评估AI语音助手的能力就像是举办一场全球性的语言能力竞赛。然而,目前的情况就像每个国家都使用自己的评分标准和考题,有的考官严格,有的宽松,有的专注词汇,有的重视语法,最终的成绩根本没有可比性。AU-Harness要解决的正是这个根本性问题。

在传统的评估工具中,每个工具都有自己的"脾气"和"偏好"。就像不同的老师对同一篇作文会给出不同分数一样,同一个AI模型在不同评估工具下的表现可能相差悬殊。研究团队发现,仅仅是提示词的微小变化,就能让AI的表现产生高达9.5分的差异。这就像是考试前临时更换题目格式,学生的成绩自然会大幅波动。

AU-Harness通过建立统一的配置管理系统来解决这个问题。这个系统就像是制定了一套国际通用的考试标准,包括题目格式、评分规则、时间限制等各个方面。每个测试任务都有标准化的系统提示词,确保所有AI模型面对的是完全相同的"考题"。

以情感识别任务为例,传统工具可能会使用"识别这段音频的情感"这样简单粗暴的提示。AU-Harness则提供了更规范的格式:"你是音频情感识别专家。请从以下选项中选择:愤怒、厌恶、恐惧、快乐、中性、悲伤、惊讶。"这种标准化不仅让测试更公平,也让结果更可靠。

更进一步,AU-Harness支持多轮对话测试,这在以往的工具中几乎是不可能的。传统工具就像只能处理单句对话的客服机器人,而AU-Harness则像是能够进行深度交流的真人助手。它能够维护对话历史,让AI在后续回答中考虑之前的对话内容,这样的测试更接近真实使用场景。

在数据筛选方面,AU-Harness提供了极其灵活的自定义过滤器。这就像是为不同的研究需求量身定制测试题库。研究人员可以根据音频长度、说话人数量、语言类型、内容复杂度等多个维度来筛选测试数据。比如,如果想专门测试AI处理短语音的能力,可以设置只选择10秒以内的音频;如果关注多人对话场景,可以筛选包含多个说话人的录音。

任务层次化管理是AU-Harness的另一个创新特色。传统工具就像是把所有考试科目混在一起打分,而AU-Harness则像是建立了完整的学科体系。它将测试任务分为六大类别:语音识别、副语言学分析、音频理解、口语理解、口语推理、安全与安全。每个类别下又有多个具体任务,形成了清晰的知识图谱。

这种分类不仅让研究人员能够针对特定能力进行深入分析,还能识别AI模型的优势和弱点。就像学生的成绩单会分别显示数学、语文、英语的分数一样,研究人员现在可以清楚地看到AI在不同语音任务上的具体表现。

评估指标的标准化同样重要。AU-Harness为不同类型的任务设计了相应的评估方法。对于有标准答案的任务,如语音识别,使用传统的错误率计算;对于主观性较强的任务,如内容总结,则采用大语言模型作为评判员的方式。这就像是为不同类型的考试设计了不同但公平的评分方法。

特别值得一提的是,AU-Harness支持多模型并发测试。这意味着研究人员可以同时让多个AI模型接受相同的测试,就像是让多名学生同时参加标准化考试一样。这种并发不仅提高了效率,更重要的是确保了测试条件的完全一致性,避免了因为测试时间差异可能带来的环境变量影响。

温度参数和最大令牌数等关键设置也都实现了标准化配置。这些技术参数就像是考试的答题时间和答题纸格式,统一设置确保每个模型都在相同条件下发挥。同时,系统还支持针对特定模型的个性化调整,在保证公平性的前提下发挥每个模型的最佳性能。

三、前所未有的全面测试

AU-Harness就像是为AI语音助手设计的"十项全能"比赛,不仅涵盖了传统的基础技能测试,还首次引入了两个全新的挑战项目。这种全面性测试就像是从原来只考数学一门课,扩展到了包括文理科、艺术、体育在内的综合素质评估。

传统的语音AI评估就像是只测试运动员的短跑速度,而忽略了耐力、协调性和战术理解等综合能力。现有工具主要关注语音识别准确率这一基础指标,就好比只看汽车的最高时速,却不测试刹车性能、燃油效率和舒适度。AU-Harness则构建了一个包含19个不同测试项目的综合评估体系。

在语音识别类别中,AU-Harness不仅测试标准的英语语音识别,还包括了代码切换语音识别(在同一段话中混合使用多种语言)和长篇语音识别。这就像是测试翻译员不仅要会翻译标准对话,还要能处理中英混杂的商务谈判和长达几小时的学术讲座。

副语言学分析测试更是涵盖了情感识别、性别识别、口音识别和说话人识别等多个维度。这相当于测试AI是否能像经验丰富的人际交往专家一样,不仅听懂话的内容,还能感知说话者的情绪状态、个人特征和身份背景。

然而,AU-Harness真正的创新在于两个前所未有的测试类别。第一个是"LLM自适应对话分离",这个名称听起来很技术性,用通俗的话来说,就是测试AI能否准确回答"谁在什么时候说了什么"这个看似简单实则复杂的问题。

在日常生活中,我们经常需要处理多人对话的场景。比如在家庭聚餐时,爸爸在讨论工作,妈妈在关心孩子的学习,孩子在分享学校趣事,三个话题交织在一起。人类能够自然地分离不同说话人的声音,理解时间顺序,甚至能复述"妈妈在爸爸说完项目进展后提到了数学成绩"这样复杂的时序关系。

传统的对话分离技术主要依靠专门的神经网络模型,输出格式通常是严格的时间戳标记,比如"说话人1: (0.0秒-3.2秒)"。这种方法虽然精确,但缺乏灵活性,无法适应大语言模型的自然语言理解方式。AU-Harness的创新在于将对话分离任务重新设计为语言模型友好的格式,让AI通过文字描述来展现时间理解能力。

具体来说,系统会给AI播放一段多人对话,然后要求它生成像"张三首先打招呼说'你好',随后李四回应'你好,最近怎么样',接着张三说'挺忙的'"这样的自然描述。这种方法更接近人类的思维方式,也更适合评估大语言模型的真实能力。

评估方法同样经过精心设计。系统使用词级对话错误率(WDER)和连接最小排列词错误率(cpWER)两个指标。前者关注说话内容和说话人身份的准确性,后者评估时间顺序的正确性。这就像是既要求翻译准确,又要求保持原文的逻辑结构。

第二个创新测试类别是"口语推理能力",这可能是AU-Harness最具突破性的贡献。传统评估工具就像只测试AI能否正确复述听到的内容,而口语推理测试则要求AI像人类一样进行复杂的思维操作。

口语推理包含三个子类别,每个都代表了不同层次的认知挑战。首先是"语音函数调用",这个测试基于知名的BFCL-v3基准进行改造。在日常生活中,我们经常需要将自然语言的需求转化为具体的行动指令。比如,当你说"帮我订一张明天下午3点到上海的机票"时,AI需要理解这句话包含的所有关键信息:时间、地点、服务类型,然后将其转化为标准化的函数调用格式。

语音函数调用测试让这个过程更加复杂,因为信息完全通过音频传达。AI不仅要准确理解语音内容,还要进行语义解析和结构化转换。这就像是让一个人在嘈杂环境中听取复杂指令,然后准确传达给执行部门一样充满挑战。

其次是"语音转编程"测试,改编自著名的Spider文本转SQL基准。这个测试要求AI将口语化的数据查询需求转换为标准的SQL查询语句。比如,当有人说"我想知道去年销量最好的产品是什么"时,AI需要理解这个需求,然后生成相应的数据库查询代码。这种能力在现实中极其有用,可以让普通用户通过自然语言与数据库系统交互。

第三个是"语音指令执行"测试,分为Speech-IFEval和Speech-MTBench两个子项。前者测试AI执行复杂、多步骤指令的能力,后者评估其在多轮对话中的推理和决策能力。这些测试模拟的是真实助手场景,比如"先帮我查一下今天的天气,如果下雨就提醒我带伞,然后安排明天的会议,但要避开午饭时间"这样复杂的连续指令。

通过380多项测试任务的全面评估,AU-Harness揭示了当前AI语音模型的真实能力图谱。测试结果显示,即使是表现最好的模型,在时间理解和复杂推理任务上仍然存在显著差距。这个发现具有重要的实践意义:它告诉我们,虽然AI语音助手在日常对话中表现不错,但在需要精确时间感知或复杂思维链条的场景下,我们仍然需要谨慎依赖。

四、测试结果揭示的真相

当研究团队用AU-Harness对三个代表性的AI语音模型进行全面测试后,结果就像是为这些"AI学生"出具了详细的成绩单。这份成绩单不仅显示了各项能力的具体分数,更重要的是揭示了当前AI语音技术发展的真实水平和未来改进方向。

参与测试的三个模型就像是不同类型的学生。Voxtral-Mini-3B是那种体积小巧但功能齐全的"优等生",Qwen2.5-Omni-7B则像是能力全面的"全科王",而GPT-4o作为知名的大模型,就像是备受期待的"学霸"。然而,测试结果显示,即使是最优秀的模型,在某些关键能力上也存在明显短板。

在基础的语音识别任务上,三个模型的表现相对稳定。Qwen2.5-Omni-7B在LibriSpeech测试集上达到了1.74%的词错误率,表现最为出色。这就像是在标准普通话朗读测试中,它几乎能准确识别98%以上的内容。相比之下,GPT-4o的表现出人意料地较为一般,6.25%的错误率提醒我们,即使是知名大模型也有自己的"偏科"现象。

然而,当测试转向更复杂的认知任务时,问题就开始显现了。在情感识别这个看似简单的任务上,三个模型的表现都不尽如人意。最好的Qwen2.5-Omni-7B也只达到了49.8%的准确率,这意味着它只能正确识别一半的情感表达。这就像是一个人际交往能力只有一半水平的助手,经常会误读用户的情绪状态。

更令人担忧的是在性别识别任务上的表现。GPT-4o因为内容过滤机制的限制,在这个任务上几乎完全无法工作,准确率接近0%。这个现象揭示了一个重要问题:为了安全考虑而设置的限制措施,有时候会严重影响AI的正常功能。这就像是为了防止学生作弊而禁止使用计算器,结果连正常的数学计算都无法完成。

在对话分离任务上,所有模型的表现都不理想。即使是表现最好的Qwen2.5-Omni-7B,词级对话错误率也高达35.40%,这意味着在处理多人对话时,AI经常会搞混"谁在什么时候说了什么"。这个问题在实际应用中会造成严重困扰,就像是一个记录员经常把不同人的话记录颠倒一样。

最让人意外的发现出现在指令模态差异的测试中。研究团队发现,当同样的指令以文字形式呈现时,AI的表现要明显优于音频形式。以语音函数调用任务为例,使用文字指令时Voxtral-Mini-3B能达到88%的准确率,但改用音频指令后,准确率下降到78.5%,差距高达9.5个百分点。

这个发现具有深远的实践意义。它表明当前的AI语音模型在处理音频信息时,相比处理文字信息存在额外的理解损失。这就像是一个人在阅读文字时理解力很强,但在听讲时理解能力就会下降。对于普通用户来说,这意味着在使用语音助手时,可能需要说得更清楚、更简单,才能获得理想的响应效果。

在复杂推理任务上,表现差异更加明显。语音转编程任务(Speech-Spider)中,即使是表现最好的GPT-4o也只达到45.15%的准确率,这意味着AI在理解复杂的数据查询需求时,失败率超过一半。这个结果提醒我们,目前的AI语音助手还远未达到能够胜任复杂知识工作的水平。

指令执行能力的测试结果同样发人深省。在Speech-IFEval任务中,GPT-4o达到了72.15%的准确率,显示出较强的指令理解能力。但Voxtral-Mini-3B只有38.06%,表明较小规模的模型在复杂指令处理上存在显著局限。这就像是不同能力水平的助手,有些能够处理复杂的多步骤任务,有些只能完成简单的单一指令。

安全性测试揭示了另一个值得关注的问题。在防范有害内容的测试中,Qwen2.5-Omni-7B达到了98.3%的安全率,表现最为出色。但在语音欺骗检测任务上,它的准确率只有30%,这意味着它很难识别合成语音或恶意伪造的音频内容。这个短板在当前深度伪造技术日益猖獗的背景下尤其令人担忧。

测试结果还显示了模型规模与能力之间的复杂关系。并不是模型越大就一定越好,在某些特定任务上,较小的专用模型可能会有更好的表现。这就像是不同专业的专家在各自领域内可能比全才表现更出色一样。

综合来看,这些测试结果描绘出了当前AI语音技术的真实图景:在基础的语音识别和简单对话任务上,现有技术已经相当成熟;但在需要复杂推理、精确时间理解或处理多模态信息的场景下,还有很大的改进空间。对于普通用户来说,这意味着AI语音助手在日常使用中是可靠的,但在复杂或关键任务中,仍需要人类的监督和验证。

说到底,AU-Harness这个工具就像是给AI语音助手技术做了一次全面体检,诊断报告既有好消息也有坏消息。好消息是基础功能已经相当不错,坏消息是距离真正的智能助手还有不少路要走。不过,正是有了这样详细准确的诊断工具,研究人员和开发者才能针对性地改进技术,让我们的AI助手变得更加聪明可靠。

研究团队还特别强调,这个工具的价值不仅在于测试现有模型,更在于为未来的技术发展提供方向指引。就像医生不仅要诊断疾病,更要指导患者如何恢复健康一样,AU-Harness不仅揭示了问题,也为解决问题提供了标准化的测试平台。对于那些想要深入了解这项研究的读者,可以访问项目的GitHub仓库获取更多技术细节和使用指南。

Q&A

Q1:AU-Harness工具包是什么?它能做什么?

A:AU-Harness是由ServiceNow公司开发的AI语音助手评估工具,就像是给AI语音助手设计的"全能体检中心"。它能同时测试多个AI模型的语音识别、情感理解、对话分离、复杂推理等19项不同能力,测试速度比现有工具提升127%。

Q2:为什么需要专门的AI语音评估工具?

A:现有的测试工具就像用自行车的测试方法来检验跑车,存在速度慢、标准不统一、测试范围窄三大问题。AU-Harness解决了这些痛点,让研究人员能够公平、快速、全面地比较不同AI语音助手的真实能力。

Q3:测试结果显示AI语音助手有哪些问题?

A:测试发现AI语音助手在基础语音识别方面表现不错,但在复杂推理和时间理解方面还有很大改进空间。比如在多人对话分离任务上错误率超过35%,在语音转编程任务上成功率不到50%,说明现有AI还无法完全替代人类进行复杂认知工作。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-