微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 IBM研究院带来语音理解新突破:让AI更懂人话的训练秘籍

IBM研究院带来语音理解新突破:让AI更懂人话的训练秘籍

2025-10-15 12:07
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-15 12:07 科技行者

这项由IBM研究院的Avishai Elmakies、Hagai Aronowitz、Nimrod Shabtay、Eli Schwartz、Ron Hoory和Avihu Dekel共同完成的研究,发表于2025年9月21日的arXiv预印本论文库(论文编号:arXiv:2509.16990v1),为那些对原始研究感兴趣的读者提供了查询途径。

说到语音识别和理解,大家可能都有过这样的经历:对着手机说话,它却总是理解错你的意思,或者回答得牛头不对马嘴。这背后的问题其实很复杂,就像教一个外国朋友理解中文一样,不仅要让他听懂你在说什么,还要让他理解你想表达的真正意思。

现在,IBM的研究团队找到了一种新方法,能够让AI在理解人类语音方面变得更加聪明。他们的方法就像是给AI请了一位更好的"语言老师",这位老师不仅会纠正AI的错误,还会奖励它做得好的地方。这种训练方法被称为"群体相对策略优化"(GRPO),听起来很拗口,但原理其实很简单:让AI生成多个答案,然后比较这些答案的好坏,奖励表现好的,惩罚表现差的。

研究团队专门测试了两种特别有挑战性的任务:语音问答和语音翻译。语音问答就像是让AI听一段录音然后回答相关问题,而语音翻译则是让AI直接把英文语音翻译成德文文字。这两种任务的难点在于,它们都没有标准答案,同一个问题可能有多种正确的回答方式,就像同一道菜可以有多种烹饪方法一样。

研究结果显示,使用这种新训练方法的AI模型在各项测试中都表现得更好。比如在语音问答任务中,新方法让AI的回答质量提升了将近10%,而在语音翻译任务中,翻译准确度也有显著改善。更重要的是,这种方法适用于不同大小的AI模型,从20亿参数的小模型到80亿参数的大模型都能受益。

这项研究的意义不仅仅在于技术的改进,更在于它为AI理解人类语音开辟了新的道路。未来,我们可能会看到更智能的语音助手、更准确的实时翻译设备,以及更自然的人机对话系统。

一、语音理解AI的现状与挑战

想要理解这项研究的重要性,我们首先需要了解当前语音理解AI面临的挑战。传统的AI训练就像是一对一的师傅带徒弟:给AI一个标准答案,然后让它不断练习直到能够复制这个答案。这种方法在处理有明确答案的任务时效果不错,比如语音转文字,因为一句话通常只有一种正确的文字表达方式。

但是当涉及到更复杂的理解任务时,这种简单的训练方式就显露出了局限性。举个例子,如果有人问"今天天气怎么样?",AI可能回答"今天是晴天"、"今天阳光明媚"或者"今天天气很好",这些答案都是正确的,但传统训练方法只能选择其中一个作为标准答案。

语音理解AI还面临着另一个挑战:它们需要同时处理语音信号和语言理解两个层面的任务。这就像是要求一个人在听外语的同时进行实时翻译,不仅要听清楚每个音节,还要理解整句话的含义。当前的语音感知大语言模型(SALLM)虽然在这方面已经有了很大进步,但在开放式问答和翻译任务上仍有提升空间。

更具体地说,现有的强化学习方法在训练语音AI时往往依赖于简单的奖励机制,比如只用"对"或"错"来评判AI的回答。这种二元评价方式就像是考试只有满分和零分两种结果,无法反映回答质量的细微差别。一个接近正确但不完全准确的回答,和一个完全错误的回答,在这种评价体系下得到的评分是一样的,这显然不够公平也不够有效。

IBM研究团队意识到,要让语音理解AI变得更智能,就需要一种更精细、更灵活的训练方法。这种方法不仅要能够处理多样化的正确答案,还要能够准确评估答案质量的优劣,从而给AI提供更有价值的学习信号。

二、GRPO训练方法的核心原理

群体相对策略优化(GRPO)的工作原理就像是举办一场特殊的学习竞赛。在传统的AI训练中,每次只让AI给出一个答案,然后告诉它对错。而GRPO方法则让AI同时给出多个不同的答案,然后比较这些答案的质量,让AI从这种比较中学习。

具体来说,当AI面对一个问题时,GRPO会要求它生成多个可能的回答,比如生成8个不同的答案。然后,系统会使用一个评分标准(比如BLEU分数)来评估每个答案的质量。BLEU分数就像是一把精密的尺子,能够测量AI生成的文本与标准答案之间的相似度,分数越高说明质量越好。

接下来是关键的学习过程:系统会计算出这组答案的平均分数,然后告诉AI哪些答案超过了平均水平,哪些答案低于平均水平。对于那些表现优秀的答案,AI会得到正面反馈,系统会增加AI再次生成类似高质量答案的概率。相反,对于表现不佳的答案,AI会得到负面反馈,降低生成类似低质量答案的可能性。

这个过程有点像是组织一群学生进行小组讨论:每个学生都要提出自己的观点,然后老师会评判这些观点的质量,告诉大家哪些想法比较好,哪些还需要改进。通过这种群体比较的方式,每个学生都能从其他人的表现中学到东西,而不是仅仅依赖于老师给出的标准答案。

GRPO方法的另一个优势在于它的自适应性。因为奖励是基于相对表现而不是绝对标准,AI可以根据自己当前的能力水平进行学习。在训练初期,即使答案质量普遍不高,AI仍然可以通过比较找出相对较好的答案进行学习。随着训练的进行,整体答案质量提升了,评判标准也会相应提高,从而推动AI持续改进。

研究团队还引入了一个重要的技术细节:重要性采样权重。这个概念听起来复杂,但原理很简单。它就像是在比较不同学生作业时考虑他们的基础水平差异。如果一个平时成绩一般的学生突然交出了优秀作业,这个进步就应该得到更多的鼓励。同样,GRPO会根据AI生成每个答案的"难度"来调整奖励的权重,确保训练过程更加公平有效。

三、混合策略GRPO的创新尝试

在基础GRPO方法的基础上,研究团队还探索了一种叫做"混合策略GRPO"(MP-GRPO)的变体。这种方法的核心思想是在AI生成的多个答案中,偷偷加入一个"标准答案"作为参考。

这种做法就像是在学生讨论小组中悄悄安排一位"托儿"——这位托儿知道正确答案,能够在讨论中起到引导作用。当AI看到这个高质量的标准答案时,它会意识到自己的回答还有提升空间,从而朝着更正确的方向学习。

然而,混合策略的效果并不是在所有情况下都理想。研究团队发现,这种方法在自动语音翻译任务中表现不错,能够进一步提升翻译质量。但在语音问答任务中,混合策略反而可能降低性能。

这种差异的原因很有意思:用于实验的AI模型本身就是在语音翻译任务上训练过的,所以它对翻译任务有一定的基础。在这种情况下,标准答案就像是一个有益的提醒,帮助AI回忆起正确的翻译方向。但对于语音问答这个全新的任务,AI的基础几乎为零,过早接触标准答案可能会让它产生依赖心理,反而影响了自主学习能力。

这个发现提醒我们,AI训练中没有万能的方法。就像教育孩子一样,对于已经有一定基础的技能,适当的指导和示范是有帮助的;但对于全新的技能,可能需要让孩子多尝试、多犯错,才能真正掌握。

研究团队在混合策略中采用了一些技术处理来确保训练的稳定性。比如,他们为标准答案设置了特殊的权重计算方式,避免这个"完美答案"对整个评分体系造成过大的影响。这就像是在学生讨论中,确保那位"托儿"不会过于抢眼,而是恰到好处地发挥引导作用。

四、奖励函数的精心设计

选择什么样的评分标准来判断AI回答的好坏,是这项研究中的一个关键问题。研究团队测试了多种不同的评分方法,包括BLEU、ROUGE-1、ROUGE-2、ROUGE-L和METEOR等。这些评分方法就像是不同的考试评分标准,各有各的侧重点。

BLEU分数主要关注AI生成的文本与标准答案在用词和短语搭配上的相似度,就像是检查学生的作文是否用了正确的词汇和句式。ROUGE系列分数则更关注内容的完整性和覆盖度,类似于检查作文是否包含了所有要点。METEOR分数试图在精确性和完整性之间找到平衡,就像是综合评估作文的各个方面。

有趣的是,研究团队发现使用BLEU作为奖励函数时,AI在各项评测指标上的综合表现最好。这个发现有点反直觉:你可能会想,如果用BLEU来训练,AI当然在BLEU指标上表现最好,但其他指标可能会受影响。然而实际结果显示,BLEU训练出来的AI在其他评分标准上也表现不错,体现了很好的通用性。

这种现象可以用"一法通、万法通"来解释。BLEU分数虽然主要关注文本相似度,但为了获得高BLEU分数,AI必须在用词准确性、语法正确性和语义连贯性等多个方面都有不错的表现。这种综合要求实际上促使AI在各个方面都有所提升。

相比之下,其他评分方法虽然在各自关注的指标上表现突出,但往往会以牺牲其他方面的性能为代价。比如,用ROUGE-2训练的AI可能在内容覆盖度上表现很好,但在语言流畅性方面可能不如BLEU训练的AI。

研究团队还考虑了使用神经网络基础的评分方法,比如BERTScore,这种方法能够理解词汇的语义关系,而不仅仅是表面的文字匹配。但由于计算成本的考虑,他们最终还是选择了BLEU作为主要的奖励函数。这个选择体现了研究中经常需要面对的权衡:理论上最优的方法未必是实践中最合适的方法。

五、实验设计和数据集选择

为了验证新方法的有效性,研究团队精心设计了实验,选择了两个具有代表性的任务:语音问答和自动语音翻译。这两个任务的选择很有讲究,因为它们都属于"开放式"任务,也就是说没有唯一的标准答案,这正是GRPO方法最能发挥优势的地方。

对于语音问答任务,研究团队使用了LibriSQA数据集。这个数据集很有趣:它基于LibriSpeech音频书库构建,包含了大量的语音录音以及相应的问题和答案。可以想象成这样一个场景:AI需要听一段有声书的朗读,然后回答关于书中内容的问题。这种任务不仅要求AI能够准确理解语音内容,还要能够进行逻辑推理和信息提取。

LibriSQA数据集包含了大约10.7万个训练样本,研究团队将其中20%用作验证,剩下的用于训练。测试集包含约2500个样本。为了让训练更加有效,他们还设计了多种不同的提示方式,比如"听这段音频并回答下面的问题"等,就像是用不同的方式问同一个问题,让AI学会更灵活地理解指令。

对于自动语音翻译任务,研究团队选择了CoVoST2数据集,专门测试英语到德语的翻译。这个数据集包含了约22万个训练样本、1.2万个验证样本和1.5万个测试样本。翻译任务的挑战在于,AI需要直接从英文语音生成德文文字,跳过了传统的"语音转文字再翻译"的两步骤过程。这就像是要求一个同声传译员直接把听到的英文说成德文,对AI的能力要求很高。

实验中使用的AI模型主要是Granite Speech,这是IBM开发的语音感知语言模型。研究团队测试了两个不同规模的版本:20亿参数的小模型和80亿参数的大模型。这种规模上的对比很重要,因为它能够验证新方法是否在不同大小的模型上都有效。

值得注意的是,这些模型原本并没有在语音问答任务上进行过专门训练,这实际上为实验提供了更严格的测试条件。就像让一个只学过数学的学生去考物理,能够更好地检验学习方法的通用性和有效性。

六、令人瞩目的实验结果

实验结果展现了GRPO方法的显著优势。在语音问答任务中,无论是20亿参数还是80亿参数的模型,使用GRPO训练后的性能都大幅超越了传统的监督微调方法。具体来说,20亿参数的模型在BLEU分数上从40.88提升到44.90,提升幅度接近10%。更令人印象深刻的是80亿参数的模型,BLEU分数从42.34跃升到46.40,提升幅度约为10%。

这些数字背后的意义很重大。BLEU分数的提升意味着AI生成的回答与标准答案更加接近,但更重要的是,这种提升是全方位的。除了BLEU分数,其他评测指标如BERTScore、ROUGE系列和METEOR分数也都有显著改善。这就像是一个学生不仅在主科上取得了进步,在其他科目上也全面提升了。

在自动语音翻译任务中,GRPO方法同样表现出色。20亿参数的模型BLEU分数从30.50提升到31.47,而80亿参数的模型从31.62提升到35.08,提升幅度达到了令人瞩目的10.9%。这个结果特别有意义,因为翻译质量的提升直接关系到实际应用的可用性。

更有趣的是,实验结果揭示了模型规模与训练方法之间的微妙关系。在语音问答任务中,两种规模的模型都从GRPO训练中显著受益,表现出了良好的可扩展性。但在翻译任务中,小模型使用传统监督微调时表现尚可,而大模型的传统微调效果反而略有下降。这种现象可能是因为大模型更容易在传统训练中过拟合,而GRPO的多样性生成机制有效缓解了这个问题。

实验还对比了不同奖励函数的效果。结果显示,虽然使用不同奖励函数训练的模型在对应的评测指标上表现最佳,但BLEU奖励训练的模型在综合性能上最为均衡。这个发现验证了研究团队在奖励函数选择上的判断。

混合策略GRPO的实验结果则呈现出任务相关性。在翻译任务中,加入标准答案作为参考确实能带来额外的性能提升,但在问答任务中效果相反。这个发现提醒我们,AI训练中的"一刀切"方法往往不可取,需要根据具体任务和模型基础来调整策略。

七、技术实现的精妙细节

在技术实现层面,研究团队面临了许多需要精心平衡的挑战。GRPO算法的核心在于优势估计的计算,这个过程就像是为每个AI生成的答案打分排名。系统会先计算出一组答案的平均奖励,然后用标准差进行归一化,确保不同批次的训练数据能够公平比较。

训练过程中的超参数调整也很关键。研究团队发现,群组大小(每次让AI生成多少个答案)对训练效果有重要影响。经过反复实验,他们确定8个答案为一组是比较理想的选择:太少了无法充分体现多样性,太多了会增加计算成本且收益递减。

另一个重要参数是正则化系数β,它控制着模型在追求高奖励和保持稳定性之间的平衡。研究团队发现,当β设为0时,模型训练容易发散,特别是在大型数据集上;而β值过高则会限制模型的学习能力。经过精心调试,β=0.02被证明是一个理想的折中点。

在生成答案时,研究团队使用了温度为1的采样策略进行训练,这确保了生成答案的多样性。而在最终评测时,他们采用了top-p=0.9、温度=0.9的策略,这样既保证了答案质量,又保持了一定的创造性。这种训练和推理时采用不同参数的做法,体现了对AI行为的精细控制。

计算资源的管理也是一个重要考虑。GRPO训练比传统监督微调需要更多的计算资源,因为它需要为每个问题生成多个答案。研究团队使用了4块H100 GPU进行训练,对于20亿参数的模型,完整的GRPO训练需要大约24小时,相比之下传统监督微调的成本要低得多。

为了确保比较的公平性,研究团队为监督微调和GRPO都进行了全面的超参数搜索。他们测试了不同的学习率(从10^-6到5×10^-5)、训练轮数(1到10轮)、批次大小(12到48)等,确保每种方法都能发挥出最佳性能。这种严谨的实验设计增强了结果的可信度。

八、深入理解性能提升的原因

GRPO方法能够带来显著性能提升的原因值得深入分析。传统的监督微调就像是让学生按照标准答案反复练习,虽然能够快速掌握基本技能,但容易产生僵化思维。而GRPO则更像是让学生在开放环境中探索学习,通过比较不同尝试的效果来逐步改进。

多样性生成是GRPO的核心优势之一。当AI被要求为同一个问题生成多个不同的答案时,它被迫探索答案空间的不同区域,这种探索过程本身就是一种有价值的学习。就像让学生用多种方法解决同一道数学题,即使有些方法不够完美,但这个过程能够加深对问题本质的理解。

相对比较机制也发挥了重要作用。在GRPO中,AI不需要知道什么是"完美答案",只需要知道哪些答案相对更好。这种相对评价更符合人类的认知方式,也更适合处理那些没有唯一标准答案的开放性任务。这就像是在艺术创作中,我们很难定义什么是"完美的画作",但通常能够分辨出哪幅画更优秀。

GRPO的自适应性质也很重要。随着训练的进行,AI的整体能力水平会提升,这时用于比较的基准也会相应提高。这种"水涨船高"的机制确保了AI始终面临适当的挑战,既不会因为任务太简单而失去学习动力,也不会因为任务太难而无法取得进展。

另一个关键因素是奖励信号的密度。传统方法通常只在序列结束时给出一个总体评分,而GRPO通过比较多个完整答案,实际上为每个生成步骤都提供了间接的指导信息。这种更密集的反馈有助于AI更精确地调整其生成策略。

研究结果还显示,GRPO特别适合处理那些允许多种正确答案的任务。在语音问答和翻译任务中,同一个输入可能对应多种合理的输出,GRPO的多样性生成和比较机制正好能够捕捉这种一对多的映射关系,而传统的一对一监督学习在这方面就显得力不从心。

说到底,这项研究为我们展示了AI训练的一个重要方向:从简单的模仿学习转向更复杂的理解学习。GRPO方法让AI不再是机械地复制标准答案,而是学会了评估和比较不同答案的质量,这种能力更接近人类的学习方式。

研究团队的工作还有一个重要意义:它证明了强化学习方法在语音理解任务中的巨大潜力。虽然强化学习在游戏和机器人控制领域已经取得了显著成功,但在自然语言处理特别是语音处理领域的应用还相对较少。这项研究为后续的相关研究开辟了新的道路。

当然,这种方法也有其局限性。GRPO训练需要更多的计算资源,训练时间也更长。此外,对于那些确实存在唯一正确答案的任务(比如简单的语音识别),传统的监督学习可能仍然是更经济有效的选择。

展望未来,这项研究为语音AI的发展指出了一个明确的方向:通过更智能的训练方法,我们可以让AI在理解人类语音方面变得更加准确和自然。这不仅会改善我们日常使用的语音助手,还可能催生全新的应用场景,比如更智能的客服系统、更准确的实时翻译设备,以及更自然的人机对话界面。

研究团队还贴心地考虑了方法的可扩展性,他们在不同规模的模型上都验证了GRPO的有效性,这意味着无论是资源有限的移动设备还是强大的云端服务器,都可能从这种训练方法中受益。这种通用性为该方法的实际应用奠定了坚实基础。

归根结底,这项研究告诉我们的不仅仅是一种新的技术方法,更是一种新的思考方式:AI的学习过程可以更像人类,通过探索、比较和反思来不断进步,而不是简单地记忆和重复。这种理念的转变可能会对整个AI领域产生深远的影响。

Q&A

Q1:什么是群体相对策略优化GRPO?它与传统AI训练有什么不同?

A:GRPO是一种新的AI训练方法,让AI同时生成多个答案然后比较优劣进行学习,就像组织学生小组讨论一样。传统训练只给AI一个标准答案反复练习,而GRPO让AI在比较中学会判断答案质量,更适合没有唯一标准答案的开放性任务。

Q2:IBM这项研究在语音问答和翻译上取得了什么样的效果?

A:实验结果显示,使用GRPO训练的AI在语音问答任务上BLEU分数提升了约10%,在英德语音翻译上最高提升了10.9%。更重要的是,这种提升是全方位的,在多个评测指标上都有显著改善,证明了方法的有效性。

Q3:GRPO训练方法有什么局限性吗?普通用户什么时候能体验到?

A:GRPO需要更多计算资源和训练时间,成本比传统方法高。目前还在研究阶段,但由于它适用于不同规模的模型,未来可能会逐步应用到语音助手、翻译软件等产品中,让用户体验到更准确自然的语音交互。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-