微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 浙江大学联手阿里巴巴:让AI语音助手既"聪明"又"有感情",他们是怎么做到的?

浙江大学联手阿里巴巴:让AI语音助手既"聪明"又"有感情",他们是怎么做到的?

2026-05-01 16:47
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-01 16:47 科技行者

这项由浙江大学、阿里巴巴集团通义音频团队及北京工业大学联合开展的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604.14932,有兴趣深入了解的读者可通过该编号查询完整原文。

当你和语音助手对话时,你是否曾有过这样的感受:它给出的答案要么干巴巴缺乏温度,要么语气生硬得像一台机器?或者反过来,当它尝试表现得更"有感情"时,说出来的内容却开始出错、答非所问?这个矛盾几乎是所有语音对话AI系统长期以来的痛点,也正是这篇论文试图破解的核心谜题。

研究团队把这个问题比作一道两难的烹饪难题:你想让一道菜既入味又保持食材的鲜嫩,但用大火猛炒固然入味快,却往往把食材炒老;小火慢炖虽然保鲜嫩,却又难以充分入味。过去,工程师们要么专注于让AI"说得准",要么专注于让AI"说得好听",鱼与熊掌很难兼得。这支来自顶尖高校和科技公司的联合团队,给出了一套名为WavAlign的全新烹饪方案——用动态调火的方式,在同一口锅里同时实现入味和保鲜嫩。

一、为什么"教"AI说好话这么难

在正式介绍这套方案之前,有必要先搞清楚这道烹饪难题的本质究竟在哪里。

目前主流的语音对话AI大致分为两类。一类是"级联系统",把语音识别、语言理解、语言生成、语音合成等多个环节串联起来,就像一条流水线——原料先经过一个工位处理,再传到下一个工位,最终产出成品。这种方式稳定可控,但每个环节都有信息损失,就像传话游戏,传到最后难免走样,而且各环节之间很难做到真正的协同。另一类是"端到端系统",也是这篇论文重点研究的对象,它把所有处理统一在一个模型里完成,就像一位全能厨师,从备料到摆盘全部由一双手完成。理论上这种方式有更大的潜力,可以让语义理解和声音表达紧密结合,但在实践中,目前开源的端到端系统往往表现差强人意。

研究团队发现,一个很自然的改进思路是借鉴"强化学习"技术——这是一种在游戏AI、文本大模型中大获成功的训练方法。简单说,就是让AI自己尝试、获得反馈、根据反馈调整,就像一个孩子通过不断试错来学习骑自行车。基于人类反馈或AI反馈的强化学习,已经让文字大模型变得越来越聪明,那么直接把同样的方法套用到语音对话AI上,是否就能解决问题?

答案是:没那么简单。研究团队通过大量实验发现,直接把强化学习用于端到端语音对话模型,往往陷入一个两难困境:语义质量(也就是"说得准不准"、"答得好不好")确实有所提升,但声音质量——包括语调、节奏、情感表达——却开始走形,变得不自然甚至奇怪。反之,如果专门优化声音表达,语义质量又可能受损。这就像你费尽心思调出了完美的调味汁,却发现食材在这个过程中变老了。

这个现象背后有三个互相缠绕的原因,研究团队称之为"三重困境"。

第一重困境叫做"跨模态的拉锯战"。在端到端语音模型里,文字信息和声音信息是共享同一套参数(可以理解为共享同一个大脑)的。当你试图用偏好训练来优化文字内容时,这个调整会同时影响到声音部分,而这种影响往往是破坏性的。两种目标——"说得准"和"说得好听"——就像两个人在同一张桌子上写字,互相干扰,反而都写不好。

第二重困境叫做"梯度能量严重失衡"。在计算机训练中,"梯度"是模型更新方向的量化指标,可以理解为"这次经验让模型应该朝哪个方向改进、改进多少"。研究团队测量发现,文字部分产生的梯度能量远远大于声音部分。就好比训练团队里有两个教练,一个嗓门极大、说话很清晰,另一个声音很小、说的内容模棱两可。最终模型主要听嗓门大的那个教练的,嗓门小的教练建议——也就是声音质量的改进方向——反而被淹没,甚至带来噪音。

第三重困境叫做"奖励信号的稀薄与失真"。强化学习依赖奖励信号来告诉模型"这次做得好还是不好"。对于语义内容来说,判断对错相对容易——答案要么对要么错,要么符合指令要么不符合。但对于声音质量,情况就复杂多了。"这句话说得有没有感情?"、"语调是否自然?"这些问题连人类也很难给出精确一致的评分。研究团队测量了多个主流AI评判模型(包括Gemini系列和GPT-4o-Audio)与人类评估之间的一致性,结果发现:在语义维度上,AI评判和人类评判的相关性相当高;但在声音维度上,一致性明显更低且更不稳定。换句话说,声音质量的"裁判"本身就不够可靠,而且这个不可靠的裁判还要给长达几百个声音片段的序列进行"功劳分配",最终结果自然混乱。

二、四个关键发现,构成了解题的基础

在提出解决方案之前,研究团队做了一系列精心设计的诊断实验,就像医生在开药方之前先做全面检查一样。这些实验最终形成了四个关键观察,每一个观察都直接指向了最终方案的某个设计选择。

第一个观察关注的是不同训练方式产生的"改变幅度"。研究团队用同一段对话内容,分别观察了标准监督微调(简单说就是让模型反复学习正确示例,就像让学生抄课文)和强化学习偏好优化(让模型在对比中择优,就像让学生做选择题)两种训练方式对模型输出概率的影响。结果很清楚:监督微调会在整个输出序列上造成大幅度、一致性强的概率变化,就像把整块面团均匀揉开;而强化学习由于内置的稳定性约束(防止模型改变太快),造成的变化要小得多,而且分散在局部位置。这个发现说明:如果你想让模型在某个维度上实现可靠的大幅改变,监督微调更管用;强化学习更像是在已有基础上做局部打磨。

第二个观察验证了之前关于奖励信号可靠性的担忧。研究团队让多个AI评判模型对同一批语音回答打分,同时收集人类评分,然后计算两者的相关性。他们分别计算了语义维度和声音维度的相关性,结果一目了然:语义维度上,AI评分和人类评分的皮尔逊相关系数普遍在0.6到0.76之间,相当不错;但声音维度上,相关系数普遍更低,部分评判模型甚至只有0.2到0.4。更重要的是,他们还计算了"组内斯皮尔曼相关系数"——这个指标衡量的是:对同一个问题,AI评判能否像人类一样准确区分出哪个回答的声音更好?结果同样显示语义维度远优于声音维度。这直接说明:用AI来判断声音好坏,并以此来训练模型,误差太大,容易让模型学歪。

第三个观察深入到了数学层面,揭示了为什么直接对混合文字和声音的序列做偏好优化会出问题。研究团队计算了在不同训练方式下,文字部分的梯度和声音部分的梯度之间的余弦相似度(可以理解为两个更新方向的"一致程度")。结果是:两者的余弦相似度接近零,而且方差很大。这意味着文字更新方向和声音更新方向几乎完全无关,有时甚至相互对抗。当偏好优化把一个"序列级别"的好坏判断平摊到所有声音片段上时,大量的声音片段实际上接受了无意义甚至有害的梯度信号,就像把一份针对整道菜的点评强行分摊到每一粒盐、每一滴油上,结果所有调味品都被调得乱七八糟。

第四个观察发现了不同训练阶段、不同模型的"辨别度"差异。研究团队用重复采样的方式,让同一个模型在同一个问题上生成多个回答,然后观察这些回答在语义维度和声音维度上的分散程度。他们发现:声音维度的分散程度(也就是"不同回答之间声音质量的差异")普遍低于语义维度,尤其是在较弱的基础模型上。这意味着:如果模型本身能力有限,它生成的多个回答在声音质量上都差不多,没有明显好坏之分,这时候基于这些回答的偏好学习就变得无从下手,甚至会引入噪音。

三、动态混合训练:同一口锅里的精妙调火术

基于这四个关键观察,研究团队设计出了WavAlign的核心机制——一套单阶段的动态混合训练方案。

这套方案的基本逻辑可以用烹饪来理解:对于需要大幅改变、精确塑造的食材(声音质量),用慢火炖煮(监督微调)来持续稳定地施加影响;对于需要精细调味、根据口感随时调整的部分(语义质量),用随时可以加减的调味(偏好优化)来进行精准修正;同时,还需要一个聪明的厨师,根据当下食材的状态(每一轮训练时模型生成的回答质量)来动态决定大火还是小火、多调味还是少调味。

具体来说,这套方案做了三个层面的设计。

第一个设计是"模态分离"的优化策略。研究团队决定:监督微调的损失函数覆盖所有文字和声音片段;但偏好优化(强化学习)的损失函数只作用于文字片段,声音片段被屏蔽在偏好优化的影响范围之外。这个设计直接切断了偏好优化对声音分布的干扰,让声音质量完全由监督微调来负责维护,而语义质量则接受偏好优化的精炼。两个目标各司其职,互不干涉,就像把调味和火候的控制权交给了不同的厨师。

第二个设计是动态权重门控机制。总损失函数是监督微调损失和偏好优化损失的加权组合,权重分别是(1-λ)和λ。关键在于,这个λ不是一个固定数值,而是根据每一步训练时模型生成回答的质量动态计算的。具体计算方式涉及两个"门":第一个是"方向门",检查这一轮生成的回答里有没有至少一个"还过得去"的答案——如果所有回答质量都很差,说明偏好信号不可靠,就压低λ,让监督微调多发挥作用;第二个是"信息量门",检查这一轮回答在奖励分数上的分散程度——如果所有回答奖励差不多,说明没有足够的区分信息,同样压低λ。两个门相乘,再乘以一个最大值系数(设定为0.8,这样即使条件最好,监督微调也始终保留至少20%的权重,作为声音质量的安全锚点),得到原始权重。

第三个设计是指数移动平均(EMA)平滑。由于每一步训练的随机性,原始权重会有较大的抖动,就像一个焦虑的厨师不停调温度,导致菜始终无法稳定。研究团队引入了一个平滑系数α=0.9,让当前权重等于90%的上一步权重加上10%的当前原始权重,相当于给火候控制加了一个惯性缓冲,让调整更加平稳渐进。实验表明,这个平滑操作对最终性能有相当关键的影响。

值得一提的是,整个训练流程是单阶段的——监督微调和偏好优化在同一个循环里同时进行,而不是先做完监督微调再做偏好优化的两阶段方式。研究团队也测试了两阶段方案,发现效果反而更差,这说明两种目标的协同对于最终效果至关重要。

四、在两种完全不同的AI架构上验证效果

为了证明这套方案不是针对某一种特定架构的"专属优化",研究团队在两种结构截然不同的端到端语音对话模型上进行了实验。

第一种是VITA-Audio,它的输出方式是把文字片段和声音片段交替穿插在同一个流里,就像把字母和符号混在一行输出。第二种是KimiAudio,它采用并行设计,文字流和声音流是同步但独立的两条轨道,类似于视频的画面轨和音频轨。

训练数据方面,研究团队精心准备了总计13510条音频指令样本,覆盖了多个不同的能力维度。这些数据来自多个公开数据集,包括常识问答(SciQ)、数学推理(GSM8K)、多轮对话(UltraChat)、指令遵循(Alpaca)、科学问答(ScienceQA)、安全对齐(PKUSafe)等,以及团队自行构建的情感对话、音量控制、语速控制、逻辑推理等数据。对于偏好学习,团队通过让模型对同一问题重复采样8次,再用AI评判模型打分,按效用函数选出最好和最差的一对,构建偏好对数据。

评估基准涵盖了三个维度。第一个是VoiceBench,覆盖指令遵循、安全问答、常识推理、格式控制等多个子任务,用GPT-4o-mini作为文字层面的评判模型。第二个是OpenAudioBench,专注于知识广度和推理能力,包括通用问答、专业知识、逻辑推理等,用GPT-4o作为评判。第三个是VStyle,专门评估声音表达能力,包括音调属性控制、风格指令遵循、角色扮演、情感表达四个子维度,使用Gemini-2.5-Pro对实际生成的语音进行评分。

在智能质量方面,一个有些出人意料的发现是:标准的监督微调在这个任务上表现往往不如基础模型——在VITA-Audio上,监督微调的OpenAudioBench综合得分从55.0降到了50.7,在KimiAudio上也从69.1降到了64.9。研究团队认为这是因为13500条数据覆盖了太多不同领域,产生了梯度干扰,冲淡了模型原有的推理能力,这个现象在机器学习领域被称为"对齐税"。对全部片段做偏好优化的方案同样问题明显,Full-Token DPO在VITA-Audio上的OpenAudioBench得分直接跌到了35.1,比基础模型低了近20分。而只对文字片段做偏好优化的Text-Token RL方案表现好了很多,得分回升到56.2。WavAlign的动态混合方案则在两个架构上都取得了最高的智能质量得分:VITA-Audio上57.6,KimiAudio上70.8。

在声音表达质量方面,差异同样显著。监督微调在风格控制方面表现相当不错,尤其是音调属性和风格指令,显示出密集监督对于习得精细声音行为的有效性。Full-Token DPO表现极差,在VITA-Audio上VStyle综合得分仅1.22,在KimiAudio上也只有1.70,远低于基础模型的2.55和2.56,这完全符合研究团队的预测——对声音片段施加嘈杂的偏好梯度会严重破坏声音分布。WavAlign方案则在VITA-Audio上达到2.91,在KimiAudio上达到2.90,超过所有基线方法,实现了智能质量和声音质量的同步提升。

五、逐项拆解:每个设计选择背后的数据支撑

研究团队还进行了系统的消融实验,逐一验证每个设计选择的贡献,就像厨师在品鉴时逐一去掉某种调料来判断它的作用。

关于"只对文字片段做偏好优化还是对所有片段做偏好优化"这个问题:在相同的0.5/0.5固定权重下,文字片段限制版的IQ和EQ综合得分(52.60和2.60)明显优于全片段版(48.70和2.48)。这直接验证了"模态分离"设计的价值。

关于"固定权重还是动态权重"这个问题:研究团队测试了0.5/0.5和0.7SFT/0.3RL两种固定权重方案。结果显示,偏向监督微调的方案(0.7/0.3)EQ更好(2.72),但IQ下降(49.94);偏向偏好优化的方案(0.5/0.5)IQ更好(52.60),但EQ相对差一些(2.60)。固定权重无法同时优化两个维度,而动态权重方案达到了55.24和2.92,两个指标都优于所有固定权重组合,证明了动态调整的必要性。

关于EMA平滑的作用:去掉EMA(即每步直接使用当前计算的原始权重)后,IQ从55.24降到53.15,EQ从2.92降到2.53,降幅相当明显,说明平滑操作不仅仅是锦上添花,而是稳定训练过程的关键组件。

研究团队还测试了不同EMA系数α的影响。α=0.5时,平滑不足,训练不稳定,得分55.24/2.92降至54.80/2.85。α=0.99时,过度平滑,权重调整太迟缓,错过了偏好优化的最佳窗口,得分降至50.95/2.88。α=0.9是最优选择。增大每步采样数量(从G=4增加到G=8)对IQ有进一步提升(57.19 vs 55.24),但EQ改善不明显(2.90 vs 2.92),且计算成本翻倍,性价比一般。

研究团队还专门进行了人类主观评估实验。他们从VoiceBench和VStyle各抽取20个问题,共40个测试条目,由3位独立评审人对WavAlign方案和原始基础模型的输出进行盲测对比,从"有用性"和"自然度"两个维度分别打分。结果显示,在有用性上,WavAlign获得63.8%的胜率,基础模型仅20.0%;在自然度上,胜率为66.2%对20.0%;整体胜率高达68.8%对17.5%,比例接近4:1。两个维度的统计检验p值均小于0.001,说明这个差异不是偶然的。

说到底,WavAlign解决的问题比看上去要深刻得多。它不仅仅是改进了一个语音AI的性能,更重要的是,它揭示了一个长期被忽视的问题:当你试图同时改进一个系统的两种不同能力时,如果它们共享同一套参数,就需要非常谨慎地设计优化策略,否则两个目标会互相干扰,得不偿失。研究团队用严格的实验证明了三件事:声音质量的奖励信号确实比语义质量的奖励信号更不可靠;对声音片段施加偏好优化确实会破坏声音分布;动态混合两种训练目标比任何单一目标或固定混合都更有效。

当然,这项研究也坦诚地指出了自身的局限。目前使用的是序列级别的奖励信号,如果能有更精细的片段级或帧级反馈,声音质量可能可以进一步提升。另外,用于判断声音质量的AI评判模型可靠性仍然有限,这是整个领域目前面临的共同挑战。随着这类评判模型不断改进,WavAlign框架的潜力可能还没有被完全发挥出来。

对于普通用户来说,这项研究意味着未来的语音AI助手有机会做到真正意义上的"又聪明又好听":不仅能给出准确有用的答案,还能在适当的时候用恰当的语气、节奏和情感来表达,而不是为了其中一个牺牲另一个。这距离真正自然的人机语音对话,又近了一步。有兴趣深入了解技术细节的读者,可以通过arXiv:2604.14932查阅完整论文。

Q&A

Q1:WavAlign方法和普通的强化学习训练方法有什么本质区别?

A:普通强化学习直接对语音模型输出的全部片段(包括文字和声音)进行偏好优化,导致声音部分接受噪声梯度信号,声音质量恶化。WavAlign的核心区别在于三点:偏好优化只作用于文字片段,声音部分专由监督微调负责;训练权重根据每步回答质量动态调整,而非固定比例;通过指数移动平均平滑权重变化,防止训练不稳定。这三个设计共同确保了语义和声音质量同步提升。

Q2:WavAlign在实验中选了哪两种语音对话模型做测试,为什么要选两种?

A:研究团队选择了VITA-Audio(交错流架构,文字和声音片段交替穿插输出)和KimiAudio(并行架构,文字流和声音流同步独立生成)两种结构完全不同的模型。选择两种架构的目的是验证WavAlign的通用性——如果方案只在某一种架构上有效,说明它依赖特定的架构特性;在两种不同架构上都能稳定提升,才说明这是一套真正与架构无关的通用训练方案。

Q3:WavAlign训练用的13500条数据是怎么来的,偏好数据对是怎么构建的?

A:训练数据来自多个公开数据集(如GSM8K数学推理、UltraChat多轮对话、Alpaca指令遵循等)以及团队自行构建的情感对话、音量和语速控制等数据,总计13510条。偏好数据的构建方式是:对每个问题让模型重复采样8次生成8个回答,用AI评判模型分别打出语义分和声音分,按0.5:0.5权重合并成效用分,选效用分最高的和最低的组成一对偏好数据,且只保留两者效用分差距超过0.5的数据对,以减少噪声信号的干扰。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-