微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

浙江大学联手阿里巴巴：让AI语音助手既"聪明"又"有感情"，他们是怎么做到的？

人工智能语音对话模型强化学习

浙江大学联手阿里巴巴：让AI语音助手既"聪明"又"有感情"，他们是怎么做到的？

作者：科技行者

2026-05-01 16:47

分享至：

这项由浙江大学、阿里巴巴通义音频团队和北京工业大学联合发布于2026年4月（arXiv:2604.14932）的研究，针对端到端语音对话模型同时提升语义质量和声音表达能力这一难题，提出了名为WavAlign的单阶段动态混合训练方案。该方案将偏好优化限定于文字片段，通过监督微调稳定声音质量，并根据每步训练中模型生成回答的质量动态调整两种训练目标的权重比例。在VITA-Audio和KimiAudio两种不同架构上的实验显示，WavAlign在语义理解和声音表达两个维度上均优于所有对比方法，人类盲测整体胜率接近4:1。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-01 16:47 • 科技行者

这项由浙江大学、阿里巴巴集团通义音频团队及北京工业大学联合开展的研究，以预印本形式发布于2026年4月，论文编号为arXiv:2604.14932，有兴趣深入了解的读者可通过该编号查询完整原文。

当你和语音助手对话时，你是否曾有过这样的感受：它给出的答案要么干巴巴缺乏温度，要么语气生硬得像一台机器？或者反过来，当它尝试表现得更"有感情"时，说出来的内容却开始出错、答非所问？这个矛盾几乎是所有语音对话AI系统长期以来的痛点，也正是这篇论文试图破解的核心谜题。

研究团队把这个问题比作一道两难的烹饪难题：你想让一道菜既入味又保持食材的鲜嫩，但用大火猛炒固然入味快，却往往把食材炒老；小火慢炖虽然保鲜嫩，却又难以充分入味。过去，工程师们要么专注于让AI"说得准"，要么专注于让AI"说得好听"，鱼与熊掌很难兼得。这支来自顶尖高校和科技公司的联合团队，给出了一套名为WavAlign的全新烹饪方案——用动态调火的方式，在同一口锅里同时实现入味和保鲜嫩。

一、为什么"教"AI说好话这么难

在正式介绍这套方案之前，有必要先搞清楚这道烹饪难题的本质究竟在哪里。

目前主流的语音对话AI大致分为两类。一类是"级联系统"，把语音识别、语言理解、语言生成、语音合成等多个环节串联起来，就像一条流水线——原料先经过一个工位处理，再传到下一个工位，最终产出成品。这种方式稳定可控，但每个环节都有信息损失，就像传话游戏，传到最后难免走样，而且各环节之间很难做到真正的协同。另一类是"端到端系统"，也是这篇论文重点研究的对象，它把所有处理统一在一个模型里完成，就像一位全能厨师，从备料到摆盘全部由一双手完成。理论上这种方式有更大的潜力，可以让语义理解和声音表达紧密结合，但在实践中，目前开源的端到端系统往往表现差强人意。

研究团队发现，一个很自然的改进思路是借鉴"强化学习"技术——这是一种在游戏AI、文本大模型中大获成功的训练方法。简单说，就是让AI自己尝试、获得反馈、根据反馈调整，就像一个孩子通过不断试错来学习骑自行车。基于人类反馈或AI反馈的强化学习，已经让文字大模型变得越来越聪明，那么直接把同样的方法套用到语音对话AI上，是否就能解决问题？

答案是：没那么简单。研究团队通过大量实验发现，直接把强化学习用于端到端语音对话模型，往往陷入一个两难困境：语义质量（也就是"说得准不准"、"答得好不好"）确实有所提升，但声音质量——包括语调、节奏、情感表达——却开始走形，变得不自然甚至奇怪。反之，如果专门优化声音表达，语义质量又可能受损。这就像你费尽心思调出了完美的调味汁，却发现食材在这个过程中变老了。

这个现象背后有三个互相缠绕的原因，研究团队称之为"三重困境"。

第一重困境叫做"跨模态的拉锯战"。在端到端语音模型里，文字信息和声音信息是共享同一套参数（可以理解为共享同一个大脑）的。当你试图用偏好训练来优化文字内容时，这个调整会同时影响到声音部分，而这种影响往往是破坏性的。两种目标——"说得准"和"说得好听"——就像两个人在同一张桌子上写字，互相干扰，反而都写不好。

第二重困境叫做"梯度能量严重失衡"。在计算机训练中，"梯度"是模型更新方向的量化指标，可以理解为"这次经验让模型应该朝哪个方向改进、改进多少"。研究团队测量发现，文字部分产生的梯度能量远远大于声音部分。就好比训练团队里有两个教练，一个嗓门极大、说话很清晰，另一个声音很小、说的内容模棱两可。最终模型主要听嗓门大的那个教练的，嗓门小的教练建议——也就是声音质量的改进方向——反而被淹没，甚至带来噪音。

第三重困境叫做"奖励信号的稀薄与失真"。强化学习依赖奖励信号来告诉模型"这次做得好还是不好"。对于语义内容来说，判断对错相对容易——答案要么对要么错，要么符合指令要么不符合。但对于声音质量，情况就复杂多了。"这句话说得有没有感情？"、"语调是否自然？"这些问题连人类也很难给出精确一致的评分。研究团队测量了多个主流AI评判模型（包括Gemini系列和GPT-4o-Audio）与人类评估之间的一致性，结果发现：在语义维度上，AI评判和人类评判的相关性相当高；但在声音维度上，一致性明显更低且更不稳定。换句话说，声音质量的"裁判"本身就不够可靠，而且这个不可靠的裁判还要给长达几百个声音片段的序列进行"功劳分配"，最终结果自然混乱。

二、四个关键发现，构成了解题的基础

在提出解决方案之前，研究团队做了一系列精心设计的诊断实验，就像医生在开药方之前先做全面检查一样。这些实验最终形成了四个关键观察，每一个观察都直接指向了最终方案的某个设计选择。

第一个观察关注的是不同训练方式产生的"改变幅度"。研究团队用同一段对话内容，分别观察了标准监督微调（简单说就是让模型反复学习正确示例，就像让学生抄课文）和强化学习偏好优化（让模型在对比中择优，就像让学生做选择题）两种训练方式对模型输出概率的影响。结果很清楚：监督微调会在整个输出序列上造成大幅度、一致性强的概率变化，就像把整块面团均匀揉开；而强化学习由于内置的稳定性约束（防止模型改变太快），造成的变化要小得多，而且分散在局部位置。这个发现说明：如果你想让模型在某个维度上实现可靠的大幅改变，监督微调更管用；强化学习更像是在已有基础上做局部打磨。

第二个观察验证了之前关于奖励信号可靠性的担忧。研究团队让多个AI评判模型对同一批语音回答打分，同时收集人类评分，然后计算两者的相关性。他们分别计算了语义维度和声音维度的相关性，结果一目了然：语义维度上，AI评分和人类评分的皮尔逊相关系数普遍在0.6到0.76之间，相当不错；但声音维度上，相关系数普遍更低，部分评判模型甚至只有0.2到0.4。更重要的是，他们还计算了"组内斯皮尔曼相关系数"——这个指标衡量的是：对同一个问题，AI评判能否像人类一样准确区分出哪个回答的声音更好？结果同样显示语义维度远优于声音维度。这直接说明：用AI来判断声音好坏，并以此来训练模型，误差太大，容易让模型学歪。

第三个观察深入到了数学层面，揭示了为什么直接对混合文字和声音的序列做偏好优化会出问题。研究团队计算了在不同训练方式下，文字部分的梯度和声音部分的梯度之间的余弦相似度（可以理解为两个更新方向的"一致程度"）。结果是：两者的余弦相似度接近零，而且方差很大。这意味着文字更新方向和声音更新方向几乎完全无关，有时甚至相互对抗。当偏好优化把一个"序列级别"的好坏判断平摊到所有声音片段上时，大量的声音片段实际上接受了无意义甚至有害的梯度信号，就像把一份针对整道菜的点评强行分摊到每一粒盐、每一滴油上，结果所有调味品都被调得乱七八糟。

第四个观察发现了不同训练阶段、不同模型的"辨别度"差异。研究团队用重复采样的方式，让同一个模型在同一个问题上生成多个回答，然后观察这些回答在语义维度和声音维度上的分散程度。他们发现：声音维度的分散程度（也就是"不同回答之间声音质量的差异"）普遍低于语义维度，尤其是在较弱的基础模型上。这意味着：如果模型本身能力有限，它生成的多个回答在声音质量上都差不多，没有明显好坏之分，这时候基于这些回答的偏好学习就变得无从下手，甚至会引入噪音。

三、动态混合训练：同一口锅里的精妙调火术

基于这四个关键观察，研究团队设计出了WavAlign的核心机制——一套单阶段的动态混合训练方案。

这套方案的基本逻辑可以用烹饪来理解：对于需要大幅改变、精确塑造的食材（声音质量），用慢火炖煮（监督微调）来持续稳定地施加影响；对于需要精细调味、根据口感随时调整的部分（语义质量），用随时可以加减的调味（偏好优化）来进行精准修正；同时，还需要一个聪明的厨师，根据当下食材的状态（每一轮训练时模型生成的回答质量）来动态决定大火还是小火、多调味还是少调味。

具体来说，这套方案做了三个层面的设计。

第一个设计是"模态分离"的优化策略。研究团队决定：监督微调的损失函数覆盖所有文字和声音片段；但偏好优化（强化学习）的损失函数只作用于文字片段，声音片段被屏蔽在偏好优化的影响范围之外。这个设计直接切断了偏好优化对声音分布的干扰，让声音质量完全由监督微调来负责维护，而语义质量则接受偏好优化的精炼。两个目标各司其职，互不干涉，就像把调味和火候的控制权交给了不同的厨师。

第二个设计是动态权重门控机制。总损失函数是监督微调损失和偏好优化损失的加权组合，权重分别是（1-λ）和λ。关键在于，这个λ不是一个固定数值，而是根据每一步训练时模型生成回答的质量动态计算的。具体计算方式涉及两个"门"：第一个是"方向门"，检查这一轮生成的回答里有没有至少一个"还过得去"的答案——如果所有回答质量都很差，说明偏好信号不可靠，就压低λ，让监督微调多发挥作用；第二个是"信息量门"，检查这一轮回答在奖励分数上的分散程度——如果所有回答奖励差不多，说明没有足够的区分信息，同样压低λ。两个门相乘，再乘以一个最大值系数（设定为0.8，这样即使条件最好，监督微调也始终保留至少20%的权重，作为声音质量的安全锚点），得到原始权重。

第三个设计是指数移动平均（EMA）平滑。由于每一步训练的随机性，原始权重会有较大的抖动，就像一个焦虑的厨师不停调温度，导致菜始终无法稳定。研究团队引入了一个平滑系数α=0.9，让当前权重等于90%的上一步权重加上10%的当前原始权重，相当于给火候控制加了一个惯性缓冲，让调整更加平稳渐进。实验表明，这个平滑操作对最终性能有相当关键的影响。

值得一提的是，整个训练流程是单阶段的——监督微调和偏好优化在同一个循环里同时进行，而不是先做完监督微调再做偏好优化的两阶段方式。研究团队也测试了两阶段方案，发现效果反而更差，这说明两种目标的协同对于最终效果至关重要。

四、在两种完全不同的AI架构上验证效果

为了证明这套方案不是针对某一种特定架构的"专属优化"，研究团队在两种结构截然不同的端到端语音对话模型上进行了实验。

第一种是VITA-Audio，它的输出方式是把文字片段和声音片段交替穿插在同一个流里，就像把字母和符号混在一行输出。第二种是KimiAudio，它采用并行设计，文字流和声音流是同步但独立的两条轨道，类似于视频的画面轨和音频轨。

训练数据方面，研究团队精心准备了总计13510条音频指令样本，覆盖了多个不同的能力维度。这些数据来自多个公开数据集，包括常识问答（SciQ）、数学推理（GSM8K）、多轮对话（UltraChat）、指令遵循（Alpaca）、科学问答（ScienceQA）、安全对齐（PKUSafe）等，以及团队自行构建的情感对话、音量控制、语速控制、逻辑推理等数据。对于偏好学习，团队通过让模型对同一问题重复采样8次，再用AI评判模型打分，按效用函数选出最好和最差的一对，构建偏好对数据。

评估基准涵盖了三个维度。第一个是VoiceBench，覆盖指令遵循、安全问答、常识推理、格式控制等多个子任务，用GPT-4o-mini作为文字层面的评判模型。第二个是OpenAudioBench，专注于知识广度和推理能力，包括通用问答、专业知识、逻辑推理等，用GPT-4o作为评判。第三个是VStyle，专门评估声音表达能力，包括音调属性控制、风格指令遵循、角色扮演、情感表达四个子维度，使用Gemini-2.5-Pro对实际生成的语音进行评分。

在智能质量方面，一个有些出人意料的发现是：标准的监督微调在这个任务上表现往往不如基础模型——在VITA-Audio上，监督微调的OpenAudioBench综合得分从55.0降到了50.7，在KimiAudio上也从69.1降到了64.9。研究团队认为这是因为13500条数据覆盖了太多不同领域，产生了梯度干扰，冲淡了模型原有的推理能力，这个现象在机器学习领域被称为"对齐税"。对全部片段做偏好优化的方案同样问题明显，Full-Token DPO在VITA-Audio上的OpenAudioBench得分直接跌到了35.1，比基础模型低了近20分。而只对文字片段做偏好优化的Text-Token RL方案表现好了很多，得分回升到56.2。WavAlign的动态混合方案则在两个架构上都取得了最高的智能质量得分：VITA-Audio上57.6，KimiAudio上70.8。

在声音表达质量方面，差异同样显著。监督微调在风格控制方面表现相当不错，尤其是音调属性和风格指令，显示出密集监督对于习得精细声音行为的有效性。Full-Token DPO表现极差，在VITA-Audio上VStyle综合得分仅1.22，在KimiAudio上也只有1.70，远低于基础模型的2.55和2.56，这完全符合研究团队的预测——对声音片段施加嘈杂的偏好梯度会严重破坏声音分布。WavAlign方案则在VITA-Audio上达到2.91，在KimiAudio上达到2.90，超过所有基线方法，实现了智能质量和声音质量的同步提升。

五、逐项拆解：每个设计选择背后的数据支撑

研究团队还进行了系统的消融实验，逐一验证每个设计选择的贡献，就像厨师在品鉴时逐一去掉某种调料来判断它的作用。

关于"只对文字片段做偏好优化还是对所有片段做偏好优化"这个问题：在相同的0.5/0.5固定权重下，文字片段限制版的IQ和EQ综合得分（52.60和2.60）明显优于全片段版（48.70和2.48）。这直接验证了"模态分离"设计的价值。

关于"固定权重还是动态权重"这个问题：研究团队测试了0.5/0.5和0.7SFT/0.3RL两种固定权重方案。结果显示，偏向监督微调的方案（0.7/0.3）EQ更好（2.72），但IQ下降（49.94）；偏向偏好优化的方案（0.5/0.5）IQ更好（52.60），但EQ相对差一些（2.60）。固定权重无法同时优化两个维度，而动态权重方案达到了55.24和2.92，两个指标都优于所有固定权重组合，证明了动态调整的必要性。

关于EMA平滑的作用：去掉EMA（即每步直接使用当前计算的原始权重）后，IQ从55.24降到53.15，EQ从2.92降到2.53，降幅相当明显，说明平滑操作不仅仅是锦上添花，而是稳定训练过程的关键组件。

研究团队还测试了不同EMA系数α的影响。α=0.5时，平滑不足，训练不稳定，得分55.24/2.92降至54.80/2.85。α=0.99时，过度平滑，权重调整太迟缓，错过了偏好优化的最佳窗口，得分降至50.95/2.88。α=0.9是最优选择。增大每步采样数量（从G=4增加到G=8）对IQ有进一步提升（57.19 vs 55.24），但EQ改善不明显（2.90 vs 2.92），且计算成本翻倍，性价比一般。

研究团队还专门进行了人类主观评估实验。他们从VoiceBench和VStyle各抽取20个问题，共40个测试条目，由3位独立评审人对WavAlign方案和原始基础模型的输出进行盲测对比，从"有用性"和"自然度"两个维度分别打分。结果显示，在有用性上，WavAlign获得63.8%的胜率，基础模型仅20.0%；在自然度上，胜率为66.2%对20.0%；整体胜率高达68.8%对17.5%，比例接近4:1。两个维度的统计检验p值均小于0.001，说明这个差异不是偶然的。

说到底，WavAlign解决的问题比看上去要深刻得多。它不仅仅是改进了一个语音AI的性能，更重要的是，它揭示了一个长期被忽视的问题：当你试图同时改进一个系统的两种不同能力时，如果它们共享同一套参数，就需要非常谨慎地设计优化策略，否则两个目标会互相干扰，得不偿失。研究团队用严格的实验证明了三件事：声音质量的奖励信号确实比语义质量的奖励信号更不可靠；对声音片段施加偏好优化确实会破坏声音分布；动态混合两种训练目标比任何单一目标或固定混合都更有效。

当然，这项研究也坦诚地指出了自身的局限。目前使用的是序列级别的奖励信号，如果能有更精细的片段级或帧级反馈，声音质量可能可以进一步提升。另外，用于判断声音质量的AI评判模型可靠性仍然有限，这是整个领域目前面临的共同挑战。随着这类评判模型不断改进，WavAlign框架的潜力可能还没有被完全发挥出来。

对于普通用户来说，这项研究意味着未来的语音AI助手有机会做到真正意义上的"又聪明又好听"：不仅能给出准确有用的答案，还能在适当的时候用恰当的语气、节奏和情感来表达，而不是为了其中一个牺牲另一个。这距离真正自然的人机语音对话，又近了一步。有兴趣深入了解技术细节的读者，可以通过arXiv:2604.14932查阅完整论文。

Q&A

Q1：WavAlign方法和普通的强化学习训练方法有什么本质区别？

A：普通强化学习直接对语音模型输出的全部片段（包括文字和声音）进行偏好优化，导致声音部分接受噪声梯度信号，声音质量恶化。WavAlign的核心区别在于三点：偏好优化只作用于文字片段，声音部分专由监督微调负责；训练权重根据每步回答质量动态调整，而非固定比例；通过指数移动平均平滑权重变化，防止训练不稳定。这三个设计共同确保了语义和声音质量同步提升。

Q2：WavAlign在实验中选了哪两种语音对话模型做测试，为什么要选两种？

A：研究团队选择了VITA-Audio（交错流架构，文字和声音片段交替穿插输出）和KimiAudio（并行架构，文字流和声音流同步独立生成）两种结构完全不同的模型。选择两种架构的目的是验证WavAlign的通用性——如果方案只在某一种架构上有效，说明它依赖特定的架构特性；在两种不同架构上都能稳定提升，才说明这是一套真正与架构无关的通用训练方案。

Q3：WavAlign训练用的13500条数据是怎么来的，偏好数据对是怎么构建的？

A：训练数据来自多个公开数据集（如GSM8K数学推理、UltraChat多轮对话、Alpaca指令遵循等）以及团队自行构建的情感对话、音量和语速控制等数据，总计13510条。偏好数据的构建方式是：对每个问题让模型重复采样8次生成8个回答，用AI评判模型分别打出语义分和声音分，按0.5:0.5权重合并成效用分，选效用分最高的和最低的组成一对偏好数据，且只保留两者效用分差距超过0.5的数据对，以减少噪声信号的干扰。

人工智能语音对话模型强化学习

分享至

0赞

好文章，需要你的鼓励

推荐文章

视觉语言模型
AI评估可靠性
元评估基准

2026-05-06 17:20

IIT马德拉斯揭露AI评审员的"视而不见"：你的图文AI评判者究竟有多不靠谱？

这项由IIT马德拉斯与BITS Pilani联合发布的研究（arXiv:2604.21523，2026年4月）构建了FOCUS元评估基准，系统检验了评审型视觉语言大模型的可靠性。通过向超过4000个图文和图像样本中注入40种受控错误，研究发现顶尖评审AI的检测失败率在某些条件下超过50%，物理合理性和视觉细节类错误尤为难以被发现，两两比较是最可靠的评审范式。
人工智能
自动化框架
自进化系统

2026-05-06 16:09

Sylph.AI提出"最后一个你需要手动搭建的脚手架"：让AI自己学会给自己搭脚手架

这篇由Sylph.AI发布的技术报告提出了一套两层自动化框架，核心思想是让AI自动优化自身的运行脚手架，再进一步让AI学会如何更高效地做这种优化。内层的脚手架进化循环通过工人代理、评估代理和进化代理的协作，自动迭代改进单个任务的运行配置；外层的元进化循环则在多个任务上训练，学习一套能快速适应任何新场景的通用进化蓝图，从而彻底消除人工脚手架工程的需求。
人工智能
自然语言处理
新型智能体架构

2026-05-06 15:50

英伟达与加州理工学院揭秘：如何让一个毫无经验的AI在虚拟荒岛中自学成才？

这篇由英伟达等顶尖机构联合发表的论文提出了一种名为Voyager的新型智能体。研究团队以《我的世界》为实验平台，通过引入自动课程规划、技能库存储以及迭代反馈机制，成功让大语言模型主导的AI在完全无人类干预的情况下，实现了在复杂开放世界中的自主探索与终身学习。实验数据表明，Voyager在物品收集、探索范围及技能解锁速度上均呈现出远超传统方法的压倒性优势，为未来开发能够自主解决真实物理世界复杂任务的通用人工智能奠定了关键的理论与实践基础。
多智能体系统
递归计算
潜在空间协作

2026-05-06 15:17

多所顶尖高校携手攻克AI协作难题：让多个AI像流水线工厂一样不断"迭代进化"

这项由伊利诺伊大学、斯坦福大学、英伟达和麻省理工学院联合发布的研究（arXiv:2604.25917，2026年4月）提出了RecursiveMAS框架，让多个异构AI模型通过轻量级模块RecursiveLink在内部信号层面直接传递"潜在思想"，形成循环协作，彻底绕开了传统多AI系统依靠文字传话的低效方式。配合两阶段内外循环训练策略，整个系统只需优化极少量参数，就能在数学、科学、代码生成和搜索问答等9个基准测试上取得平均8.3%的精度提升，同时实现最高2.4倍推理加速和75.6%的token用量削减。

IIT马德拉斯揭露AI评审员的"视而不见"：你的图文AI评判者究竟有多不靠谱？

IIT马德拉斯揭露AI评审员的"视而不见"：你的图文AI评判者究竟有多不靠谱？

2026-05-06 17:20

Sylph.AI提出"最后一个你需要手动搭建的脚手架"：让AI自己学会给自己搭脚手架

Sylph.AI提出"最后一个你需要手动搭建的脚手架"：让AI自己学会给自己搭脚手架

2026-05-06 16:09

英伟达与加州理工学院揭秘：如何让一个毫无经验的AI在虚拟荒岛中自学成才？

英伟达与加州理工学院揭秘：如何让一个毫无经验的AI在虚拟荒岛中自学成才？

2026-05-06 15:50

多所顶尖高校携手攻克AI协作难题：让多个AI像流水线工厂一样不断"迭代进化"

多所顶尖高校携手攻克AI协作难题：让多个AI像流水线工厂一样不断"迭代进化"

2026-05-06 15:17

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情链接

京ICP证15039648号京ICP备15039648号-9 京公网安备 11010802021500号

北京第二十六维信息技术有限公司（至顶网）版权所有。 | 联络我们

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱: jubao@zhiding.cn 　网上有害信息举报专区：https://www.12377.cn