微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

当AI语音助手变成"答题机器"：StepFun团队如何让它重新学会"好好说话"

人工智能语音交互RLHF强化学习

当AI语音助手变成"答题机器"：StepFun团队如何让它重新学会"好好说话"

作者：科技行者

2026-05-07 09:20

分享至：

这项由StepFun（阶跃星辰）音频研究团队完成的工作于2026年4月发布（arXiv:2604.25719），提出了Step-Audio-R1.5模型。研究的核心发现是：现有语音AI大量使用的RLVR训练方法会让模型在测试分数上表现优异，却在真实对话中变得机械生硬，研究团队将此命名为"可验证奖励陷阱"。为此，他们将人类反馈强化学习（RLHF）系统性地引入音频推理模型，通过三阶段训练流程，在保留逻辑推理能力的同时显著改善了多轮对话体验，综合评分超越谷歌Gemini 3 Flash，多项对话测试成绩大幅领先前代模型。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-07 09:20 • 科技行者

这项由StepFun（阶跃星辰）旗下音频研究团队主导开发的研究成果，以技术报告形式发布于2026年4月28日，ArXiv论文编号为arXiv:2604.25719，感兴趣的读者可通过该编号检索完整原文。

说到底，你有没有用过那种语音助手，它能把你问的问题答得分毫不差，但整个对话却让你觉得像是在跟自动取款机说话？每个答案都正确，每个回复都干巴巴的，完全没有一丁点儿人情味。这种体验并不是偶然的，它背后藏着一个深层的技术陷阱——而StepFun团队的这项新研究，正是专门为了从这个陷阱里爬出来而生的。

**研究背景：当AI学会"推理"之后，说话却越来越难听了**

要理解这项研究解决的是什么问题，得先从一个近年来大火的AI技术讲起，那就是"思维链推理"（Chain-of-Thought，简称CoT）。

普通人熟悉的AI回答方式，是你问一个问题，它给你一个答案，直接、简短。而思维链推理则不同，它让AI在给出最终答案之前，先把思考过程一步一步地写出来，就像一个学生在考卷上写解题步骤一样。这种方式显著提升了AI处理复杂问题的能力，比如解数学题、做逻辑推断，效果非常惊人。OpenAI的o1模型和DeepSeek的R1模型，正是依靠这种技术在数学竞赛、编程挑战等领域达到了接近人类的水平。

让AI学会这种思维链推理，背后用的关键训练方法叫做"基于可验证奖励的强化学习"（Reinforcement Learning with Verified Rewards，简称RLVR）。简单来说，这套方法的逻辑是这样的：给AI出一道题，如果它推理完毕后给出的最终答案是正确的，就奖励它；如果答错了，就惩罚它。通过反复练习，AI学会了越来越擅长推导出正确答案。

听起来很合理，对吧？但问题在于，当研究人员把同样这套方法搬到语音和音频领域时，一个意想不到的副作用出现了。

**一、"可验证奖励陷阱"：为了答对题，忘了怎么聊天**

把思维链推理和RLVR训练方法用在语音AI上，在客观测试分数上确实大幅提升——能正确识别声音场景、准确回答语音问题。但是，研究人员发现了一个令人头疼的现象：这些模型在真实对话中变得越来越"难用"了。

回应变得简短而生硬，缺乏情感温度，在多轮对话中尤为明显。用StepFun团队自己的话说，这些模型变成了"答题机器"——技术上完全正确，但在体验上完全空洞。

为什么会这样？原因其实并不难理解，可以用这样一个类比来说明。

假设你在培训一名客服人员，评价标准只有一条：最终给出的信息是否准确。于是这名客服学会了用最快速度甩出正确答案，但他/她说话的方式、语气、是否认真倾听了你前面说的话、是否在意你情绪状态，这些全都不在考核范围之内。久而久之，这名客服成了一台"信息自动贩卖机"——信息准确，但你绝不会想跟他/她多聊一句。

这正是RLVR训练给语音AI带来的问题。音频是一种丰富的、连续的媒介，其中包含语调、情绪、节奏、停顿、语速……这些维度共同构成了真实的人类对话体验。但RLVR的奖励信号只认一件事：最终那个答案的文字标签对不对。于是AI在优化过程中，逐渐抛弃了对这些细腻维度的关注，专门磨炼出答题能力。

StepFun团队把这个现象命名为"可验证奖励陷阱"（verifiable reward trap）。这是他们这项研究的出发点，也是整个工作想要破解的核心难题。

**二、换一套评判标准：让真人告诉AI什么叫"说得好"**

认识到问题所在之后，StepFun团队的思路是：既然靠"答案对不对"这个单一标准会让AI变成答题机器，那就换一套更接近真实体验的评判标准——直接让人来打分。

这就是"基于人类反馈的强化学习"（Reinforcement Learning from Human Feedback，简称RLHF）的基本逻辑。相比之下，RLVR问的是"答案对了吗"，而RLHF问的是"这个回答好不好"。两者区别，就像是考试中的选择题和作文题之间的差异——前者有标准答案，后者需要综合评判。

具体到多轮语音对话这个场景中，"好不好"这件事本身就非常复杂。有些方面是相对明确的，比如：用户说了"请用轻松的语气回复我"，AI是否真的做到了？对话前几轮里用户提到的条件，AI在后续轮次里有没有记住？这类问题相对有迹可循。另一些方面则更加模糊，比如：这个回应听起来自不自然？整体对话流不流畅？语气对不对？这类判断很难用规则写死，但人类听一听就能感受到。

为了同时处理这两类不同性质的评判需求，StepFun团队设计了一个统一的奖励模型，能够根据情况灵活切换两种评判模式。当一个对话样本有明确的评价标准时，奖励模型就拿着那套标准去检查AI的回答是否达标；当没有明确标准时，奖励模型就把AI的回答和一个参考回答摆在一起，做相对比较，判断哪个更好。

这种相对比较的设计有一个额外的好处：它不只是给出"好"或"不好"的二元判断，而是能体现出"好很多"、"稍微好一点"、"差不多"、"差一点"这样的程度差异。对于训练信号来说，这种细粒度的判断比单纯的对错判断更有价值，就像老师批改作文时不只是给"合格/不合格"，而是给出"内容充实但语言略显平淡"这样的具体反馈。

**三、从头搭建：架构与三阶段训练流程**

明确了用RLHF来解决问题的方向之后，Step-Audio-R1.5的整体设计和训练流程也围绕这个核心思路展开。

在硬件架构层面，这个模型由三个部分组成。第一部分是音频编码器，负责"听懂"声音，采用的是阿里Qwen2团队开发的音频编码器，它经过大量语音和音频数据的预训练，能把原始声音信号转化成AI能处理的特征信息，工作频率是每秒处理25帧声音数据。整个训练过程中，这部分始终保持冻结状态，不参与更新，目的是保留它已经具备的强大听觉感知能力。

第二部分是音频适配器，扮演的是桥梁角色。它把音频编码器输出的连续特征，进行2倍的时间压缩，让每秒处理的帧数从25帧降到12.5帧。这个压缩看似简单，实则关键——在长达多轮的对话中，音频信号如果不压缩，序列长度会急剧膨胀，计算成本将难以承受。

第三部分是语言模型解码器，也就是真正负责"思考"和"回答"的核心大脑，基于阿里Qwen2.5 32B模型初始化。它直接接收压缩后的音频特征，生成纯文字输出。为了支持思维链推理，模型在回答时会先生成一段内部推理过程，再生成最终回答，这两个步骤在结构上是分开的。这种分离设计并非可有可无——正是它使得RLHF能够干净地作用于最终回答的质量，而不会和推理过程的生成混在一起。

训练流程分为三个先后衔接的阶段，每个阶段解决不同的问题。

第一阶段叫做"以音频为中心的中间训练"。在这个阶段，模型的目标是打好知识和感知能力的底子，让它真正听懂各种各样的音频内容，同时掌握通用的推理能力。训练数据来自两个来源：一是大量高质量的音频理解任务数据，让模型建立对声音世界的广泛认知；二是纯文字的推理数据，让模型学会复杂的推理结构和长程思考模式，再把这些模式迁移到音频理解上来。这两类数据在训练时联合使用，形成互补。

第二阶段叫做"冷启动有监督微调"。前一阶段让模型变得博学而善于推理，但博学和"会聊天"是两码事。这个阶段的目标是给模型做一次"礼仪培训"，让它学会在对话中应有的行为方式。具体来说，训练着重强化四种能力：其一是多轮对话的连贯性，也就是在聊了好几轮之后，仍然记得用户前面说过的话和设定过的条件；其二是指令遵从，也就是当用户说"请用幽默的语气"或者"回答不超过三句话"，模型能够始终如一地执行；其三是回应的自然度，也就是说出来的话要像正常人说话，而不是机器在播报；其四是互动意识，也就是面对追问、澄清、打断或者用户改了主意的情况，能够灵活应对。这个阶段使用的数据都是精心设计的多轮对话数据，目的不是扩展知识，而是建立良好的对话行为习惯，为下一阶段的RLHF打下基础。

第三阶段就是核心的RLHF训练。有了前两个阶段的铺垫，RLHF阶段可以专注于打磨对话质量，而不必同时纠正基础的知识错误或行为偏差。奖励信号由前面介绍的那个生成式奖励模型提供，采用相对比较而非绝对评分的方式。为了防止一类对话的训练破坏另一类对话的能力，明确规则型的评判和主观偏好型的评判在训练时是同步进行的，而不是先做一类再做另一类。实践中发现，如果分开训练，后训练的那类会对先训练的造成明显遗忘，联合训练则能保持两类能力的平衡。

**四、成绩单：数字背后的故事**

Step-Audio-R1.5完成之后，StepFun团队用一套覆盖8个不同方向的基准测试来检验它的能力，并与市面上的同类系统做了横向比较。为了确保结果真实可比，所有对比系统都通过官方API重新测试，而非直接引用各自论文中的数字。参与比较的模型包括谷歌的Gemini 3 Flash和Gemini 3 Pro，以及阿里的Qwen3.5-Omni-Flash和Qwen3.5-Omni-Plus。

8个测试涵盖的范围很广：有专门测多轮语音对话能力的AudioMultiChallenge，有测试复杂逻辑推理的Big Bench Audio，有测试专业音频理解的MMSU和MMAU，有测试语音数学推理的Spoken MQA，还有StepFun自己设计的三个测试——Step-Caption（细粒度音频描述）、Step-DU（语音对话理解）和Step-SPQA（副语言特征问答）。

最终的综合平均分上，Step-Audio-R1.5拿到了77.97分，在所有参与比较的模型中排名第二，仅次于谷歌的Gemini 3 Pro（79.67分），而且领先于Gemini 3 Flash（77.56分）、Qwen3.5-Omni-Plus（75.77分）和Qwen3.5-Omni-Flash（70.55分）。

对比Step-Audio-R1.5的前身Step-Audio-R1（72.50分），这个5.47分的平均提升背后，最引人注目的是在AudioMultiChallenge上的巨幅进步：从24.61分跃升至41.15分，提升幅度超过16分。AudioMultiChallenge正是那个专门测试多轮对话、模拟真实人类互动（包括打断、犹豫、中途修改话题等）的苛刻测试，而这恰恰是RLHF训练最核心的优化目标。

在Step-DU（语音对话理解）上，Step-Audio-R1.5相比前代的提升达到了18.39分，这也是一个和对话交互质量密切相关的测试。Step-SPQA上提升了5.04分，Step-Caption上提升了0.88分。

值得一提的是，在Big Bench Audio这个专门测复杂多步逻辑推理的测试上，Step-Audio-R1.5拿到了98.30分，几乎与前代的98.29分持平。这说明RLHF的引入并没有损害模型原本通过RLVR建立起来的逻辑推理能力，两者在这个模型里实现了共存。

换个角度来理解这些数字的意义：Gemini 3 Pro和Gemini 3 Flash是谷歌当下最强的商用多模态系统，背后是庞大的数据和算力支撑。Step-Audio-R1.5作为一个32B参数规模的开放研究模型，能在综合评分上超越Gemini 3 Flash并紧追Gemini 3 Pro，且在多轮对话这个维度上展现出接近或超越Gemini 2.5 Flash的能力，这个结果相当有说服力。

**五、这对我们意味着什么：从答题机器到真正的对话伙伴**

归根结底，StepFun团队这项工作传递的核心信息，可以用一句话来概括：语音AI在技术上的正确性，和在体验上让人觉得"好用"，是两件不同的事，需要不同的方法来优化。

过去的语音AI研究默认了一个假设——只要我的模型能给出正确答案，就是一个好模型。这个假设在文字处理任务上已经足够，但在语音对话这个场景下是不够的。声音携带的信息远比文字丰富，情绪、语气、节奏、互动感，这些维度共同决定了一次对话是否让人觉得自然、舒适、愿意继续聊下去。一个只会答对题的语音AI，就像一位知识渊博但完全不懂与人交流的学者——你可能会去找他查资料，但不会想跟他聊天。

这项研究之所以值得关注，不只是因为它提升了一些测试分数，更因为它在方向上标志着语音AI研究重心的一次转移：从单纯追求"说什么是对的"，转向同时追求"怎么说更好"。这种转移，可能正是未来语音助手、智能客服、AI伴侣等应用在用户体验上实现质变的关键所在。

研究团队明确指出，Step-Audio-R1.5是目前已知第一个系统性地将RLHF引入音频推理模型训练的工作。它用实验结果证明，那种机械、情感空洞的回应风格并不是思维链推理方法本身的固有缺陷，而是奖励信号设计过于单一所造成的后果，而这个问题是可以通过更合理的训练方法来纠正的。

当然，这项工作本身也还有很多未被充分探索的空间。比如，奖励模型的判断与真实用户的主观偏好之间的差距如何进一步缩小？在更长的多轮对话场景中，对话连贯性的保持是否还有优化余地？这些都是后续研究可以接力推进的方向。有兴趣深入了解全部技术细节的读者，可以通过ArXiv编号arXiv:2604.25719检索完整论文。

---

Q&A

Q1：RLVR和RLHF在训练语音AI时有什么区别？

A：RLVR（基于可验证奖励的强化学习）只看最终答案对不对，用一个二元的对错信号来训练模型，好处是自动化程度高，坏处是完全忽略了回应的语气、自然度和情感质感。RLHF（基于人类反馈的强化学习）则通过人类对回应质量的综合评判来训练模型，能捕捉到对话是否自然、语气是否得当这类难以量化的维度，Step-Audio-R1.5正是通过引入RLHF来解决语音AI"答题机器化"问题的。

Q2："可验证奖励陷阱"具体是怎么让语音AI变差的？

A：当语音AI用RLVR训练时，它的优化目标只有一个：最终给出的文字答案是否正确。久而久之，模型会越来越擅长抽取出那个正确标签，但对音频中的情绪、语调、语速等丰富信息越来越不在意，因为这些维度根本不影响奖励分数。结果就是模型在测试集上分数很高，但实际对话时回应短促、生硬、缺乏情感，在多轮对话中尤其明显，这就是StepFun团队所说的"可验证奖励陷阱"。

Q3：Step-Audio-R1.5的三阶段训练分别解决什么问题？

A：三个阶段各有侧重。第一阶段"音频中间训练"解决的是知识和感知能力的问题，让模型真正听懂各种音频内容并建立推理能力；第二阶段"冷启动微调"解决的是对话行为问题，让模型学会多轮对话的连贯性、指令遵从和回应自然度；第三阶段的RLHF训练则在前两个阶段打好基础之后，专注打磨整体对话质量，通过人类偏好判断来让模型从"答对题"升级为"好好聊天"。

人工智能语音交互RLHF强化学习

分享至