
这项由StepFun(阶跃星辰)旗下音频研究团队主导开发的研究成果,以技术报告形式发布于2026年4月28日,ArXiv论文编号为arXiv:2604.25719,感兴趣的读者可通过该编号检索完整原文。
说到底,你有没有用过那种语音助手,它能把你问的问题答得分毫不差,但整个对话却让你觉得像是在跟自动取款机说话?每个答案都正确,每个回复都干巴巴的,完全没有一丁点儿人情味。这种体验并不是偶然的,它背后藏着一个深层的技术陷阱——而StepFun团队的这项新研究,正是专门为了从这个陷阱里爬出来而生的。
**研究背景:当AI学会"推理"之后,说话却越来越难听了**
要理解这项研究解决的是什么问题,得先从一个近年来大火的AI技术讲起,那就是"思维链推理"(Chain-of-Thought,简称CoT)。
普通人熟悉的AI回答方式,是你问一个问题,它给你一个答案,直接、简短。而思维链推理则不同,它让AI在给出最终答案之前,先把思考过程一步一步地写出来,就像一个学生在考卷上写解题步骤一样。这种方式显著提升了AI处理复杂问题的能力,比如解数学题、做逻辑推断,效果非常惊人。OpenAI的o1模型和DeepSeek的R1模型,正是依靠这种技术在数学竞赛、编程挑战等领域达到了接近人类的水平。
让AI学会这种思维链推理,背后用的关键训练方法叫做"基于可验证奖励的强化学习"(Reinforcement Learning with Verified Rewards,简称RLVR)。简单来说,这套方法的逻辑是这样的:给AI出一道题,如果它推理完毕后给出的最终答案是正确的,就奖励它;如果答错了,就惩罚它。通过反复练习,AI学会了越来越擅长推导出正确答案。
听起来很合理,对吧?但问题在于,当研究人员把同样这套方法搬到语音和音频领域时,一个意想不到的副作用出现了。
**一、"可验证奖励陷阱":为了答对题,忘了怎么聊天**
把思维链推理和RLVR训练方法用在语音AI上,在客观测试分数上确实大幅提升——能正确识别声音场景、准确回答语音问题。但是,研究人员发现了一个令人头疼的现象:这些模型在真实对话中变得越来越"难用"了。
回应变得简短而生硬,缺乏情感温度,在多轮对话中尤为明显。用StepFun团队自己的话说,这些模型变成了"答题机器"——技术上完全正确,但在体验上完全空洞。
为什么会这样?原因其实并不难理解,可以用这样一个类比来说明。
假设你在培训一名客服人员,评价标准只有一条:最终给出的信息是否准确。于是这名客服学会了用最快速度甩出正确答案,但他/她说话的方式、语气、是否认真倾听了你前面说的话、是否在意你情绪状态,这些全都不在考核范围之内。久而久之,这名客服成了一台"信息自动贩卖机"——信息准确,但你绝不会想跟他/她多聊一句。
这正是RLVR训练给语音AI带来的问题。音频是一种丰富的、连续的媒介,其中包含语调、情绪、节奏、停顿、语速……这些维度共同构成了真实的人类对话体验。但RLVR的奖励信号只认一件事:最终那个答案的文字标签对不对。于是AI在优化过程中,逐渐抛弃了对这些细腻维度的关注,专门磨炼出答题能力。
StepFun团队把这个现象命名为"可验证奖励陷阱"(verifiable reward trap)。这是他们这项研究的出发点,也是整个工作想要破解的核心难题。
**二、换一套评判标准:让真人告诉AI什么叫"说得好"**
认识到问题所在之后,StepFun团队的思路是:既然靠"答案对不对"这个单一标准会让AI变成答题机器,那就换一套更接近真实体验的评判标准——直接让人来打分。
这就是"基于人类反馈的强化学习"(Reinforcement Learning from Human Feedback,简称RLHF)的基本逻辑。相比之下,RLVR问的是"答案对了吗",而RLHF问的是"这个回答好不好"。两者区别,就像是考试中的选择题和作文题之间的差异——前者有标准答案,后者需要综合评判。
具体到多轮语音对话这个场景中,"好不好"这件事本身就非常复杂。有些方面是相对明确的,比如:用户说了"请用轻松的语气回复我",AI是否真的做到了?对话前几轮里用户提到的条件,AI在后续轮次里有没有记住?这类问题相对有迹可循。另一些方面则更加模糊,比如:这个回应听起来自不自然?整体对话流不流畅?语气对不对?这类判断很难用规则写死,但人类听一听就能感受到。
为了同时处理这两类不同性质的评判需求,StepFun团队设计了一个统一的奖励模型,能够根据情况灵活切换两种评判模式。当一个对话样本有明确的评价标准时,奖励模型就拿着那套标准去检查AI的回答是否达标;当没有明确标准时,奖励模型就把AI的回答和一个参考回答摆在一起,做相对比较,判断哪个更好。
这种相对比较的设计有一个额外的好处:它不只是给出"好"或"不好"的二元判断,而是能体现出"好很多"、"稍微好一点"、"差不多"、"差一点"这样的程度差异。对于训练信号来说,这种细粒度的判断比单纯的对错判断更有价值,就像老师批改作文时不只是给"合格/不合格",而是给出"内容充实但语言略显平淡"这样的具体反馈。
**三、从头搭建:架构与三阶段训练流程**
明确了用RLHF来解决问题的方向之后,Step-Audio-R1.5的整体设计和训练流程也围绕这个核心思路展开。
在硬件架构层面,这个模型由三个部分组成。第一部分是音频编码器,负责"听懂"声音,采用的是阿里Qwen2团队开发的音频编码器,它经过大量语音和音频数据的预训练,能把原始声音信号转化成AI能处理的特征信息,工作频率是每秒处理25帧声音数据。整个训练过程中,这部分始终保持冻结状态,不参与更新,目的是保留它已经具备的强大听觉感知能力。
第二部分是音频适配器,扮演的是桥梁角色。它把音频编码器输出的连续特征,进行2倍的时间压缩,让每秒处理的帧数从25帧降到12.5帧。这个压缩看似简单,实则关键——在长达多轮的对话中,音频信号如果不压缩,序列长度会急剧膨胀,计算成本将难以承受。
第三部分是语言模型解码器,也就是真正负责"思考"和"回答"的核心大脑,基于阿里Qwen2.5 32B模型初始化。它直接接收压缩后的音频特征,生成纯文字输出。为了支持思维链推理,模型在回答时会先生成一段内部推理过程,再生成最终回答,这两个步骤在结构上是分开的。这种分离设计并非可有可无——正是它使得RLHF能够干净地作用于最终回答的质量,而不会和推理过程的生成混在一起。
训练流程分为三个先后衔接的阶段,每个阶段解决不同的问题。
第一阶段叫做"以音频为中心的中间训练"。在这个阶段,模型的目标是打好知识和感知能力的底子,让它真正听懂各种各样的音频内容,同时掌握通用的推理能力。训练数据来自两个来源:一是大量高质量的音频理解任务数据,让模型建立对声音世界的广泛认知;二是纯文字的推理数据,让模型学会复杂的推理结构和长程思考模式,再把这些模式迁移到音频理解上来。这两类数据在训练时联合使用,形成互补。
第二阶段叫做"冷启动有监督微调"。前一阶段让模型变得博学而善于推理,但博学和"会聊天"是两码事。这个阶段的目标是给模型做一次"礼仪培训",让它学会在对话中应有的行为方式。具体来说,训练着重强化四种能力:其一是多轮对话的连贯性,也就是在聊了好几轮之后,仍然记得用户前面说过的话和设定过的条件;其二是指令遵从,也就是当用户说"请用幽默的语气"或者"回答不超过三句话",模型能够始终如一地执行;其三是回应的自然度,也就是说出来的话要像正常人说话,而不是机器在播报;其四是互动意识,也就是面对追问、澄清、打断或者用户改了主意的情况,能够灵活应对。这个阶段使用的数据都是精心设计的多轮对话数据,目的不是扩展知识,而是建立良好的对话行为习惯,为下一阶段的RLHF打下基础。
第三阶段就是核心的RLHF训练。有了前两个阶段的铺垫,RLHF阶段可以专注于打磨对话质量,而不必同时纠正基础的知识错误或行为偏差。奖励信号由前面介绍的那个生成式奖励模型提供,采用相对比较而非绝对评分的方式。为了防止一类对话的训练破坏另一类对话的能力,明确规则型的评判和主观偏好型的评判在训练时是同步进行的,而不是先做一类再做另一类。实践中发现,如果分开训练,后训练的那类会对先训练的造成明显遗忘,联合训练则能保持两类能力的平衡。
**四、成绩单:数字背后的故事**
Step-Audio-R1.5完成之后,StepFun团队用一套覆盖8个不同方向的基准测试来检验它的能力,并与市面上的同类系统做了横向比较。为了确保结果真实可比,所有对比系统都通过官方API重新测试,而非直接引用各自论文中的数字。参与比较的模型包括谷歌的Gemini 3 Flash和Gemini 3 Pro,以及阿里的Qwen3.5-Omni-Flash和Qwen3.5-Omni-Plus。
8个测试涵盖的范围很广:有专门测多轮语音对话能力的AudioMultiChallenge,有测试复杂逻辑推理的Big Bench Audio,有测试专业音频理解的MMSU和MMAU,有测试语音数学推理的Spoken MQA,还有StepFun自己设计的三个测试——Step-Caption(细粒度音频描述)、Step-DU(语音对话理解)和Step-SPQA(副语言特征问答)。
最终的综合平均分上,Step-Audio-R1.5拿到了77.97分,在所有参与比较的模型中排名第二,仅次于谷歌的Gemini 3 Pro(79.67分),而且领先于Gemini 3 Flash(77.56分)、Qwen3.5-Omni-Plus(75.77分)和Qwen3.5-Omni-Flash(70.55分)。
对比Step-Audio-R1.5的前身Step-Audio-R1(72.50分),这个5.47分的平均提升背后,最引人注目的是在AudioMultiChallenge上的巨幅进步:从24.61分跃升至41.15分,提升幅度超过16分。AudioMultiChallenge正是那个专门测试多轮对话、模拟真实人类互动(包括打断、犹豫、中途修改话题等)的苛刻测试,而这恰恰是RLHF训练最核心的优化目标。
在Step-DU(语音对话理解)上,Step-Audio-R1.5相比前代的提升达到了18.39分,这也是一个和对话交互质量密切相关的测试。Step-SPQA上提升了5.04分,Step-Caption上提升了0.88分。
值得一提的是,在Big Bench Audio这个专门测复杂多步逻辑推理的测试上,Step-Audio-R1.5拿到了98.30分,几乎与前代的98.29分持平。这说明RLHF的引入并没有损害模型原本通过RLVR建立起来的逻辑推理能力,两者在这个模型里实现了共存。
换个角度来理解这些数字的意义:Gemini 3 Pro和Gemini 3 Flash是谷歌当下最强的商用多模态系统,背后是庞大的数据和算力支撑。Step-Audio-R1.5作为一个32B参数规模的开放研究模型,能在综合评分上超越Gemini 3 Flash并紧追Gemini 3 Pro,且在多轮对话这个维度上展现出接近或超越Gemini 2.5 Flash的能力,这个结果相当有说服力。
**五、这对我们意味着什么:从答题机器到真正的对话伙伴**
归根结底,StepFun团队这项工作传递的核心信息,可以用一句话来概括:语音AI在技术上的正确性,和在体验上让人觉得"好用",是两件不同的事,需要不同的方法来优化。
过去的语音AI研究默认了一个假设——只要我的模型能给出正确答案,就是一个好模型。这个假设在文字处理任务上已经足够,但在语音对话这个场景下是不够的。声音携带的信息远比文字丰富,情绪、语气、节奏、互动感,这些维度共同决定了一次对话是否让人觉得自然、舒适、愿意继续聊下去。一个只会答对题的语音AI,就像一位知识渊博但完全不懂与人交流的学者——你可能会去找他查资料,但不会想跟他聊天。
这项研究之所以值得关注,不只是因为它提升了一些测试分数,更因为它在方向上标志着语音AI研究重心的一次转移:从单纯追求"说什么是对的",转向同时追求"怎么说更好"。这种转移,可能正是未来语音助手、智能客服、AI伴侣等应用在用户体验上实现质变的关键所在。
研究团队明确指出,Step-Audio-R1.5是目前已知第一个系统性地将RLHF引入音频推理模型训练的工作。它用实验结果证明,那种机械、情感空洞的回应风格并不是思维链推理方法本身的固有缺陷,而是奖励信号设计过于单一所造成的后果,而这个问题是可以通过更合理的训练方法来纠正的。
当然,这项工作本身也还有很多未被充分探索的空间。比如,奖励模型的判断与真实用户的主观偏好之间的差距如何进一步缩小?在更长的多轮对话场景中,对话连贯性的保持是否还有优化余地?这些都是后续研究可以接力推进的方向。有兴趣深入了解全部技术细节的读者,可以通过ArXiv编号arXiv:2604.25719检索完整论文。
---
Q&A
Q1:RLVR和RLHF在训练语音AI时有什么区别?
A:RLVR(基于可验证奖励的强化学习)只看最终答案对不对,用一个二元的对错信号来训练模型,好处是自动化程度高,坏处是完全忽略了回应的语气、自然度和情感质感。RLHF(基于人类反馈的强化学习)则通过人类对回应质量的综合评判来训练模型,能捕捉到对话是否自然、语气是否得当这类难以量化的维度,Step-Audio-R1.5正是通过引入RLHF来解决语音AI"答题机器化"问题的。
Q2:"可验证奖励陷阱"具体是怎么让语音AI变差的?
A:当语音AI用RLVR训练时,它的优化目标只有一个:最终给出的文字答案是否正确。久而久之,模型会越来越擅长抽取出那个正确标签,但对音频中的情绪、语调、语速等丰富信息越来越不在意,因为这些维度根本不影响奖励分数。结果就是模型在测试集上分数很高,但实际对话时回应短促、生硬、缺乏情感,在多轮对话中尤其明显,这就是StepFun团队所说的"可验证奖励陷阱"。
Q3:Step-Audio-R1.5的三阶段训练分别解决什么问题?
A:三个阶段各有侧重。第一阶段"音频中间训练"解决的是知识和感知能力的问题,让模型真正听懂各种音频内容并建立推理能力;第二阶段"冷启动微调"解决的是对话行为问题,让模型学会多轮对话的连贯性、指令遵从和回应自然度;第三阶段的RLHF训练则在前两个阶段打好基础之后,专注打磨整体对话质量,通过人类偏好判断来让模型从"答对题"升级为"好好聊天"。
好文章,需要你的鼓励
腾讯混元提出CPPO方法,通过位置权重和累积前缀预算两个机制改进AI强化学习训练,在多个Qwen3模型的数学推理任务上超越现有方法,最大提升达5.56分。
PaperMentor是多伦多大学等机构联合开发的AI论文写作导师,通过12个专业智能体和40余份专家技能文件,在Overleaf中为科研人员提供行内批注式的写作建议。
论文揭示AI安全测试的"审计缺口":模型外表安全但内部可能脆弱,并提出潜在脆弱性分数(LVS)量化内部风险。
这项研究提出ICMIL框架,让AI通过在合成数据上预训练,无需针对新任务重新训练即可完成多示例学习分类,在十二个基准上超越需要调参的监督方法。