
这项由Stability AI研究团队完成的技术报告于2026年5月18日发布在预印本平台arXiv,论文编号为arXiv:2605.17991v1,分类领域为计算机科学·声音(cs.SD)。有兴趣深入了解的读者可通过该编号在arXiv平台上查阅完整论文。
**一个让创作者头疼的老问题**
假设你是一位独立游戏开发者,正在为游戏的战斗场景配乐。你脑海里有一段模糊的旋律感觉——"快节奏、带电子元素、有点儿史诗感",但你既不会作曲,也付不起配乐师的高昂费用。于是你打开了一款AI音乐生成工具,输入描述,按下生成按钮,然后……等了将近一分钟,还要占用大量电脑内存,最终生成出来的音乐长度固定,根本不符合你那段20秒场景的需要。
这个场景准确描述了AI音乐生成领域长期存在的三个核心痛点:太慢、太耗资源、不灵活。Stability AI的研究团队带着Stable Audio 3这一成果正面回应了这三个问题,而且交出的答卷相当有分量——用普通笔记本电脑的处理器就能运行,在顶级服务器显卡上不到2秒就能生成长达6分20秒的高质量音乐,还可以对已有的音频进行精确的局部编辑。
**一、Stable Audio 3究竟是什么,为什么值得关注**
Stable Audio 3本质上是一个"声音工厂",你给它一段文字描述,它就能产出对应的音乐或音效。这个"工厂"实际上由三种不同规模的机器组成,团队分别称它们为small(小型)、medium(中型)和large(大型),就像洗衣机有迷你款、家用款和商用款一样,适用于不同的使用场景和设备条件。
small拥有约4.59亿个参数(可以把"参数"理解为机器内部的调节旋钮数量,旋钮越多,机器越精细),能生成最长2分钟的音频;medium拥有约14亿个参数,最长可生成6分20秒;large拥有约27亿个参数,同样支持6分20秒。在顶级H200服务器显卡上,small只需0.44秒,medium需1.31秒,large需1.80秒,就能完成一次生成。更值得一提的是,small和medium的模型权重是完全开放的,任何人都可以下载使用,代码托管在GitHub的Stability-AI/stable-audio-3仓库。
这三个模型还分了更细的专业分支:small-music专门生成器乐音乐,small-sfx专门生成音效,而medium和large则是音乐和音效兼顾的综合选手。之所以small要分开训练音乐版和音效版,是因为研究团队发现在参数有限的小模型里,音乐数据和音效数据会互相"干扰",就像同一个厨师同时做川菜和粤菜,难免串味,分开反而各自更出色。
所有模型都在经过授权的商业音频和遵循知识共享协议(Creative Commons)的免费音频上训练,不存在版权隐患,这对于想把AI音乐工具用于商业项目的创作者来说是个很大的保障。
**二、解决"生成短音频还要等半天"的难题:可变长度生成**
在Stable Audio 3之前,绝大多数扩散模型式的音频生成器都有一个隐藏的浪费:不管你想要多短的音频,它都要按照最大长度来计算。以Stable Audio 3的前代产品Stable Audio 2.5为例,它的最大生成长度是190秒。如果你只需要一段20秒的音乐,它仍然要在内部生成完整的190秒内容,然后把多余的170秒静音扔掉——就像每次你去便利店只买一瓶水,收银员却坚持要给你装一个能放一冰箱东西的袋子,既浪费时间也浪费资源。
研究团队把这种方式叫做"固定长度生成",而他们为Stable Audio 3开发的新方式叫做"可变长度生成"。核心思路是:需要多长就生成多长,计算量随着实际长度而变化。为了让这套方法在训练阶段也能稳定工作,团队设计了三个相互配合的技巧。
第一个技巧叫"可变长度注意力与掩码损失"。在模型训练时,一批数据里往往包含长短不一的音频片段,需要用补零的方式把它们凑成相同长度才能一起处理。但那些补上去的零其实没有信息,让模型去"学习"这些零是浪费,更可能导致模型混乱。团队的解决方案是给这些补位内容打上"标记",让模型在计算时直接忽略它们,损失函数(衡量生成效果好不好的评分机制)也只对真实音频部分打分。
第二个技巧叫"按元素调整时间步偏移"。这里要引入扩散模型的一个基本概念:这类模型的工作方式类似于从一团噪声出发,一步一步把噪声"去掉",最终还原出有意义的内容。每一步叫做一个"时间步",时间步越大表示噪声越多。问题在于,长序列的音频片段因为内部元素之间有关联,在同样的噪声水平下,它保留的可恢复信息比短序列更多。如果用同样的噪声调度表训练长短不同的音频,长音频会被"欠噪化",模型就没有充分学会处理高噪声情况下的长音频。团队的解决方案是:根据每段音频的实际长度,动态地把时间步往更高噪声的方向偏移——越长的音频,训练时就推向更嘈杂的区间,以此保持学习难度的平衡。具体的数学公式采用了一种叫做"逻辑斯谛形式"的映射,让这个偏移量在最短序列(偏移参数0.5)到最长序列(偏移参数1.15)之间平滑过渡。
第三个技巧叫"静音增强"。团队在训练时会随机地在真实音频后面拼接一段静音,静音的长度从指数分布中随机抽取,平均约4秒。这样做有两个目的:第一,防止模型把"我要生成的时长"和"实际音频信号就该这么长"死死绑定在一起;第二,训练模型学会自然地结束,而不是在到达序列末尾时突然断掉,留下一个生硬的截断感。
为了验证可变长度生成是否真的有效,团队还做了一个对照实验:故意把Stable Audio 2.5"误用"——明明是在190秒条件下训练的,却强行让它在20秒的短序列上进行推理。结果两项评估指标(FAD和CLAP分数,这两个概念后面会解释)都出现了明显下滑,证明固定长度模型无法做到高效的可变长度推理,而Stable Audio 3的原生可变长度设计则在各个长度上保持了稳定的表现。
**三、Stable Audio 3的"声音压缩器":语义声学自编码器**
扩散模型做音频生成有一个基本前提:不能直接在原始音频波形上"去噪",因为原始波形的数据量太大了,一秒钟44100个采样点,一分钟就是两百多万个数据点,计算量无法承受。标准做法是先用一个"压缩器"把原始音频压缩成一个紧凑的"代号序列",扩散模型只在这些代号上工作,生成完成后再用"解压器"把代号还原成真实音频。
Stable Audio 3使用的压缩器叫做SAME(Semantically-Aligned Music AutoEncoder,语义对齐音乐自编码器),这是团队另一项相关研究的成果,在本文中作为基础组件使用。SAME的压缩比达到了4096倍——也就是说,原本长度为4096个采样点的音频,经过压缩后变成1个"代号"(严格来说是一个256维的向量,可以理解为一个有256个数字的"代号")。相比之下,同类工作通常只压缩1024到2048倍,SAME的压缩比明显更激进。这种激进压缩让中型和小型模型能在消费级GPU甚至MacBook的CPU上生成几分钟的长音频成为现实。
SAME是怎么做到这么高压缩比的呢?它的工作流程分两步走。第一步是"打补丁":把立体声44.1kHz的音频波形切成256个采样点一组的小块,每块作为一个基本单元,这一步实现了256倍压缩。第二步是一种叫做"Transformer重采样块"(TRB)的独特结构,再做16倍压缩,两步合计达到4096倍。
TRB的工作方式颇为巧妙:把输入序列每两个(或多个)元素编为一组,在每组里插入一个可学习的"占位符",然后让整个序列(原始元素加上占位符)通过多层Transformer处理。处理完毕后,只保留那些"占位符"位置的输出,把原始元素的输出全部丢弃。这相当于让这些占位符在学习过程中"吸收"了附近原始元素的关键信息,然后作为压缩后的代表输出。在解压阶段,这个过程反过来:每个压缩代号被配上若干个新的占位符,处理后保留占位符输出,实现扩张。
压缩器输出的代号序列对于后续的扩散模型训练质量有直接影响。SAME的一个核心设计目标是让这些代号不只包含"声音是什么"(声学信息),还包含"声音在说什么"(语义信息)。为了实现这个目标,SAME在训练时同时接受了五种不同性质的损失函数约束。
第一种是多分辨率频谱重建损失,在七种不同的FFT分辨率(从32点到2048点,每种都有75%的帧重叠)上分别计算频谱对比度、对数幅度L1距离和瞬时频率相位误差,确保还原出的声音在各个细节尺度上都够精确。为了处理立体声,这种损失分别在"和声"(左右声道相加)和"差音"(左右声道相减)两种表示形式上独立计算。第二种是对抗损失,采用相对论GAN目标,通过一个判别器来逼迫生成质量更接近真实。第三种是扩散对齐损失,用一个小型扩散Transformer(4层,768维)直接在SAME的潜空间上训练,梯度反流回编码器,推动编码器学习出"对扩散模型友好"的潜空间几何结构。第四种是语义回归损失,用两个轻量线性回归器分别预测"色度特征"(音调结构)和"耳间电平差"(ILD,立体声宽度信息),强迫潜代号保留这些高层语义特征。第五种是对比潜空间对齐损失,用一个4层、1024维的Transformer判别器来判断"潜代号序列、小波音频特征、文字描述"三者是否来自同一段音频,从而推动潜代号同时与音频内容和文字描述保持对齐。
在实际部署中,small使用的是参数较少(约1.08亿)的SAME-S版本,这个版本专门为CPU推理做了轻量化优化;medium和large使用参数更多(约8.52亿)的SAME-L版本,保留了完整的表达能力。两个版本的压缩比和代号维度完全相同,保持了架构上的统一性。SAME编码器和解码器在扩散模型训练期间保持冻结状态,不再更新参数。
**四、"声音工厂"的核心机器:扩散Transformer**
有了SAME提供的紧凑代号序列,接下来扩散Transformer就在这些代号上进行生成。这个Transformer是整个系统的"大脑",三种规模模型的区别主要就在于这个大脑的大小:small的Transformer有20层,每层1024维,16个注意力头;medium有24层,1536维,24个注意力头;large有26层,2048维,32个注意力头。
把这个Transformer拆开来看,它接受信息的方式有三个通道,就像一个调音台上的三个推子。
第一个推子是"文字理解通道"。用户输入的文字描述(比如"爵士钢琴独奏")会先被一个叫做T5Gemma的文字编码器处理,把文字转化成256个768维的向量序列。短于256个词的提示会用一个专门学习的"填充向量"补齐,长于256个词的提示会被截断。文字向量与时长向量(描述要生成多长音频)拼接在一起,通过"交叉注意力"机制注入每个Transformer层,让模型时刻记住"我要生成什么内容"。
第二个推子是"全局时间步通道"。扩散模型在工作时需要知道"现在处于去噪过程的哪个阶段",这个信息叫做时间步t(从0到1,0代表完全干净,1代表完全噪声)。时间步和时长信息都被编码成256维傅里叶特征,再各自经过一个MLP映射到d维,然后相加,通过叫做"自适应层归一化"(AdaLN)的机制调节每个Transformer层内部的计算行为,起到类似"调节整体处理节奏"的作用。这里用的是一种叫做AdaLN-Single的变体:条件向量在所有Transformer层之间共享,每层只独立学习6个偏置项,大幅减少了条件化所需的参数量。
第三个推子是"局部编辑通道",专门用于实现后文要介绍的"音频修复"功能。它把参考音频(经过SAME编码后的潜代号)和一个二值掩码(标记哪些位置需要保留、哪些需要生成)拼接成257维的帧级信号,通过一个两层MLP投影到d维,逐帧相加到每个Transformer层的中间状态。MLP的最后一层权重初始化为零,这样在训练开始时这个通道对模型毫无影响,可以平滑地从一个不具备编辑功能的基础模型微调而来。
除了这三个条件化通道,Transformer还有两个值得专门说明的设计细节。一是"记忆嵌入":在序列输入Transformer之前,会在前面拼接64个可学习的"记忆向量",让序列中每个位置都能通过注意力机制访问这64个全局上下文槽位,类似于给所有声音帧共享一块黑板。处理完毕后,这64个记忆向量被丢弃,不参与最终输出。二是"差分注意力":medium和large使用了一种改进的注意力机制,它用两组独立的Q、K矩阵分别计算两个注意力权重图,然后把二者相减,从而消除两组共有的"噪声"模式,让注意力更专注于真正重要的关联。small由于参数预算有限,使用的是普通多头注意力。
在位置编码方面,Transformer对每个注意力头只旋转前32个维度(部分RoPE),其余维度不携带位置信息,这是为了让模型在处理不同长度序列时保持灵活性。此外,Q和K在进入注意力计算前都会经过RMSNorm归一化,防止注意力分数无限增大。
**五、三阶段训练:从"打草稿"到"专业润色"**
Stable Audio 3的训练分三个相互衔接的阶段进行,可以用"写文章"来打比方:第一阶段像是打草稿,把文章的主要内容和结构写出来;第二阶段像是把草稿简练化,尽量用少几步的语言表达同样的意思;第三阶段像是找专业编辑润色,让文章既精炼又生动。
**流匹配预训练**
第一阶段使用的技术叫"流匹配"(Flow Matching)。直觉上,扩散模型的工作就是在"纯噪声"和"干净音频代号"之间建立一条路径,每次去噪走这条路径上的一小步。流匹配给出了这条路径的一个特别简洁的定义:从噪声ε和干净数据x?之间做线性插值,时间步t∈[0,1]时的混合状态就是x?=(1-t)·x?+t·ε,路径上的"速度方向"v=ε-x?始终是个常数。模型要学习的就是给定任意时刻的状态x?,预测出速度方向v。
为了让这条路径尽量短而直,团队引入了"最小批量最优传输配对"技术:在每个训练批次里,用Sinkhorn算法快速求解一个近似的最优分配问题,把数据样本x?和噪声样本ε重新配对,使得每对之间的平方L2距离之和最小。这样配对后的路径更短、更少交叉,让模型更容易学习,推理时也走得更准。
训练时的时间步采样来自"截断logit正态分布":先从标准正态分布采样z,再经过σ函数映射到(0,1)区间,然后截掉t<0.075的部分(这些时间步对应"几乎干净"的状态,学习起来太简单,不划算),最后重新缩放到[0,1]。采样出来的t还会根据前面介绍的序列长度偏移公式进一步调整,确保长序列获得更高噪声时间步的训练机会。
每个训练步里,还会随机给数据生成一个二值掩码,按照"全掩码(概率80%,等同于无条件生成)、随机段掩码(概率10%,修复选定区域)、因果掩码(概率10%,延续给定前缀)"三种类型混合。掩码信息和被掩码后的潜代号通过"局部加法条件化"通道注入模型,损失函数则分别对"待生成区域"和"保留区域"的预测误差独立平均,再相加。
为了允许无条件生成(推理时可以用这个来做引导),训练时以10%的概率随机把文字和时长的条件向量替换为零向量,模拟"没有条件输入"的场景。
**蒸馏预热**
完成第一阶段预训练后,模型虽然生成质量不错,但推理时需要50到100步,每步都要完整过一遍Transformer,速度很慢。第二阶段的"蒸馏预热"目标是把模型改造成"一步就能给出答案"的模式。
具体做法是:冻结原来的预训练模型作为"教师",用一份与教师相同架构的模型初始化"学生"。教师用15步DPM++采样器(带有CFG引导比例5.0)从随机噪声ε生成一条完整轨迹,缓存中间状态(x?, t)和最终去噪结果x?。每隔4个训练迭代刷新一次缓存,平衡计算开销和数据多样性。学生的任务是:给定轨迹上的任意一个中间状态x?,直接预测终点x?,损失函数是学生预测的x?与教师的x?之间的均方误差。学生输出的是速度vθ,通过一步欧拉公式x?=x?-t·vθ转换为对x?的估计。
这个阶段进行约10000步训练,把多步ODE求解压缩成"从任意x?直接跳到x?"的单步映射。但MSE损失有一个众所周知的问题:它让模型倾向于预测条件期望,即给出所有可能答案的"平均版本",导致生成结果模糊、缺乏细节,就像一张多次曝光叠加的照片。这就是为什么还需要第三阶段。
**对抗后训练**
第三阶段引入了一个判别器(鉴别器),把整个训练变成"生成器对抗判别器"的博弈,从而逼迫模型从"预测平均答案"转向"从真实数据分布中采样"。这个阶段完全抛弃了教师模型,直接用真实数据作为标杆,让模型有可能超越教师的质量上限。
判别器的设计很有特色:它复用了与生成器相同的Transformer架构,从流匹配预训练(未经蒸馏预热)的检查点初始化,因此一开始就带有丰富的语义表示能力。真实音频x?和生成器输出x?都会被重新加噪到一个独立的随机噪声水平tD(与生成器使用的t无关),两者共享相同的新噪声向量ε',这样在相对论比较时,加入的噪声分量相互抵消,判别器判断的是x?和x?本身的质量差异,而非噪声差异。判别器从Transformer第14层提取特征,经过一个由输入卷积、4个残差块和最终评分卷积组成的头部结构,输出每帧的"真实度分数"。
训练用了三种损失。"相对论对抗损失"让生成器努力让"生成样本的真实度分数"超过"配对真实样本的真实度分数",判别器则反过来努力让真实样本分数高于配对生成样本——基于softplus函数实现平滑的梯度行为。这种相对论配对方式之所以有效,是因为配对的真实样本和生成样本使用的是同一个文字提示,具有极强的相关性,提供了比随机配对更强的训练信号。"对比损失"则专门用于训练判别器:把批次内的提示循环错位,让判别器同时区分"正确配对的音频-文字"和"错位配对的音频-文字",防止判别器只关注音频本身的质量而忽略文字对齐,强迫它理解语义匹配。"CLAP损失"是一个专为生成器设计的文字对齐损失:用一个冻结的CLAP模型(直接作用于SAME潜代号,无需解码成波形)计算生成结果和文字提示之间的嵌入距离,采用单位超球面上的平方测地距离(而非常见的余弦距离),因为平方测地距离在整个角度范围内都能提供稳定的梯度。这个损失作为语义锚点,防止对抗训练过程中的模式崩溃,确保生成器始终对提示保持响应。
对抗后训练还有一个重要的架构选择:保留了流匹配的速度参数化形式vθ,通过一步欧拉公式恢复x?,而不是让网络直接输出x?。这样做的好处是:在t=0时,模型被迫输出x?=x?,提供了一个自然的边界约束;随着噪声水平t增大,网络影响力线性增大,避免在低噪声区域做出过大修正;同时保持了与流匹配预训练权重的连续性,让训练从一个良好的初始状态出发。
**六、推理时的节拍:Ping-Pong采样**
经过对抗后训练,模型具备了"从任意噪声水平x?一步直接给出x?"的能力。但实验表明,从纯噪声(t=1)直接一步生成干净音频(t=0)的效果并不理想,因为这一步跨度太大、误差积累太多。团队的解决方案是"Ping-Pong采样"——字面意思就像乒乓球一样来回弹跳。
具体流程是:从纯噪声ε出发,先"去噪"得到一个估计x?;然后不直接使用这个估计,而是把它和一个全新的随机噪声按照一个较低的新噪声水平t?重新混合,得到一个新的x??;再从这个x??"去噪"得到新的x?;如此反复,每次重新混合时使用的噪声水平都递减,直到最终t接近0时输出最终结果。
这个过程有一个标准的ODE求解器不具备的重要优势:自我纠错能力。如果前几步(噪声水平高时)的估计不准,重新混合噪声后产生的新状态已经融入了这个不完美估计,下一步去噪会自然地修正这个偏差。相比之下,标准ODE求解器一旦在某步走错方向,后续所有步骤都从错误位置出发,误差会累积放大。
时间步的安排不是线性均匀分布,而是在logSNR(对数信噪比)空间内均匀分布,因为人耳对声音质量的感知大致与logSNR均匀变化相关,这样安排能让每步处理的感知难度大致相当。具体地,选取N+1=9个logSNR节点,范围为[-6.2, 2.0],通过公式t?=σ(-λ?)转换为时间步。实验发现8步Ping-Pong采样是效率和质量的最佳平衡点。
推理时不需要"分类器自由引导"(CFG,一种用于提升文字对齐度但需要双倍计算量的技巧)。这是因为蒸馏预热阶段的教师使用了CFG生成轨迹,学生已经内化了CFG带来的质量提升;对抗后训练的CLAP损失进一步强化了文字对齐。少了CFG,每步只需一次前向传播,在边缘设备上尤其节省计算资源。
推理时的序列长度计算也有专门设计:对于用户请求的d秒音频,实际分配的序列长度是?(d+6)·44100/4096?帧,其中6秒是额外的静音缓冲区。静音区域有两个作用:防止音频在序列末端产生突然截断的边界伪影,以及为解码器提供淡出缓冲。生成完成后,截取前d秒输出,丢弃缓冲区。
**七、实验结果:数字背后的故事**
团队用两个评估数据集来测试所有模型。一个是"歌曲描述数据集"(SDD),包含424对120秒器乐音乐和人工描述标注,专门用于器乐音乐评估;另一个是BBC音效数据集,包含多个时长子集(5秒、10秒、30秒、120秒),专门用于音效评估。评估指标主要有两个:FAD(Fréchet音频距离,衡量生成音频和真实音频的分布相似度,越低越好)和CLAP分数(衡量生成内容与文字描述的语义匹配程度,越高越好)。此外还进行了含14位参与者的主观聆听测试,评分维度包括总体质量(OVL)、文字相关性(REL)和音乐性(MUS)。
在器乐音乐生成方面,以120秒为基准,medium的FAD为0.107,large的FAD为0.101,均与内部基准Stable Audio 2.5(FAD 0.106)持平或略优,且主观音乐性评分(medium获4.15分,large获4.30分,满分5分)明显高于Stable Audio 2.5的3.70分。对比开源竞品,DiffRhythm 2的FAD为0.293,ACE-Step 1.5的FAD为0.193,均与Stable Audio 3差距显著。在推理速度上,Stable Audio 3生成120秒音乐只需不到1秒,而ACE-Step 1.5需要6.23秒,DiffRhythm 2需要3.88秒。
在音效生成方面,以5秒为基准,large的FAD为0.358,medium为0.369,均优于所有开源竞品(最好的Woosh Flow为0.580,TangoFlux为0.760)。主观质量评分方面,large和medium也排在前列。值得一提的是,Woosh Flow虽然主观质量评分尚可,但其FAD分数偏高,研究团队分析原因是Woosh Flow生成的音频带宽有限(即某些频率范围的声音被截断),导致与参考音频分布不符。
在可变长度生成的稳定性方面,Stable Audio 3各模型在从20秒到380秒的不同长度上都保持了较为一致的表现,而Stable Audio 2.5一旦偏离训练长度就出现明显退化,验证了原生可变长度设计的优越性。在极短(20秒)时表现略差,团队分析是因为训练集里的短音频大多是循环片段而非完整的曲子,与评估数据集中的完整曲子有分布差异;在极长(380秒)时CLAP分数明显下降,原因是训练集里的超长音频大多是氛围音乐或古典音乐,导致模型在被要求生成很长时间时倾向于漂移到这些风格,忽略文字提示。
关于对抗后训练的效果,将后训练模型(8步Ping-Pong)与基础模型(50步欧拉)对比:器乐音乐方面,medium后训练FAD为0.107对基础的0.143,CLAP为0.390对0.352,同时推理时间从3.87秒降至0.78秒,质量和速度双双提升。音效方面,similar趋势也得到了验证。单步生成(1步Ping-Pong)虽然速度极快(medium仅需0.27秒),但质量明显下滑(FAD从0.107升至0.258),这说明8步是必要的折中。
**八、编辑功能:给声音动手术**
Stable Audio 3的音频编辑能力通过"内绘"(Inpainting)机制实现,这个名字借自图像编辑领域,意思是"在指定区域内重新绘制"。对于音频来说,就是指定一段或多段需要修改的区域,让模型在保留其余部分不变的同时,重新生成这些区域的内容。
使用方式是:提供原始音频和一个二值掩码(1表示保留,0表示重新生成),以及文字提示(描述目标效果)。掩码和被遮蔽的潜代号序列一起通过局部加法条件化通道注入Transformer,模型在扩散过程中自然地生成与上下文衔接的新内容。训练时三种掩码类型(全掩码80%、随机段掩码10%、因果掩码10%)的混合,确保了模型对三种编辑场景都有充分的学习。
团队在器乐音乐和音效两类数据上分别评估了三种编辑场景:单段内绘、双段内绘和延续(保留前缀、生成后续内容)。在器乐音乐的单段内绘中,large的全音频FAD为0.047,仅略高于原始音频(FAD=0说明完全相同),表明修复后的音频与原始参考音频高度相近。双段内绘的数字与单段接近,说明模型处理两个独立掩码区域和一个掩码区域同样得心应手。延续场景的FAD数字相对较高,这是因为延续的生成区域缺少后端上下文约束,生成内容与原始录音的分布偏离更大,是客观存在的技术局限,并非模型失误。
**九、在你的设备上运行:内存与速度数据**
对于关心"这玩意儿能不能在我电脑上跑"的读者,团队详细测试了不同设备和不同加速方式下的实际表现。
在H200服务器显卡上,small生成120秒音频的峰值显存用量为2.40GB,medium为6.49GB,large为9.01GB。生成时间方面(标准PyTorch,8步Ping-Pong),small生成120秒只需0.45秒,medium需0.78秒,large需0.81秒。如果使用TensorRT加速(一种专门优化神经网络推理速度的工具),速度可以再提升一个数量级:medium生成120秒只需0.13秒,large只需0.19秒。
在MacBook Pro M4上,CPU专属运行模式下,small生成120秒需要5.92秒;切换到CoreML加速模式(同时利用CPU、GPU和神经引擎),只需3.09秒。虽然比H200慢很多,但能在本地完全离线地生成高质量音乐,对于隐私敏感或没有稳定网络的用户来说非常有意义。
**说到底,这意味着什么**
Stable Audio 3把高质量AI音乐生成真正带到了普通创作者触手可及的地方。对于独立游戏开发者、播客制作人、短视频创作者,乃至中学生做课堂展示的配乐需求,一台普通笔记本就够了;不满意某段效果时,直接用内绘功能替换那几秒,不需要重新生成整首曲子;生成短音效不会因为要跑满最长序列而浪费时间和电量。
当然,这项研究也有清晰的局限:超长音频(比如完整的6分20秒)在文字提示遵从度上仍有下降;训练数据中某些时长段的音频偏向特定风格,使模型在对应时长上产生偏好;延续性编辑在没有后端上下文约束时仍然存在漂移风险。这些都是后续研究可以继续深挖的方向。
有兴趣进一步探索的读者,可以通过arXiv编号2605.17991查阅完整技术报告,也可以直接访问GitHub上的Stability-AI/stable-audio-3和stable-audio-tools两个仓库,下载模型权重和推理代码自行体验。
---
**Q&A**
Q1:Stable Audio 3的small、medium、large三个模型有什么区别,普通人该选哪个?
A:三个模型的主要区别在于参数规模和最大生成时长。small约4.59亿参数,最长生成2分钟,峰值显存2.4GB,MacBook也能跑;medium约14亿参数,最长生成6分20秒,峰值显存6.5GB,需要8GB以上显存的消费级显卡;large约27亿参数,最长同样6分20秒,需要约9GB显存。普通创作者用medium基本够用,对配置有限制则选small,large是研究用途和追求最高质量时的选择。目前small和medium的权重已开源,large暂不开放下载。
Q2:Ping-Pong采样和普通扩散模型的去噪步骤有什么本质区别?
A:普通扩散模型的ODE求解器是"单向推进"——每步从当前状态往前走一小步,一旦走偏就会持续偏下去,误差累积无法纠正。Ping-Pong采样则是"去噪后重新加噪"的交替模式:每步先估计干净结果,再把这个估计和全新随机噪声按较低噪声水平混合,下一步从这个新状态出发。这意味着前几步的估计偏差会在重新加噪时被稀释,后续步骤有机会纠正,整体对早期误差更有容忍度。Stable Audio 3用8步Ping-Pong代替了基础模型的50步ODE,速度提升约6倍,质量还更好。
Q3:Stable Audio 3的音频内绘功能可以用来做哪些实际的创作任务?
A:音频内绘支持三类操作。单段内绘可以替换一首曲子中某个不满意的片段,比如把歌曲中间一段吉他solo换成钢琴版本,同时保留前后上下文的连贯性。双段内绘则同时替换两个独立区域,比如修改一首曲子开头和结尾的过渡片段。延续则是给定一段现有录音的开头,让模型按照提示自然延伸后续内容,适合给未完成的小样续写或把短音效扩展成长版本。这三种能力在训练时通过不同比例的掩码类型同时学习,不需要单独微调模型。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。