微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

Stability AI让AI音乐创作快到"飞起"：一款能在MacBook上跑、2秒生成6分钟音乐的开源神器

音频生成扩散模型可变长度生成

Stability AI让AI音乐创作快到"飞起"：一款能在MacBook上跑、2秒生成6分钟音乐的开源神器

作者：科技行者

2026-05-28 13:16

分享至：

Stability AI发布的Stable Audio 3是一组开源AI音频生成模型，可在MacBook CPU上运行，在H200服务器上2秒内生成长达6分20秒的立体声音乐，并支持局部音频编辑。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-28 13:16 • 科技行者

这项由Stability AI研究团队完成的技术报告于2026年5月18日发布在预印本平台arXiv，论文编号为arXiv:2605.17991v1，分类领域为计算机科学·声音（cs.SD）。有兴趣深入了解的读者可通过该编号在arXiv平台上查阅完整论文。

**一个让创作者头疼的老问题**

假设你是一位独立游戏开发者，正在为游戏的战斗场景配乐。你脑海里有一段模糊的旋律感觉——"快节奏、带电子元素、有点儿史诗感"，但你既不会作曲，也付不起配乐师的高昂费用。于是你打开了一款AI音乐生成工具，输入描述，按下生成按钮，然后……等了将近一分钟，还要占用大量电脑内存，最终生成出来的音乐长度固定，根本不符合你那段20秒场景的需要。

这个场景准确描述了AI音乐生成领域长期存在的三个核心痛点：太慢、太耗资源、不灵活。Stability AI的研究团队带着Stable Audio 3这一成果正面回应了这三个问题，而且交出的答卷相当有分量——用普通笔记本电脑的处理器就能运行，在顶级服务器显卡上不到2秒就能生成长达6分20秒的高质量音乐，还可以对已有的音频进行精确的局部编辑。

**一、Stable Audio 3究竟是什么，为什么值得关注**

Stable Audio 3本质上是一个"声音工厂"，你给它一段文字描述，它就能产出对应的音乐或音效。这个"工厂"实际上由三种不同规模的机器组成，团队分别称它们为small（小型）、medium（中型）和large（大型），就像洗衣机有迷你款、家用款和商用款一样，适用于不同的使用场景和设备条件。

small拥有约4.59亿个参数（可以把"参数"理解为机器内部的调节旋钮数量，旋钮越多，机器越精细），能生成最长2分钟的音频；medium拥有约14亿个参数，最长可生成6分20秒；large拥有约27亿个参数，同样支持6分20秒。在顶级H200服务器显卡上，small只需0.44秒，medium需1.31秒，large需1.80秒，就能完成一次生成。更值得一提的是，small和medium的模型权重是完全开放的，任何人都可以下载使用，代码托管在GitHub的Stability-AI/stable-audio-3仓库。

这三个模型还分了更细的专业分支：small-music专门生成器乐音乐，small-sfx专门生成音效，而medium和large则是音乐和音效兼顾的综合选手。之所以small要分开训练音乐版和音效版，是因为研究团队发现在参数有限的小模型里，音乐数据和音效数据会互相"干扰"，就像同一个厨师同时做川菜和粤菜，难免串味，分开反而各自更出色。

所有模型都在经过授权的商业音频和遵循知识共享协议（Creative Commons）的免费音频上训练，不存在版权隐患，这对于想把AI音乐工具用于商业项目的创作者来说是个很大的保障。

**二、解决"生成短音频还要等半天"的难题：可变长度生成**

在Stable Audio 3之前，绝大多数扩散模型式的音频生成器都有一个隐藏的浪费：不管你想要多短的音频，它都要按照最大长度来计算。以Stable Audio 3的前代产品Stable Audio 2.5为例，它的最大生成长度是190秒。如果你只需要一段20秒的音乐，它仍然要在内部生成完整的190秒内容，然后把多余的170秒静音扔掉——就像每次你去便利店只买一瓶水，收银员却坚持要给你装一个能放一冰箱东西的袋子，既浪费时间也浪费资源。

研究团队把这种方式叫做"固定长度生成"，而他们为Stable Audio 3开发的新方式叫做"可变长度生成"。核心思路是：需要多长就生成多长，计算量随着实际长度而变化。为了让这套方法在训练阶段也能稳定工作，团队设计了三个相互配合的技巧。

第一个技巧叫"可变长度注意力与掩码损失"。在模型训练时，一批数据里往往包含长短不一的音频片段，需要用补零的方式把它们凑成相同长度才能一起处理。但那些补上去的零其实没有信息，让模型去"学习"这些零是浪费，更可能导致模型混乱。团队的解决方案是给这些补位内容打上"标记"，让模型在计算时直接忽略它们，损失函数（衡量生成效果好不好的评分机制）也只对真实音频部分打分。

第二个技巧叫"按元素调整时间步偏移"。这里要引入扩散模型的一个基本概念：这类模型的工作方式类似于从一团噪声出发，一步一步把噪声"去掉"，最终还原出有意义的内容。每一步叫做一个"时间步"，时间步越大表示噪声越多。问题在于，长序列的音频片段因为内部元素之间有关联，在同样的噪声水平下，它保留的可恢复信息比短序列更多。如果用同样的噪声调度表训练长短不同的音频，长音频会被"欠噪化"，模型就没有充分学会处理高噪声情况下的长音频。团队的解决方案是：根据每段音频的实际长度，动态地把时间步往更高噪声的方向偏移——越长的音频，训练时就推向更嘈杂的区间，以此保持学习难度的平衡。具体的数学公式采用了一种叫做"逻辑斯谛形式"的映射，让这个偏移量在最短序列（偏移参数0.5）到最长序列（偏移参数1.15）之间平滑过渡。

第三个技巧叫"静音增强"。团队在训练时会随机地在真实音频后面拼接一段静音，静音的长度从指数分布中随机抽取，平均约4秒。这样做有两个目的：第一，防止模型把"我要生成的时长"和"实际音频信号就该这么长"死死绑定在一起；第二，训练模型学会自然地结束，而不是在到达序列末尾时突然断掉，留下一个生硬的截断感。

为了验证可变长度生成是否真的有效，团队还做了一个对照实验：故意把Stable Audio 2.5"误用"——明明是在190秒条件下训练的，却强行让它在20秒的短序列上进行推理。结果两项评估指标（FAD和CLAP分数，这两个概念后面会解释）都出现了明显下滑，证明固定长度模型无法做到高效的可变长度推理，而Stable Audio 3的原生可变长度设计则在各个长度上保持了稳定的表现。

**三、Stable Audio 3的"声音压缩器"：语义声学自编码器**

扩散模型做音频生成有一个基本前提：不能直接在原始音频波形上"去噪"，因为原始波形的数据量太大了，一秒钟44100个采样点，一分钟就是两百多万个数据点，计算量无法承受。标准做法是先用一个"压缩器"把原始音频压缩成一个紧凑的"代号序列"，扩散模型只在这些代号上工作，生成完成后再用"解压器"把代号还原成真实音频。

Stable Audio 3使用的压缩器叫做SAME（Semantically-Aligned Music AutoEncoder，语义对齐音乐自编码器），这是团队另一项相关研究的成果，在本文中作为基础组件使用。SAME的压缩比达到了4096倍——也就是说，原本长度为4096个采样点的音频，经过压缩后变成1个"代号"（严格来说是一个256维的向量，可以理解为一个有256个数字的"代号"）。相比之下，同类工作通常只压缩1024到2048倍，SAME的压缩比明显更激进。这种激进压缩让中型和小型模型能在消费级GPU甚至MacBook的CPU上生成几分钟的长音频成为现实。

SAME是怎么做到这么高压缩比的呢？它的工作流程分两步走。第一步是"打补丁"：把立体声44.1kHz的音频波形切成256个采样点一组的小块，每块作为一个基本单元，这一步实现了256倍压缩。第二步是一种叫做"Transformer重采样块"（TRB）的独特结构，再做16倍压缩，两步合计达到4096倍。

TRB的工作方式颇为巧妙：把输入序列每两个（或多个）元素编为一组，在每组里插入一个可学习的"占位符"，然后让整个序列（原始元素加上占位符）通过多层Transformer处理。处理完毕后，只保留那些"占位符"位置的输出，把原始元素的输出全部丢弃。这相当于让这些占位符在学习过程中"吸收"了附近原始元素的关键信息，然后作为压缩后的代表输出。在解压阶段，这个过程反过来：每个压缩代号被配上若干个新的占位符，处理后保留占位符输出，实现扩张。

压缩器输出的代号序列对于后续的扩散模型训练质量有直接影响。SAME的一个核心设计目标是让这些代号不只包含"声音是什么"（声学信息），还包含"声音在说什么"（语义信息）。为了实现这个目标，SAME在训练时同时接受了五种不同性质的损失函数约束。

第一种是多分辨率频谱重建损失，在七种不同的FFT分辨率（从32点到2048点，每种都有75%的帧重叠）上分别计算频谱对比度、对数幅度L1距离和瞬时频率相位误差，确保还原出的声音在各个细节尺度上都够精确。为了处理立体声，这种损失分别在"和声"（左右声道相加）和"差音"（左右声道相减）两种表示形式上独立计算。第二种是对抗损失，采用相对论GAN目标，通过一个判别器来逼迫生成质量更接近真实。第三种是扩散对齐损失，用一个小型扩散Transformer（4层，768维）直接在SAME的潜空间上训练，梯度反流回编码器，推动编码器学习出"对扩散模型友好"的潜空间几何结构。第四种是语义回归损失，用两个轻量线性回归器分别预测"色度特征"（音调结构）和"耳间电平差"（ILD，立体声宽度信息），强迫潜代号保留这些高层语义特征。第五种是对比潜空间对齐损失，用一个4层、1024维的Transformer判别器来判断"潜代号序列、小波音频特征、文字描述"三者是否来自同一段音频，从而推动潜代号同时与音频内容和文字描述保持对齐。

在实际部署中，small使用的是参数较少（约1.08亿）的SAME-S版本，这个版本专门为CPU推理做了轻量化优化；medium和large使用参数更多（约8.52亿）的SAME-L版本，保留了完整的表达能力。两个版本的压缩比和代号维度完全相同，保持了架构上的统一性。SAME编码器和解码器在扩散模型训练期间保持冻结状态，不再更新参数。

**四、"声音工厂"的核心机器：扩散Transformer**

有了SAME提供的紧凑代号序列，接下来扩散Transformer就在这些代号上进行生成。这个Transformer是整个系统的"大脑"，三种规模模型的区别主要就在于这个大脑的大小：small的Transformer有20层，每层1024维，16个注意力头；medium有24层，1536维，24个注意力头；large有26层，2048维，32个注意力头。

把这个Transformer拆开来看，它接受信息的方式有三个通道，就像一个调音台上的三个推子。

第一个推子是"文字理解通道"。用户输入的文字描述（比如"爵士钢琴独奏"）会先被一个叫做T5Gemma的文字编码器处理，把文字转化成256个768维的向量序列。短于256个词的提示会用一个专门学习的"填充向量"补齐，长于256个词的提示会被截断。文字向量与时长向量（描述要生成多长音频）拼接在一起，通过"交叉注意力"机制注入每个Transformer层，让模型时刻记住"我要生成什么内容"。

第二个推子是"全局时间步通道"。扩散模型在工作时需要知道"现在处于去噪过程的哪个阶段"，这个信息叫做时间步t（从0到1，0代表完全干净，1代表完全噪声）。时间步和时长信息都被编码成256维傅里叶特征，再各自经过一个MLP映射到d维，然后相加，通过叫做"自适应层归一化"（AdaLN）的机制调节每个Transformer层内部的计算行为，起到类似"调节整体处理节奏"的作用。这里用的是一种叫做AdaLN-Single的变体：条件向量在所有Transformer层之间共享，每层只独立学习6个偏置项，大幅减少了条件化所需的参数量。

第三个推子是"局部编辑通道"，专门用于实现后文要介绍的"音频修复"功能。它把参考音频（经过SAME编码后的潜代号）和一个二值掩码（标记哪些位置需要保留、哪些需要生成）拼接成257维的帧级信号，通过一个两层MLP投影到d维，逐帧相加到每个Transformer层的中间状态。MLP的最后一层权重初始化为零，这样在训练开始时这个通道对模型毫无影响，可以平滑地从一个不具备编辑功能的基础模型微调而来。

除了这三个条件化通道，Transformer还有两个值得专门说明的设计细节。一是"记忆嵌入"：在序列输入Transformer之前，会在前面拼接64个可学习的"记忆向量"，让序列中每个位置都能通过注意力机制访问这64个全局上下文槽位，类似于给所有声音帧共享一块黑板。处理完毕后，这64个记忆向量被丢弃，不参与最终输出。二是"差分注意力"：medium和large使用了一种改进的注意力机制，它用两组独立的Q、K矩阵分别计算两个注意力权重图，然后把二者相减，从而消除两组共有的"噪声"模式，让注意力更专注于真正重要的关联。small由于参数预算有限，使用的是普通多头注意力。

在位置编码方面，Transformer对每个注意力头只旋转前32个维度（部分RoPE），其余维度不携带位置信息，这是为了让模型在处理不同长度序列时保持灵活性。此外，Q和K在进入注意力计算前都会经过RMSNorm归一化，防止注意力分数无限增大。

**五、三阶段训练：从"打草稿"到"专业润色"**

Stable Audio 3的训练分三个相互衔接的阶段进行，可以用"写文章"来打比方：第一阶段像是打草稿，把文章的主要内容和结构写出来；第二阶段像是把草稿简练化，尽量用少几步的语言表达同样的意思；第三阶段像是找专业编辑润色，让文章既精炼又生动。

**流匹配预训练**

第一阶段使用的技术叫"流匹配"（Flow Matching）。直觉上，扩散模型的工作就是在"纯噪声"和"干净音频代号"之间建立一条路径，每次去噪走这条路径上的一小步。流匹配给出了这条路径的一个特别简洁的定义：从噪声ε和干净数据x?之间做线性插值，时间步t∈[0,1]时的混合状态就是x?=(1-t)·x?+t·ε，路径上的"速度方向"v=ε-x?始终是个常数。模型要学习的就是给定任意时刻的状态x?，预测出速度方向v。

为了让这条路径尽量短而直，团队引入了"最小批量最优传输配对"技术：在每个训练批次里，用Sinkhorn算法快速求解一个近似的最优分配问题，把数据样本x?和噪声样本ε重新配对，使得每对之间的平方L2距离之和最小。这样配对后的路径更短、更少交叉，让模型更容易学习，推理时也走得更准。

训练时的时间步采样来自"截断logit正态分布"：先从标准正态分布采样z，再经过σ函数映射到(0,1)区间，然后截掉t<0.075的部分（这些时间步对应"几乎干净"的状态，学习起来太简单，不划算），最后重新缩放到[0,1]。采样出来的t还会根据前面介绍的序列长度偏移公式进一步调整，确保长序列获得更高噪声时间步的训练机会。

每个训练步里，还会随机给数据生成一个二值掩码，按照"全掩码（概率80%，等同于无条件生成）、随机段掩码（概率10%，修复选定区域）、因果掩码（概率10%，延续给定前缀）"三种类型混合。掩码信息和被掩码后的潜代号通过"局部加法条件化"通道注入模型，损失函数则分别对"待生成区域"和"保留区域"的预测误差独立平均，再相加。

为了允许无条件生成（推理时可以用这个来做引导），训练时以10%的概率随机把文字和时长的条件向量替换为零向量，模拟"没有条件输入"的场景。

**蒸馏预热**

完成第一阶段预训练后，模型虽然生成质量不错，但推理时需要50到100步，每步都要完整过一遍Transformer，速度很慢。第二阶段的"蒸馏预热"目标是把模型改造成"一步就能给出答案"的模式。

具体做法是：冻结原来的预训练模型作为"教师"，用一份与教师相同架构的模型初始化"学生"。教师用15步DPM++采样器（带有CFG引导比例5.0）从随机噪声ε生成一条完整轨迹，缓存中间状态(x?, t)和最终去噪结果x?。每隔4个训练迭代刷新一次缓存，平衡计算开销和数据多样性。学生的任务是：给定轨迹上的任意一个中间状态x?，直接预测终点x?，损失函数是学生预测的x?与教师的x?之间的均方误差。学生输出的是速度vθ，通过一步欧拉公式x?=x?-t·vθ转换为对x?的估计。

这个阶段进行约10000步训练，把多步ODE求解压缩成"从任意x?直接跳到x?"的单步映射。但MSE损失有一个众所周知的问题：它让模型倾向于预测条件期望，即给出所有可能答案的"平均版本"，导致生成结果模糊、缺乏细节，就像一张多次曝光叠加的照片。这就是为什么还需要第三阶段。

**对抗后训练**

第三阶段引入了一个判别器（鉴别器），把整个训练变成"生成器对抗判别器"的博弈，从而逼迫模型从"预测平均答案"转向"从真实数据分布中采样"。这个阶段完全抛弃了教师模型，直接用真实数据作为标杆，让模型有可能超越教师的质量上限。

判别器的设计很有特色：它复用了与生成器相同的Transformer架构，从流匹配预训练（未经蒸馏预热）的检查点初始化，因此一开始就带有丰富的语义表示能力。真实音频x?和生成器输出x?都会被重新加噪到一个独立的随机噪声水平tD（与生成器使用的t无关），两者共享相同的新噪声向量ε'，这样在相对论比较时，加入的噪声分量相互抵消，判别器判断的是x?和x?本身的质量差异，而非噪声差异。判别器从Transformer第14层提取特征，经过一个由输入卷积、4个残差块和最终评分卷积组成的头部结构，输出每帧的"真实度分数"。

训练用了三种损失。"相对论对抗损失"让生成器努力让"生成样本的真实度分数"超过"配对真实样本的真实度分数"，判别器则反过来努力让真实样本分数高于配对生成样本——基于softplus函数实现平滑的梯度行为。这种相对论配对方式之所以有效，是因为配对的真实样本和生成样本使用的是同一个文字提示，具有极强的相关性，提供了比随机配对更强的训练信号。"对比损失"则专门用于训练判别器：把批次内的提示循环错位，让判别器同时区分"正确配对的音频-文字"和"错位配对的音频-文字"，防止判别器只关注音频本身的质量而忽略文字对齐，强迫它理解语义匹配。"CLAP损失"是一个专为生成器设计的文字对齐损失：用一个冻结的CLAP模型（直接作用于SAME潜代号，无需解码成波形）计算生成结果和文字提示之间的嵌入距离，采用单位超球面上的平方测地距离（而非常见的余弦距离），因为平方测地距离在整个角度范围内都能提供稳定的梯度。这个损失作为语义锚点，防止对抗训练过程中的模式崩溃，确保生成器始终对提示保持响应。

对抗后训练还有一个重要的架构选择：保留了流匹配的速度参数化形式vθ，通过一步欧拉公式恢复x?，而不是让网络直接输出x?。这样做的好处是：在t=0时，模型被迫输出x?=x?，提供了一个自然的边界约束；随着噪声水平t增大，网络影响力线性增大，避免在低噪声区域做出过大修正；同时保持了与流匹配预训练权重的连续性，让训练从一个良好的初始状态出发。

**六、推理时的节拍：Ping-Pong采样**

经过对抗后训练，模型具备了"从任意噪声水平x?一步直接给出x?"的能力。但实验表明，从纯噪声（t=1）直接一步生成干净音频（t=0）的效果并不理想，因为这一步跨度太大、误差积累太多。团队的解决方案是"Ping-Pong采样"——字面意思就像乒乓球一样来回弹跳。

具体流程是：从纯噪声ε出发，先"去噪"得到一个估计x?；然后不直接使用这个估计，而是把它和一个全新的随机噪声按照一个较低的新噪声水平t?重新混合，得到一个新的x??；再从这个x??"去噪"得到新的x?；如此反复，每次重新混合时使用的噪声水平都递减，直到最终t接近0时输出最终结果。

这个过程有一个标准的ODE求解器不具备的重要优势：自我纠错能力。如果前几步（噪声水平高时）的估计不准，重新混合噪声后产生的新状态已经融入了这个不完美估计，下一步去噪会自然地修正这个偏差。相比之下，标准ODE求解器一旦在某步走错方向，后续所有步骤都从错误位置出发，误差会累积放大。

时间步的安排不是线性均匀分布，而是在logSNR（对数信噪比）空间内均匀分布，因为人耳对声音质量的感知大致与logSNR均匀变化相关，这样安排能让每步处理的感知难度大致相当。具体地，选取N+1=9个logSNR节点，范围为[-6.2, 2.0]，通过公式t?=σ(-λ?)转换为时间步。实验发现8步Ping-Pong采样是效率和质量的最佳平衡点。

推理时不需要"分类器自由引导"（CFG，一种用于提升文字对齐度但需要双倍计算量的技巧）。这是因为蒸馏预热阶段的教师使用了CFG生成轨迹，学生已经内化了CFG带来的质量提升；对抗后训练的CLAP损失进一步强化了文字对齐。少了CFG，每步只需一次前向传播，在边缘设备上尤其节省计算资源。

推理时的序列长度计算也有专门设计：对于用户请求的d秒音频，实际分配的序列长度是?(d+6)·44100/4096?帧，其中6秒是额外的静音缓冲区。静音区域有两个作用：防止音频在序列末端产生突然截断的边界伪影，以及为解码器提供淡出缓冲。生成完成后，截取前d秒输出，丢弃缓冲区。

**七、实验结果：数字背后的故事**

团队用两个评估数据集来测试所有模型。一个是"歌曲描述数据集"（SDD），包含424对120秒器乐音乐和人工描述标注，专门用于器乐音乐评估；另一个是BBC音效数据集，包含多个时长子集（5秒、10秒、30秒、120秒），专门用于音效评估。评估指标主要有两个：FAD（Fréchet音频距离，衡量生成音频和真实音频的分布相似度，越低越好）和CLAP分数（衡量生成内容与文字描述的语义匹配程度，越高越好）。此外还进行了含14位参与者的主观聆听测试，评分维度包括总体质量（OVL）、文字相关性（REL）和音乐性（MUS）。

在器乐音乐生成方面，以120秒为基准，medium的FAD为0.107，large的FAD为0.101，均与内部基准Stable Audio 2.5（FAD 0.106）持平或略优，且主观音乐性评分（medium获4.15分，large获4.30分，满分5分）明显高于Stable Audio 2.5的3.70分。对比开源竞品，DiffRhythm 2的FAD为0.293，ACE-Step 1.5的FAD为0.193，均与Stable Audio 3差距显著。在推理速度上，Stable Audio 3生成120秒音乐只需不到1秒，而ACE-Step 1.5需要6.23秒，DiffRhythm 2需要3.88秒。

在音效生成方面，以5秒为基准，large的FAD为0.358，medium为0.369，均优于所有开源竞品（最好的Woosh Flow为0.580，TangoFlux为0.760）。主观质量评分方面，large和medium也排在前列。值得一提的是，Woosh Flow虽然主观质量评分尚可，但其FAD分数偏高，研究团队分析原因是Woosh Flow生成的音频带宽有限（即某些频率范围的声音被截断），导致与参考音频分布不符。

在可变长度生成的稳定性方面，Stable Audio 3各模型在从20秒到380秒的不同长度上都保持了较为一致的表现，而Stable Audio 2.5一旦偏离训练长度就出现明显退化，验证了原生可变长度设计的优越性。在极短（20秒）时表现略差，团队分析是因为训练集里的短音频大多是循环片段而非完整的曲子，与评估数据集中的完整曲子有分布差异；在极长（380秒）时CLAP分数明显下降，原因是训练集里的超长音频大多是氛围音乐或古典音乐，导致模型在被要求生成很长时间时倾向于漂移到这些风格，忽略文字提示。

关于对抗后训练的效果，将后训练模型（8步Ping-Pong）与基础模型（50步欧拉）对比：器乐音乐方面，medium后训练FAD为0.107对基础的0.143，CLAP为0.390对0.352，同时推理时间从3.87秒降至0.78秒，质量和速度双双提升。音效方面，similar趋势也得到了验证。单步生成（1步Ping-Pong）虽然速度极快（medium仅需0.27秒），但质量明显下滑（FAD从0.107升至0.258），这说明8步是必要的折中。

**八、编辑功能：给声音动手术**

Stable Audio 3的音频编辑能力通过"内绘"（Inpainting）机制实现，这个名字借自图像编辑领域，意思是"在指定区域内重新绘制"。对于音频来说，就是指定一段或多段需要修改的区域，让模型在保留其余部分不变的同时，重新生成这些区域的内容。

使用方式是：提供原始音频和一个二值掩码（1表示保留，0表示重新生成），以及文字提示（描述目标效果）。掩码和被遮蔽的潜代号序列一起通过局部加法条件化通道注入Transformer，模型在扩散过程中自然地生成与上下文衔接的新内容。训练时三种掩码类型（全掩码80%、随机段掩码10%、因果掩码10%）的混合，确保了模型对三种编辑场景都有充分的学习。

团队在器乐音乐和音效两类数据上分别评估了三种编辑场景：单段内绘、双段内绘和延续（保留前缀、生成后续内容）。在器乐音乐的单段内绘中，large的全音频FAD为0.047，仅略高于原始音频（FAD=0说明完全相同），表明修复后的音频与原始参考音频高度相近。双段内绘的数字与单段接近，说明模型处理两个独立掩码区域和一个掩码区域同样得心应手。延续场景的FAD数字相对较高，这是因为延续的生成区域缺少后端上下文约束，生成内容与原始录音的分布偏离更大，是客观存在的技术局限，并非模型失误。

**九、在你的设备上运行：内存与速度数据**

对于关心"这玩意儿能不能在我电脑上跑"的读者，团队详细测试了不同设备和不同加速方式下的实际表现。

在H200服务器显卡上，small生成120秒音频的峰值显存用量为2.40GB，medium为6.49GB，large为9.01GB。生成时间方面（标准PyTorch，8步Ping-Pong），small生成120秒只需0.45秒，medium需0.78秒，large需0.81秒。如果使用TensorRT加速（一种专门优化神经网络推理速度的工具），速度可以再提升一个数量级：medium生成120秒只需0.13秒，large只需0.19秒。

在MacBook Pro M4上，CPU专属运行模式下，small生成120秒需要5.92秒；切换到CoreML加速模式（同时利用CPU、GPU和神经引擎），只需3.09秒。虽然比H200慢很多，但能在本地完全离线地生成高质量音乐，对于隐私敏感或没有稳定网络的用户来说非常有意义。

**说到底，这意味着什么**

Stable Audio 3把高质量AI音乐生成真正带到了普通创作者触手可及的地方。对于独立游戏开发者、播客制作人、短视频创作者，乃至中学生做课堂展示的配乐需求，一台普通笔记本就够了；不满意某段效果时，直接用内绘功能替换那几秒，不需要重新生成整首曲子；生成短音效不会因为要跑满最长序列而浪费时间和电量。

当然，这项研究也有清晰的局限：超长音频（比如完整的6分20秒）在文字提示遵从度上仍有下降；训练数据中某些时长段的音频偏向特定风格，使模型在对应时长上产生偏好；延续性编辑在没有后端上下文约束时仍然存在漂移风险。这些都是后续研究可以继续深挖的方向。

有兴趣进一步探索的读者，可以通过arXiv编号2605.17991查阅完整技术报告，也可以直接访问GitHub上的Stability-AI/stable-audio-3和stable-audio-tools两个仓库，下载模型权重和推理代码自行体验。

---

**Q&A**

Q1：Stable Audio 3的small、medium、large三个模型有什么区别，普通人该选哪个？

A：三个模型的主要区别在于参数规模和最大生成时长。small约4.59亿参数，最长生成2分钟，峰值显存2.4GB，MacBook也能跑；medium约14亿参数，最长生成6分20秒，峰值显存6.5GB，需要8GB以上显存的消费级显卡；large约27亿参数，最长同样6分20秒，需要约9GB显存。普通创作者用medium基本够用，对配置有限制则选small，large是研究用途和追求最高质量时的选择。目前small和medium的权重已开源，large暂不开放下载。

Q2：Ping-Pong采样和普通扩散模型的去噪步骤有什么本质区别？

A：普通扩散模型的ODE求解器是"单向推进"——每步从当前状态往前走一小步，一旦走偏就会持续偏下去，误差累积无法纠正。Ping-Pong采样则是"去噪后重新加噪"的交替模式：每步先估计干净结果，再把这个估计和全新随机噪声按较低噪声水平混合，下一步从这个新状态出发。这意味着前几步的估计偏差会在重新加噪时被稀释，后续步骤有机会纠正，整体对早期误差更有容忍度。Stable Audio 3用8步Ping-Pong代替了基础模型的50步ODE，速度提升约6倍，质量还更好。

Q3：Stable Audio 3的音频内绘功能可以用来做哪些实际的创作任务？

A：音频内绘支持三类操作。单段内绘可以替换一首曲子中某个不满意的片段，比如把歌曲中间一段吉他solo换成钢琴版本，同时保留前后上下文的连贯性。双段内绘则同时替换两个独立区域，比如修改一首曲子开头和结尾的过渡片段。延续则是给定一段现有录音的开头，让模型按照提示自然延伸后续内容，适合给未完成的小样续写或把短音效扩展成长版本。这三种能力在训练时通过不同比例的掩码类型同时学习，不需要单独微调模型。

音频生成扩散模型可变长度生成

分享至