微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

Fish Audio发布S2：让AI不仅能说话，还能控制语气、情绪和多人对话的语音新技术

语音合成深度学习多模态生成

Fish Audio发布S2：让AI不仅能说话，还能控制语气、情绪和多人对话的语音新技术

作者：科技行者

2026-03-19 09:37

分享至：

Fish Audio团队发布的S2系统实现了语音合成技术的重大突破，支持精细的自然语言指令控制、多语言多人对话生成，以及毫秒级的实时响应。该系统采用创新的双重自回归架构和多阶段强化学习训练，在多项基准测试中达到业界领先水平，并已完全开源供研究和商业使用。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-03-19 09:37 • 科技行者

这项由Fish Audio团队开发的突破性研究发表于2026年3月，论文编号为arXiv:2603.08823v1，代表了文本转语音技术的重大进步。有兴趣深入了解技术细节的读者可以通过该编号查询完整论文，或访问研究团队在GitHub和Hugging Face上公开的代码和模型。

当你用手机导航时听到的那个机械声音，或者智能音箱回答问题时略显生硬的语调，这些都是传统语音合成技术的典型表现。虽然能让机器"说话"，但总让人感觉缺少了什么——没有情感起伏，没有语气变化，更别说像真人对话那样自然流畅了。就好比一位厨师只会做白水煮蛋，虽然能填饱肚子，但远远达不到美食的标准。

Fish Audio团队最新发布的S2系统，就像是给这位厨师配备了完整的调料库和精湛的烹饪技巧。这套系统不仅能让AI说话，还能精确控制说话的方式——是愤怒还是温柔，是窃窃私语还是大声呐喊，甚至能在一段语音中实现多个不同角色的对话，就像一部广播剧一样生动。

更令人惊叹的是，S2系统支持用自然语言来控制这些细节。你可以直接告诉它"用愤怒的语气说这句话"或者"在这里加个笑声"，它就能准确理解并执行。这就像拥有了一位完全听懂你指令的配音演员，随时准备按照你的要求调整表演风格。

传统的语音合成系统面临着一个根本挑战：如何让机器理解和表达人类语言中的细微差别。人类说话时不仅仅是发出声音，还会根据情境调整语调、加入停顿、改变节奏，甚至在合适的时候加入笑声或叹息。这些看似简单的元素，对机器来说却异常复杂，就像要求一台计算器不仅会算数，还要理解数字背后的情感含义一样困难。

Fish Audio团队通过创新的技术架构解决了这个难题。他们设计的系统采用了一种名为"双重自回归"的巧妙方法，可以想象成两个配合默契的厨师：第一个厨师负责规划整道菜的风味走向和主要结构，第二个厨师则专注于精雕细琢每一个细节。这种分工合作的方式，让系统既能掌握语言的整体逻辑，又能处理声音的精细特征。

在数据处理方面，研究团队构建了一套完整的"食材加工流水线"。他们开发的语音质量评估模型就像一位经验丰富的品鉴师，能够自动筛选出高质量的语音数据，剔除那些有噪音干扰或质量不佳的样本。同时，他们的语音标注系统能够自动识别并标记语音中的情感色彩、说话风格和语调变化，为后续的训练提供丰富的"调料信息"。

系统的训练过程采用了多阶段的方法，就像培养一位演员从基础发声练习到最终舞台表演的完整过程。首先进行大规模的预训练，让系统掌握基本的语言和语音对应关系；然后通过有监督的精调，教会系统如何响应具体的风格指令；最后通过强化学习进行优化，确保生成的语音既准确又自然。

一、突破性的架构设计：双重处理让语音更自然

Fish Audio S2的核心创新在于其独特的双重自回归架构，这种设计解决了传统语音合成中的一个关键瓶颈。要理解这个突破，我们可以把传统的语音合成比作一位画家试图同时处理画作的构图和细节描绘。当画家需要在一张巨大的画布上既要规划整体布局，又要精细刻画每一个笔触时，往往会顾此失彼，要么整体结构混乱，要么细节粗糙不堪。

传统系统面临的困境是，当它们试图生成高质量音频时，需要处理的数据序列会变得异常庞大。想象一下，如果要生成一分钟的语音，系统可能需要同时跟踪和生成数万个细微的声音特征点。这就像要求一个人在一秒钟内同时记住一本字典中每个字的位置和含义，显然超出了处理能力的极限。

Fish Audio团队的解决方案是将这个复杂任务分解为两个相对简单但相互配合的部分。他们设计的"慢速自回归器"专门负责理解和规划语音的语义内容，就像一位导演负责把握整部戏的节奏和情感走向。这个组件基于一个经过预训练的大型语言模型，能够深度理解文本的含义，并将其转换为语音的语义表示。

与此配合的"快速自回归器"则专注于声音的细节处理，就像一位技艺精湛的录音师，负责调整每一个音符的音调、音色和时长。这个轻量级的组件接收来自慢速自回归器的语义信息，然后快速生成所有必要的声音细节特征。

这种分工协作的设计带来了显著的效率提升。慢速自回归器只需要处理相对简单的语义序列，而快速自回归器虽然处理的细节更多，但由于其轻量级的设计，能够快速完成任务。两者结合，既保证了语音的语义准确性，又确保了声音质量的精细度。

更巧妙的是，系统采用了多编码簿融合技术，可以把它理解为一套精密的调色系统。传统的语音编码就像只有几种基本颜色的调色板，而Fish Audio S2使用了10层不同的"编码簿"，每一层都捕捉声音的不同特征。第一层专门处理语义信息，就像画作的主要轮廓；后面九层则逐步添加音调、音色、语速等细节特征，最终合成出丰富多彩的声音表现。

这种设计的另一个优势是支持流式生成，意味着系统不需要等待整个文本处理完毕才开始发声，而是可以边理解边生成，实现真正的实时对话。这就像一位经验丰富的同声传译员，能够在听到演讲者开始说话的瞬间就开始翻译，而不需要等待整段话说完。

二、智能数据处理：让AI学会分辨好声音

任何优秀的AI系统都离不开高质量的训练数据，而语音合成系统对数据质量的要求尤其苛刻。Fish Audio团队面临的挑战就像一位美食评论家需要从成千上万的餐厅中筛选出真正值得推荐的美食一样，不仅要求量大，更要求质优。

传统的数据处理方法往往依赖人工筛选和标注，这不仅效率低下，更难以处理大规模数据。而且人工标注存在主观性和不一致性问题，就像不同的品酒师对同一款酒可能给出完全不同的评价。Fish Audio团队开发的自动化数据处理流水线彻底改变了这一状况。

这套流水线的第一个关键组件是语音质量评估模型，它就像一位经验丰富的录音棚工程师，能够自动识别和评估语音的各个方面。这个模型基于预训练的w2v-BERT架构，经过大量高质量语音数据的训练，学会了识别什么是好的语音质量。它能够检测背景噪音、音质失真、说话者一致性等多个维度，确保只有最优质的语音数据进入训练流程。

更令人印象深刻的是系统的智能标注能力。传统的语音数据通常只包含文字转录，就像一本书只有文字没有标点符号和段落结构。而Fish Audio的富文本转录系统能够自动识别和标注语音中的情感色彩、语调变化、停顿位置，甚至是笑声、叹息等副语言特征。

这个转录系统基于Qwen3-Omni-30B模型进行优化，不仅能准确转录说话内容，还能生成详细的语音描述。比如，当系统听到一段包含愤怒情绪的语音时，它会自动在转录文本中添加"愤怒地"、"强调"等标签，当遇到笑声时会标注"延长的笑声"，遇到耳语时会添加"小声地"等描述。

这种自动标注的价值在于为后续的训练提供了丰富的控制信息。就像给一位演员提供详细的剧本注释，告诉他们每一句话应该用什么语调、什么情感来表达。有了这些精细的标注，AI系统就能学会如何根据不同的指令生成相应的语音风格。

数据处理流水线的另一个创新是其三阶段处理架构。第一阶段是语音分离和切分，使用专门的算法将混合音频中的人声部分提取出来，并按照语义单位进行切分。第二阶段是质量过滤，语音质量评估模型会对每个音频片段进行评分，筛除那些质量不达标的样本。第三阶段是富文本转录，生成包含详细风格指令的转录文本。

整个流水线处理了超过一千万小时的多语言音频数据，覆盖约80种语言和方言。这个规模相当于一个人连续听音频超过一千年，数据的丰富性为系统的多语言能力和表现力提供了坚实基础。

特别值得一提的是，这套数据处理系统不仅用于预训练阶段，还直接服务于后续的强化学习优化。同样的质量评估模型和转录系统被重新用作奖励信号的来源，确保了训练过程的一致性，避免了不同阶段之间的分布偏移问题。

三、渐进式训练策略：从基础发声到情感表达

Fish Audio S2的训练过程就像培养一位世界级的配音演员，需要经历从基础发声练习到复杂情感表达的完整旅程。研究团队设计了一套四阶段的训练策略，每个阶段都有明确的目标和循序渐进的难度提升。

训练的第一阶段是音频编码器的训练，这相当于教会系统如何"听懂"声音。这个446百万参数的编码器需要学会将连续的音频波形转换为离散的数字表示，就像将一幅画转换为数字像素。训练过程采用了复合生成对抗网络损失框架，使用三种不同的判别器来确保音频重建的保真度。这就像同时请来三位不同专业背景的评委，从不同角度评判重建音频的质量。

第二和第三阶段是大规模预训练，这是整个系统学习语言和语音对应关系的关键时期。研究团队将预训练分为两个子阶段：第一子阶段建立基础的跨模态对齐，最大上下文长度为8192个词元；第二子阶段扩展到16384个词元，使系统能够处理更长的音频和支持多轮对话。

预训练使用的数据量达到5000亿词元，这个规模相当于阅读数百万本书籍的文字量。训练过程中，系统学习将文字描述转换为相应的语音表示，逐步掌握语言的语义结构和语音的声学特征之间的复杂映射关系。

训练策略的一个重要创新是词汇表扩展和初始化方法。系统在原有的Qwen3-4B词汇表基础上增加了结构化控制词元和4096个语义词元。为了确保新词元能够平滑融入现有的特征空间，研究团队采用了基于现有嵌入矩阵统计特性的初始化方法，新词元的初始嵌入从多变量正态分布中采样，该分布的均值和协方差与现有文本嵌入矩阵保持一致。

第四阶段是有监督精调，使用精心标注的内部高质量数据进一步提升系统的表现力和可控性。这个阶段就像为演员提供专业的表演指导，教会他们如何根据不同的剧本要求调整自己的表演风格。

训练过程中的一个技术亮点是模态交错策略，70%的训练序列会在文本和音频之间进行细粒度交错，比如每10个文本词元后跟20个音频词元。这种设计显著增强了文本与音频之间的对齐稳定性，确保生成的语音与输入文本保持严格的单调对应关系。

损失函数的设计也体现了深思熟虑。对于慢速自回归器，系统采用标准的自回归语言建模目标，但通过引用掩码确保系统不会简单地记忆参考音频。对于快速自回归器，训练目标监督音频词元的逐层生成，并采用渐进式权重衰减策略，更好地匹配推理时的设置。

整个预训练框架基于全分片数据并行技术构建，采用差异化学习率策略，对文本基础参数使用较低学习率，对音频模块使用较高学习率。结合预热-稳定-衰减的调度策略，确保了大规模训练的稳定性和高吞吐量。

为了防止系统在音频生成训练中遗忘原有的文本处理能力，训练数据中保持了30%的高质量纯文本语料。同时，为了增强对非标准现实文本输入的鲁棒性，系统应用了随机大小写变换、音素注入和格式转换等在线数据增强技术。

四、强化学习优化：让AI学会自我完善

在完成基础训练后，Fish Audio S2还需要经历一个类似"实战演练"的强化学习阶段，这个过程就像一位已经掌握基本技能的演员通过大量实践和反馈来精进自己的表演艺术。传统的监督学习虽然能让系统掌握基本的语音生成能力，但在处理复杂的现实场景时，仍然可能出现幻觉、词汇跳跃和音色漂移等问题。

音频生成的强化学习面临着独特的挑战，因为音频序列异常长，使得标准的近端策略优化算法在计算上变得不可行。研究团队采用了一种受群体相对策略优化启发的算法，这种方法完全消除了价值网络的需要，通过群体级统计来估计优势。

具体来说，对于给定的提示，系统会独立采样生成多个候选输出，然后计算每个候选的优势为其奖励与组内平均奖励的差值。这种方法的巧妙之处在于，它不需要额外训练一个复杂的价值评估网络，而是通过同批次样本之间的相对比较来确定优化方向。

奖励系统的设计是强化学习成功的关键，Fish Audio团队构建了一个多维度、正交的反馈系统。最终的奖励信号是三个不同维度奖励的加权融合：语义准确性奖励、声学偏好奖励和音色相似性奖励。

语义准确性奖励利用数据处理流水线中的自动语音识别标注模型，该模型能够提取逐词元的置信度作为连续信号。为了强制严格的指令遵循，系统实现了词元加权掩码，对错误的说话人标识标签应用更强的惩罚，并对遗漏的声音指令额外施加惩罚。声学偏好奖励由数据流水线中的语音质量模型评分，而音色相似性奖励则利用外部声纹模型提取特征并计算余弦相似度。

训练过程中的奖励曲线显示，总奖励在收敛前持续上升，证明了多维奖励设计在提供稳定一致训练信号方面的有效性。这种多维度的反馈机制确保了系统在提升一个方面性能的同时不会损害其他方面的表现。

为了防止计算密集的评分模型造成主节点空闲，整个评分系统被抽象为异步解耦架构。结合集中式波形缓存，这最大化了强化学习后训练阶段的rollout吞吐量。

另一个重要的技术创新是LoRA权重交换机制，用于高效计算策略损失中的KL散度惩罚。系统不需要在显存中永久维护一个冗余的完整参考模型，而是将参考策略作为LoRA权重备份保存在CPU内存中，在散度计算期间动态交换进行无梯度前向传播，显著降低了峰值内存占用。

系统采用秩稳定化LoRA技术，参数设置为r=16, α=64，专门更新多层感知机层。这种设计在保持训练效率的同时确保了模型更新的稳定性。

强化学习阶段的成果不仅体现在量化指标的提升上，更重要的是系统获得了处理复杂现实场景的能力。经过这一阶段的训练，系统能够更好地理解和执行复杂的自然语言指令，生成更加自然和富有表现力的语音，同时显著减少了幻觉和不一致性问题。

五、超高效推理引擎：实现毫秒级响应

拥有强大的模型只是成功的一半，如何让这个模型在实际应用中快速响应用户需求同样重要。Fish Audio团队基于SGLang框架构建的推理引擎，就像为一台高性能跑车配备了顶级的传动系统和轮胎，确保强大的性能能够完全释放出来。

传统的语音合成系统在部署时面临着一个两难选择：要么追求高质量但牺牲速度，要么提升速度但降低质量。Fish Audio S2的推理引擎巧妙地解决了这个矛盾，实现了既快又好的理想状态。

推理引擎的核心优势来自于其对SGLang框架的深度定制。SGLang原本是为大型语言模型设计的服务框架，具有连续批处理、分页键值缓存、CUDA图重放等先进特性，还包括用于高效前缀缓存的RadixAttention技术。通过充分利用这些LLM原生优化技术，系统能够实现最大的GPU利用率和最小的生成延迟。

值得一提的是，实现如此高性能并不需要对底层引擎进行大规模修改。由于双自回归架构在结构上与标准的自回归文本LLM同构，自回归复杂性完全封装在原生前向传播中。SGLang的核心调度器和执行引擎对音频模态完全透明，使系统能够零摩擦地继承所有LLM原生优化技术。

为了适应音频生成的特殊需求，研究团队引入了几个针对性的修改。首先是API层面的输入输出绕过，跳过标准的文本分词器和去分词器，允许包含语义输入和离散声学词元的混合提示，并支持流式声学词元ID输出。

其次是多词元索引键的扩展，将原本为单个文本词元设计的RadixCache扩展为能够联合编码语义和声学词元的多词元索引键。这种修改使RadixCache能够缓存多样化的参考音频上下文，显著提升了实际服务环境中的键值缓存命中率。

第三个重要优化是GPU资源的协同调度。通过分析系统瓶颈发现，LLM解码主要受内存带宽限制，因此可以利用多进程服务技术在同一GPU上协同调度声码器解码与LLM解码，实现并发执行，在保持低延迟的同时提升系统吞吐量。

在单个NVIDIA H200 GPU上的性能评估显示了令人印象深刻的结果。系统实现了0.195的实时因子，意味着生成一秒钟的高质量音频只需要0.195秒的计算时间，比实时播放快五倍以上。首音频时间低至100毫秒，这意味着用户几乎感受不到等待时间。在高并发情况下，引擎能够维持每秒3000+声学词元的最大吞吐量，同时保持实时因子低于0.5。

推理效率的另一个亮点是语音重用的高效性。由于系统将确定性的参考音频词元插入到系统提示中，SGLang的Radix树会缓存相应的键值状态。当跨多个请求重用同一语音时，这种设计提供了很高的前缀缓存命中率，平均为86.4%，峰值超过90%。因此，重复请求可以在很大程度上跳过参考音频预填充阶段，使提示处理开销几乎可以忽略不计。

这套推理引擎不仅在性能指标上表现出色，更重要的是为语音合成技术的大规模商业应用铺平了道路。超低的延迟使得实时对话成为可能，高吞吐量确保了系统能够同时服务大量用户，而高效的缓存机制则大大降低了运营成本。

六、全面性能评估：多维度验证系统能力

要验证Fish Audio S2是否真正达到了预期的效果，研究团队设计了一套全面而严格的评估体系，就像对一位演员进行全方位的技能考核，不仅要看基本功是否扎实，还要评估在各种复杂场景下的表现能力。

评估分为两个互补的维度：客观指标评估和基于大语言模型的主观评判。客观评估主要关注系统的基础能力，如发音准确性、内容保真度和说话人一致性；而LLM评判则深入评估更高层次的能力，如指令遵循、自然度和人类相似性等难以量化的特质。

在声音克隆能力的测试中，Fish Audio S2在Seed-TTS-Eval基准测试中表现出色。在中文测试集上实现了0.54%的词错误率，英文测试集上为0.99%，在中文困难集上为5.99%。与其他开源和闭源模型相比，S2在中英文测试中都取得了领先的词错误率表现，同时在困难测试集上保持竞争力。这些结果表明系统能够生成更清晰、更稳定的发音。

多语言能力的评估涵盖了24种主要语言的Minimax多语言测试集和9种语言的CV3-Eval基准。结果显示，Fish Audio S2在24种语言中的11种语言上实现了最低的词错误率，在17种语言上获得了最高的说话人相似度。在CV3-Eval的9语言子集上，S2在所有报告语言上都取得了最佳错误率，相比Fish Audio S1平均错误率从3.96降至3.01，相对改善23.9%。

特别值得注意的是，虽然在某些低资源语言上MiniMax-Speech和ElevenLabs仍保持优势，但Fish Audio S2在可理解性方面保持竞争力，并且经常实现更好的说话人相似度，突出了其更强的跨语言音色一致性。

长音频生成能力的测试采用了修改版的Long-TTS-Eval数据集，涵盖文学、新闻、知识、演讲、评论和学术论文等六个内容类别。为了适应模型的最大上下文长度限制，研究团队对超长样本进行了句子边界截断，最终基准包含了长度从74到1211个词元不等的英文样本和32到1146个词元的中文样本。

在长音频测试中，Fish Audio S2在英文上实现了4.38%的词错误率，中文上为5.95%的字符错误率，均为所有评估模型中的最低水平。更重要的是，系统在长时间生成过程中保持了稳定的说话人相似度，标准差较低，证明了其在扩展持续时间内生成连贯一致音频的鲁棒性。

在更高层次的能力评估中，音频图灵测试的结果尤为引人注目。Fish Audio S2达到了0.483的后验均值，在重写指令设置下进一步提升至0.515，相比之前的最先进模型提升了30%，建立了新的行业基准。这个结果表明，由S2生成的语音在人类听众看来具有很高的真实性和自然性。

新兴TTS评估基准测试显示了系统强大的精细指令遵循能力。Fish Audio S2实现了81.88%的总体胜率，在所有列出的系统中排名第一，超过50%基线边际31.88个百分点。虽然其总体词错误率8.15%不是所有模型中最低的，但它在指令敏感场景中始终提供更强的感知质量，在副语言学方面领先胜率91.61%，问题方面84.41%，句法复杂性方面83.39%。

为了评估精细控制能力，研究团队还开发了专门的Fish Audio指令基准测试。这个基准测试使用内联声音标签在特定词位置进行评估，而不是依赖全局风格提示。结果显示，Fish Audio S2在中英文设置下的总体标签激活率达到93.3%，总体质量评分为4.51/5.0。

在中文数据集上，标签激活率、自然度和表现力分别从0.942/4.15/4.65提升至0.984/4.40/4.94。在英文数据集上，改善更加显著，从0.626/3.71/3.93提升至0.881/4.21/4.50。这些结果表明Fish Audio S2在零样本指令遵循下提供了更可靠的标签激活和更自然、更富表现力的声音标签渲染。

七、技术创新的深层意义

Fish Audio S2的成功不仅仅体现在性能指标的提升上，更重要的是它代表了语音合成技术发展的一个重要转折点。这项技术的创新意义可以从多个层面来理解，就像一场技术革命往往会带来连锁反应，影响整个行业的发展方向。

首先，S2系统证明了大规模预训练和强化学习技术在语音领域的有效性。传统的语音合成系统主要依赖于专门设计的声学模型和复杂的信号处理技术，而S2展示了通用的人工智能技术如何能够成功迁移到语音领域。这种技术路径的转变意味着语音合成可以受益于AI领域的快速发展，特别是在模型规模、训练效率和生成质量方面的持续改进。

双重自回归架构的提出解决了语音生成中长期存在的计算效率问题。传统方法往往需要在生成质量和计算效率之间做出妥协，而S2的架构设计实现了两者的完美平衡。这种架构思想不仅适用于语音合成，还可能启发其他需要处理长序列和多层次特征的生成任务。

数据处理流水线的创新更是具有广泛的应用价值。自动化的语音质量评估和富文本标注技术不仅提升了训练数据的质量，还大大降低了人工成本。更重要的是，这套系统能够自动发现和标注语音中的细微特征，这些特征往往连人类专家都难以一致地识别和描述。这种能力的获得意味着AI系统在某些方面已经超越了人类的感知极限。

强化学习在语音生成中的成功应用也开辟了新的研究方向。传统的监督学习虽然能够让系统学会基本的映射关系，但很难处理主观性强、标准模糊的任务。通过多维度奖励机制的设计，S2展示了如何将复杂的主观评价标准转化为可优化的目标函数。这种方法不仅适用于语音合成，还可能推广到其他需要平衡多个目标的生成任务中。

从产业应用的角度来看，S2的成功标志着语音合成技术从实验室走向大规模商业应用的重要里程碑。超低的延迟和高效的推理性能使得实时语音生成成为可能，这为智能客服、教育培训、娱乐内容创作等多个领域带来了新的可能性。特别是其支持多语言和精细控制的能力，为全球化的内容生产提供了强大的工具。

技术开源的决定也具有深远的影响。通过公开模型权重、微调代码和推理引擎，Fish Audio团队降低了高质量语音合成技术的使用门槛，这将加速整个领域的发展，促进更多创新应用的出现。开源策略还有助于建立技术标准，推动行业向更高质量、更可控的方向发展。

从更广阔的人工智能发展角度来看，S2的成功验证了多模态大模型的技术路线。随着文本、图像、音频等不同模态的AI技术逐渐成熟，如何有效地整合这些能力成为了下一个重要挑战。S2在语音模态上的突破为构建真正的通用人工智能提供了重要的技术积累。

说到底，Fish Audio S2不仅仅是一个语音合成系统，它更像是人工智能技术发展的一个缩影，展示了当前AI技术的最新成果，也预示了未来技术发展的可能方向。它的成功证明了，通过合理的技术架构、高质量的数据处理和有效的训练策略，我们能够创造出接近人类表现甚至在某些方面超越人类的AI系统。

这项技术的出现也提醒我们，人工智能的发展不是简单的性能提升，而是需要在多个维度上的协调发展。S2在准确性、自然度、可控性和效率等方面的平衡发展，为未来的AI系统设计提供了宝贵的经验。随着这类技术的不断成熟和普及，我们正逐步迈向一个人机交互更加自然、智能服务更加个性化的新时代。

Q&A

Q1：Fish Audio S2相比传统语音合成技术有什么突破？

A：Fish Audio S2最大的突破是支持精细的自然语言控制，用户可以直接用文字描述想要的语音效果，比如"用愤怒的语气"、"在这里加个笑声"等，系统就能准确执行。同时还支持多人对话生成和超低延迟的实时合成，首次响应时间低至100毫秒，比传统系统快很多。

Q2：Fish Audio S2支持哪些语言，质量如何？