微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

阿里公布新语音合成技术录音10分钟定制AI语音

阿里巴巴语音合成人工智能

阿里公布新语音合成技术录音10分钟定制AI语音

作者：科技行者

2019-07-10 18:23

分享至：

近日，阿里发布新一代语音合成技术KAN-TTS，大幅提高合成语音与真人发声的相似度，并将语音合成定制成本降低10倍以上。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2019-07-10 18:23 • 科技行者

科技行者 7月10日北京消息：近日，阿里发布新一代语音合成技术KAN-TTS，大幅提高合成语音与真人发声的相似度，并将语音合成定制成本降低10倍以上。

阿里AI的这项突破，将问世80年的语音合成（TTS）技术推向几可乱真的水平，有望通过图灵测试。

当前业界商用系统的合成语音与原始音频录音的接近程度通常在85%到90%之间，而基于KAN-TTS技术的合成语音可将该数据提高到97%以上。

KAN-TTS由达摩院机器智能实验室自主研发，深度融合了目前主流的端到端TTS技术和传统TTS技术，从多个方面改进了语音合成。

传统语音合成定制需要10小时以上的数据录制和标注，对录音人和录音环境要求很高。从启动定制到最终交付，项目周期长成本高。

阿里利用Multi-Speaker Model与Speaker-aware Advanced Transfer Learning相结合的方法，将语音合成定制成本降低10倍以上，周期压缩3倍以上。也就是说，用1小时有效录音数据和不到两个月制作周期，就能完成一次标准TTS定制。

普通用户定制“AI声音”的门槛更低。只需手机录音十分钟，就能获得与录制声音高度相似的合成语音。阿里AI做到这一点，主要基于自动数据检查、自动标注方法和对海量用户场景的利用。

阿里已经对外提供开箱即用的TTS解决方案，共有通用、客服、童声、英文和方言5个场景的34种高品质声音供选择。

基于新一代技术，阿里还显著提高了设备端离线TTS的效果。这在超低资源设备端的TTS服务中非常有用，比如当人们驾车行驶于信号微弱区域，阿里技术能避免语音导航“掉线”。

阿里巴巴语音合成人工智能

分享至

0赞

好文章，需要你的鼓励

推荐文章

人工智能
自然语言处理
新型理论框架

2025-12-03 09:56

Snowflake AI挑战传统语言学：万千茫茫文字中，LLM真的只是"随机鹦鹉"吗？

这项由Snowflake AI Research发表的研究挑战了传统语言学对大型语言模型的批评，通过引入波兰语言学家Mańczak的理论框架，论证了LLM的成功实际上验证了"频率驱动语言"的观点。研究认为语言本质上是文本总和而非抽象系统，频率是其核心驱动力，为重新理解AI语言能力提供了新视角。
人工智能
多智能体系统
科研自动化

2025-12-03 09:56

Yale大学团队推出"免费博士劳工"：让AI研究助手像真人团队一样工作的革命性框架

freephdlabor是耶鲁大学团队开发的开源多智能体科研自动化框架，通过创建专业化AI研究团队替代传统单一AI助手的固化工作模式。该框架实现了动态工作流程调整、无损信息传递的工作空间机制，以及人机协作的质量控制系统，能够自主完成从研究构思到论文发表的全流程科研工作，为科研民主化和效率提升提供了革命性解决方案。
人工智能
专家混合模型
动态优化算法

2025-12-03 09:56

德国马普所团队发明"智能大脑重新布线"技术：让AI专家模型学会即时调整自己

德国马普智能系统研究所团队开发出专家混合模型的"即时重新布线"技术，让AI能在使用过程中动态调整专家选择策略。这种方法无需外部数据，仅通过自我分析就能优化性能，在代码生成等任务上提升显著。该技术具有即插即用特性，计算效率高，适应性强，为AI的自我进化能力提供了新思路。
人工智能
熵值监测
对话系统优化

2025-12-03 09:55

聊天机器人怎么不在线聊天中"迷路"？Algoverse AI研究团队的熵值导航新突破

Algoverse AI研究团队提出ERGO系统，通过监测AI对话时的熵值变化来检测模型困惑程度，当不确定性突然升高时自动重置对话内容。该方法在五种主流AI模型的测试中平均性能提升56.6%，显著改善了多轮对话中AI容易"迷路"的问题，为构建更可靠的AI助手提供了新思路。