科技行者 7月10日 北京消息:近日,阿里发布新一代语音合成技术KAN-TTS,大幅提高合成语音与真人发声的相似度,并将语音合成定制成本降低10倍以上。
阿里AI的这项突破,将问世80年的语音合成(TTS)技术推向几可乱真的水平,有望通过图灵测试。
当前业界商用系统的合成语音与原始音频录音的接近程度通常在85%到90%之间,而基于KAN-TTS技术的合成语音可将该数据提高到97%以上。
KAN-TTS由达摩院机器智能实验室自主研发,深度融合了目前主流的端到端TTS技术和传统TTS技术,从多个方面改进了语音合成。
传统语音合成定制需要10小时以上的数据录制和标注,对录音人和录音环境要求很高。从启动定制到最终交付,项目周期长成本高。
阿里利用Multi-Speaker Model与Speaker-aware Advanced Transfer Learning相结合的方法,将语音合成定制成本降低10倍以上,周期压缩3倍以上。也就是说,用1小时有效录音数据和不到两个月制作周期,就能完成一次标准TTS定制。
普通用户定制“AI声音”的门槛更低。只需手机录音十分钟,就能获得与录制声音高度相似的合成语音。阿里AI做到这一点,主要基于自动数据检查、自动标注方法和对海量用户场景的利用。
阿里已经对外提供开箱即用的TTS解决方案,共有通用、客服、童声、英文和方言5个场景的34种高品质声音供选择。
基于新一代技术,阿里还显著提高了设备端离线TTS的效果。这在超低资源设备端的TTS服务中非常有用,比如当人们驾车行驶于信号微弱区域,阿里技术能避免语音导航“掉线”。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。