CNET科技资讯网 11月23日 北京消息(文/周雅):在今年早些时候,百度曾经利用情感语音合成技术还原了张国荣声音,完成了一场“张国荣”与粉丝的“隔空对话”,从粉丝们的普遍反应来看,效果是可以的。而这只是百度语音的技术之一。
昨天,百度语音开放平台上线三周年,百度公司首席科学家吴恩达对外介绍了百度四项最新语音技术——情感合成、远场方案、唤醒二期技术和长语音方案,这些技术将免费开放给用户和开发者。
“这些技术有很大的潜力,去彻底改变人机交互的效率和办法。未来语音技术在很多应用场景有很好的机会,将为人机交互带来巨大的改变。”吴恩达表示。
因为语音技术的加强,吴恩达对人工智能的未来很有信心,陪伴机器人、个性化私教、音乐作曲、机器人医生都不是说说而已,人工智能的技术创造了很多可能,百度没有办法探索这些可能,所以就做一个背后的技术推手:“希望可以支持你们在非常有潜力的项目上探索,有非常好的结果。”
比如,开发者可以利用新的接口,使语音识别距离增加到3-5米,将设备的语音唤醒率提升到95%以上同时更省电误报更少,或提升长时间语音识别的准确率问题。这将为语音技术带来远比现在更多的想象空间,而不只是遥控电视或解锁手机。
百度希望这些技术能解决用户在语音交互场合中普遍困扰的一些关键问题,脑洞开一开,才有各种新体验。比如,百度把语音输入放进自家产品中,包括手机百度、百度地图、百度输入法。
再比如,百度最近还把度秘放进各类硬件,变成“小度机器人人机语音交互点餐”,已在上海肯德基旗舰店工作,可远距离随时应答点餐。后者则已经在诸多内容记录、智能客服、视频转写等应用场景表现出巨大的想象空间。
来自斯坦福大学的人工智能专家James Landay也分享了一项与百度合作的最新研究成果,该研究发现,智能手机在语音输入时,速度比键盘输入快3倍。他表示,“近两年,受益于大数据和深度学习技术的不断发展,语音识别技术突飞猛进,速度和准确性都有了进步。”
百度语音开放平台目前的合作伙伴已涵盖多个领域和场景,包括智能手机领域的联想、中兴;智能家居领域的长虹智能电视、康佳智能电视、SONY智能电视;汽车行业的特斯拉、途胜;智能设备领域的惠普、艾米通讯;智能服务领域的携程、手机QQ阅读等。
在“爱奇艺”手机客户端,借助百度语音开放平台,每天有百万以上的爱奇艺用户使用语音搜索,其中80%以上转化为有效点击。
《读者》杂志也已经使用百度情感语音为旗下杂志制作语音版。读者甘肃数码科技有限公司总经理金大时说,读者“数字农家书屋”已在甘肃庆阳市试点成功,覆盖65个新农村,“很多不识字的老年人和留守儿童,语音合成让他们也享受到了阅读的乐趣。”
百度语音开放平台自2013年10月上线以来,每日在线语音识别要求从2013年的500万上升到今天的1亿4千万,在线语音合成每日请求达2亿,开发者数量超过14万。
百度方面表示,百度语音识别准确率目前达97%,今年2月,百度深度语音识别系统Deep Speech 2入选MIT 2016十大突破技术。包括语音技术在内的百度大脑,入选2016第三届乌镇世界互联网大会15大领先科技成果。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。