科技行者 9月19日 北京消息: 9月19日,百度地图在“‘音’为有你,更有‘AI’”发布会上正式发布“语音定制功能”,内部代号“百雀灵”。它是全球首个地图语音定制产品。用户只需在百度地图App上录制20句话,20分钟左右即可生成个人完整语音包,为即将到来的国庆出行带来前所未有的新鲜体验。
“百度地图的工程师们内部叫它‘百雀灵’,百雀是大自然中各种鸟儿的总称,它们有各种美妙好听的声音,‘百雀灵’寓意着千千万万的用户,都能在百度地图录制自己的语音包,用自己独特的声音,向所爱的人表达关心与陪伴。”百度地图事业部总经理李莹表示:“语音定制功能是AI赋能百度地图的又一力作,我们希望这一次语音技术与百度地图的融合,能够释放科技力量,让每个人都感受到科技进步带来的改变和情怀。”
(百度地图事业部总经理李莹)
定制专属语音包的流程十分简单,只需打开百度地图App,唤醒“小度小度”后说“录制我的语音”,或点击百度地图首页的“出行助手”后进入“语音定制”,便可开启语音定制之旅。在安静的环境中,只要跟着百度地图的指引,念出卡通和影视台词等充满趣味性的录制文本,等待20分钟左右,就能拥有一个自己专属的语音包,并在百度地图的景区智能语音导览、智能语音交互、导航等全部场景使用,大家可免费使用自己或家人的语音包畅游景区听播报。此外,录制的个人语音包还可以分享给亲朋好友,无论是思念游子的父母、还是异地的恋人都能通过地图语音包与亲人更“近”一步。用户的“人气”语音包还有机会获得百度地图官方推荐,成为地图“好声音”。
(喊“小度小度”开启语音包录制)
过去,制作地图语音包需要在专业录音棚录制大量语料,再经过长达数月的制作才能生成,流程复杂、耗时长,让地图语音包只是“明星专属”。现在,有了百度地图的语音定制功能,人人都可以是“大明星”。
随着语音定制功能的上线,百度地图“银河计划”也正式启动,首期邀请到华晨宇、秦岚等当红艺人参与个人语音包录制,成为百度地图“明星导航员”,让用户的每一次出行新鲜感十足。“银河计划”的发布意味着明星语音包录制的门槛被大大降低,并且人人都可录制明星品质的语音包,浩如星瀚,给人无限遐想。
百度地图语音定制功能背后,是百度大脑语音技术的赋能。AI技术的加持让地图语音包生产实现了从月级别到分钟级别的突破性进展,也重新定义了语音包的生产模式。
百度语音首席架构师贾磊在发布会现场揭秘了背后的技术:“百度地图语音定制功能基于百度独创的说话人韵律迁移技术Meitron,其特点主要体现在发音人音色转换,多情感朗读和韵律风格迁移三个方面,从而让个性化语音合成的定制门槛大大降低,相信百度语音技术在AI时代拥有无限可能”。
(百度语音首席架构师贾磊)
很多家长想给自家萌宝录制语音包,但又不免会担心萌宝有发音不清晰、停顿不规律、普通话不标准的情况,百度地图语音定制功能也克服了这类问题,实现了儿童音的完美合成。当天,百度地图与宝宝巴士发起“快乐启蒙 安全出发”倡议,上线“奇奇妙妙”语音包,通过此类卡通语音包帮助家长在驾车出行场景中安抚宝宝的情绪,为出行安全保驾护航。
对于用户非常关心的音频数据安全问题,百度地图表示,百度地图对于语音定制服务的权限获取将仅用作语音包录制,不做他用。百度地图未经用户的授权同意,不会将用户的语音包共享给任何人。
在AI技术的深度加持下,新一代人工智能地图——百度地图持续创新和领先。未来,百度地图还将继续加速,为用户提供更加安全、智能、高效的出行服务。这个十一黄金周,带上自己的专属语音包、带上人工智能地图出发吧!
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。