知名网站Medium近日报道称,百度研究院高级工程师AwniHannun在参加国际神经网络协会举办的会议中时提出了一种可识别普通话的新模型,该模型基于百度深度语音学习开发,可实现普通话语音查询功能,识别准确率高达94%。
普通话语音识别有两个难点。第一则是字符数据量大。英文只有26个字母,但中文约有8万个不同的字符。相比于英文,系统要在每次转录中直接输出8万个字符中的其中一个,如此庞大的数据量对于系统运算能力要求极高。为解决这一问题,研究团队通过收集人们常用词,筛选出有用的字符。这一方法提高了系统运算效率。
第二,在普通话的表述中,声调的不同往往会改变一个词的意思。且在传统的语音识别中,设想所有的语音具有相同间距,以至于在转录时可以忽略它们。但这套理论却无法转译普通话。普通话体系极为复杂,这就语音系统提出了更高的要求。百度通过特殊的语音识别渠道,省去了大量预处理环节来维持音频的稳定间距,再让模型学习何种数据可以最有效的转录,这一做法大大降低了语音识别的难度。
在谈及百度深度语音系统对比Skype翻译的优势时,Hannum分析认为,百度的优势在于学习能力。每条音轨中包含三个模块,即语音转录模块、机器翻译模块和语音合成模块。百度深度语音系统则不同于以往的语音转录系统,它并没有大量预处理环节,而是直接输入音频文件,再通过深度神经网络输出字符。深度神经网络则需要大量数据,去学习哪些输入信息可将语音转译成正确的普通话。与Skype不同,百度希望将该系统作为所有智能设备的语音接口,嵌入到可穿戴设备或语音识别应用中,而不仅仅将它定义为一款语音搜索产品。
Medium报道指出,深度学习作为该系统的核心,发挥了极其重要的角色。随着机器翻译和语音识别技术发展趋于成熟,人们更多的希望机器完成输出任务。而深度学习系统的加入则在增加数据量的同时,简化音频轨道,通过不断的学习将机器获取的信息有效输出。这也是Hannum看好深度学习的原因。
深度语音识别系统出色的成绩背后是所有全中文数据超过10万亿次运算学习的成果。且该系统还在寻找更多的关于各地方言及口音的信息,扩大系统训练数据。目前,该系统支持超过26万亿次浮点运算,可在几天内完成深度语言的集中训练,提高系统学习效率。数据集与学习效率的不断完善将使百度深度语音识别系统在识别准确率进一步提升。
对于深度学习的未来,Hannum认为将该模型在更小的系统上运行是重要的趋势之一。大量实验表明,将现有的学习模型压缩成小模型后,表现依旧稳定。这将使深度学习系统植入手机等移动设备成为现实。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。