苹果Siri在语音识别技术领域引领了一次革命,但远远不够。语音识别技术要全面影响人机交互,必须要让语音识别技术普及到每一个国家、每一个地区、每一个人。特别是当前智能终端的高速发展,可穿戴设备、无人驾驶汽车、智能电视、智能家居……更需要懂得不同地域自然人的语言。

德国知名学者威廉·冯·洪堡曾说过:“每种语言都反映了一个民族的精神和智慧。”尽管文字、图片、动作、表情等能传递人们的思想,但语言是其中最重要的媒介,是人类文明多样化成果的载体。保护民族语言和抢救濒危语言就是保护多样性的民族文化,同时也是保障各民族成员的平等权利。
我国56个民族有多达129种独立语言,特定使用区域和人群具有不同发音、词汇和语法体系,除了统一标准的普通话,诸多地方方言素有“十里不同音”之说。针对这一现象科大讯飞最新研发了前沿的方言语音识别技术,让机器能够听懂粤语、四川话、东北话、上海话、闽南话、湖南话、河南话等各地方言,极大满足了各行业需求。
那么,科大讯飞此项技术是如何突破方言识别难题的?从基本层面来看,普通话有400个单音节声音,根据声调予以区别;而方言发音则相对复杂,需要根据不同发音特性采用不同的特征识别方法,大致为:声类特征识别、韵类特征识别、调类特征识别和方言词汇识别。科大讯飞针对方言定制出专有语音识别引擎,使用纯正的方言语料库进行训练,确保能够用于口音较重的方言用户使用。
从2012年起,讯飞语音云在声学和语言建模中取得很多成果,同时在噪音和口音等方面都突破了技术难题,在全行业遥遥领先。“方言语音识别”是公司在云计算语音听写技术基础上,为扩大语音使用群体,满足不同地域用户自然便捷的语音使用需求而进行的技术创新,具有自适应性和稳定性。该技术成果将形成明显的差异化竞争优势,为公司主营业务带来积极影响,还能提高相关应用的用户黏性。
一般而言语音识别技术最先应用于语音拨号、语音导航、室内设备控制、简单的听写数据录入等,但此次方言语音识别技术将率先应用于手机输入法,并逐步推广到其他应用中。目前,智能手机和平板电脑都已抛弃鼠标键盘,语音输入正成为日常习惯,对老人和小孩都很适用;同时,手机输入法作为移动互联网新型入口,面向休闲娱乐、商务办公、人际交流、教育教学等生活中的方方面面,具有海量的使用人群,能够更快的提升应用能力。因此,手机输入法是语音应用的最好形态。
方言语音识别技术是继离线语音之后科大讯飞又一次率先推出的革命性技术,除了支持中文普通话、英文,方言语音识别能够让更多用户拥有近乎完美、没有错误的语音输入体验。
好文章,需要你的鼓励
浙江大学团队提出动态专家搜索方法,让AI能根据不同问题灵活调整内部专家配置。该方法在数学、编程等任务上显著提升推理准确率,且不增加计算成本。研究发现不同类型问题偏爱不同专家配置,为AI推理优化开辟新路径。
清华大学研究团队提出SIRI方法,通过"压缩-扩张"交替训练策略,成功解决了大型推理模型"话多且准确率低"的问题。实验显示,该方法在数学竞赛题上将模型准确率提升43.2%的同时,输出长度减少46.9%,真正实现了效率与性能的双重优化,为AI模型训练提供了新思路。
南洋理工大学与腾讯联合研究团队开发出Rolling Forcing技术,实现AI视频实时流式生成的重大突破。该技术通过滚动窗口联合去噪、注意力锚点机制和高效训练算法三项创新,解决了长视频生成中的错误累积问题,可在单GPU上以16fps速度生成多分钟高质量视频,延迟仅0.76秒,质量漂移指标从传统方法的1.66降至0.01,为交互式媒体和内容创作开辟新可能。
华中科技大学研究团队发现,通过让AI模型学习解决几何问题,能够显著提升其空间理解能力。他们构建了包含约30000个几何题目的Euclid30K数据集,使用强化学习方法训练多个AI模型。实验结果显示,几何训练在四个空间智能测试基准上都带来显著提升,其中最佳模型达到49.6%准确率,超越此前最好成绩。这项研究揭示了基础几何知识对培养AI空间智能的重要价值。