媒体世界日新月异,而Fraunhofer IIS始终主导着最先进音频技术的发展。Fraunhofer IIS是一家音频和多媒体技术的研究机构,借今年的中国国际信息通信展,他们又来到了中国,目的是让更多的中国客户认识他们。
在过去25年的时间里,Fraunhofer集成电路研究所(IIS)音频和多媒体部门始终专注于数字音频技术的研发。作为MP3技术的发明者和AAC(高级音频编码)技术的联合开发者,以及未来广播电视领域的音频技术开拓者Fraunhofer IIS将音频技术创新变成了现实。
Toni Fiedler 德国Fraunhofer集成电路研究所(IIS)亚太区市场及业务发展总监
(右)Matthias Rose 德国Fraunhofer集成电路研究所(IIS)音频和多媒体营销传播总监
Fraunhofer IIS 亚太区市场及业务发展总监Toni Fiedler表示,Fraunhofer IIS最大的愿景就是与移动运营商、 网络服务提供商、广播电视台等紧密的合作为中国的消费电子企业带来创新的音频技术,另一方面Fraunhofer IIS也十分愿意帮助中国企业走出去,携手中国制造商和中小企业以满足国际化的音频标准和技术规范。
目前Fraunhofer IIS致力于研发两大块技术:第一是xHE-AAC和MPEG H的音频解码,xHE-AAC是下一代广播电视将会主要使用的编解码;第二个是EVS(增强语音服务),将主要应用于4G LTE领域。
今年,中国全面步入4G LTE时代。据GSMA移动智库的研究数据显示,预计到2020年底,中国的4G移动连接总数将从2014年的1亿左右增至近9亿。4G移动设备和服务将会在人们的工作和生活中扮演着越来越重要的角色。
显然,LTE时代的高宽带支持用户使用很多大流量数据业务,而语音业务仍将是手机终端的主要应用。但遗憾的是,在我们使用手机打电话时,听到的语音音质,几十年来并没有太大的不同。
目前3GPP在通信、音频编解码的技术标准上推进并制定全高清语音标准,这意味着在未来LTE的标准之下,整个语音通话的音质标准会有大幅提升。
在本届通信展上,Fraunhofer IIS首次带来4G 时代具有高效通信体验的全高清语音会议技术,EVS增强型语音服务以及能够在平板电脑或智能手机上体验到影院般的环绕声音效的Fraunhofer Cingo技术,以满足4G用户和设备的需求。
全高清语音会议技术:该技术能够使电话会议实现高端网真视频会议般的通话体验。由AAC-ELD音频编解码器实现的全高清语音通话,能够使参与会议通话的用户通过耳机感知其他会议参与者的方位,在这一场景下,所有的与会人员好像身处同一房间,因此彼此间的对话也变得更加自然,让移动会议变得更加轻松和高效。
EVS:增强型语音服务(Enhanced Voice Service,EVS,TS 26.441)是专为LTE等分组交换网络而设计的下一代3GPP实时通信编解码器。在当前的目标应用VoLTE(Voice over LTE)中使用EVS,可实现全高清语音通话质量,而通话保真度可媲美当今所有数字媒体。通过该技术,我们不仅可以进行自然的语音通信,而完整音频频谱还能够再现音乐和环境氛围。
Fraunhofer Cingo:借助Fraunhofer Cingo,无论是使用耳机还是内置立体声扬声器,用户能够在平板电脑或智能手机上体验到影院般的环绕声音效体验。Cingo不仅可以带来极致的环绕声音效体验,而且还能将现有的立体声内容变得更加自然和清晰。此外,针对嘈杂的环境Cingo还具备响度优化功能,能够显着提升对话和解说的清晰度。
Fraunhofer IIS先后研发了五代编解码技术,包括MP3格式,能够提高编码效率的AAC技术以及其组件,目前最流行的、几乎在每部手机中都配备的HE-AAC技术,主要应用在通信领域、能够实现双向低延迟通信的AAC-ELD技术,以及应用于4G LTE电信通信的技术。
Toni Fiedler提到,“Fraunhofer音频技术的最大特征是向后兼容,如果企业使用了最新的解码器xHE-AAC,那么之前所有的技术均能够使用。因此现在的一些主流的电视台,比如BBC、NHK和新加坡的MediaCorp都使用了我们的技术。”
此外,Fraunhofer IIS还展出了拓展型HE-AAC技术方案。xHE-AAC是首个将语音和通用音频编码结合在一个统一系统中的MPEG音频编解码技术,xHE-AAC极大提升了8~64 kbit/s及以上的低比特率音频的音乐和语音品质,其可应用于无线网络和卫星广播系统中的音乐流媒体。
Fraunhofer IIS音频和多媒体营销传播总监Mathias Rose表示,目前在三网融合和OTT的大背景下,因为Fraunhofer的技术几乎已经被整合到所有的平台当中,可以广泛应用于广播、IT网络和移动网络中,让广播电视商可以将电视上的内容传输到平板和手机上进行播放,甚至可以做到将手机和平板上的音频质量达到电视的音效水平,这使得HE-AAC处于一个非常最有利的位置。
Fraunhofer IIS表示,目前已与中国的三大运营商建立联系,并且Fraunhofer IIS推出的高清语音技术是能够支持所有LTE标准,其设计的出发点就是希望以非常低的比特率来实现很高的音质。
LTE主要是着眼于未来用户会大量地进行视频的下载以及可视通话等,Fraunhofer IIS希望在音频领域,消耗最低的码率,达到最优的语音体验,避免出现网络拥塞的情况。苹果的Facetime就是一个很典型的基于VoIP的服务。
同时,Fraunhofer IIS也在积极地尝试与中国的中小企业展开合作,总之,帮助中国制造商以正确的方式来实施AAC系列的技术、使得他们在全球范围内保持竞争优势是Fraunhofer IIS坚持不懈的目标。
针对在中国市场的发展,Toni Fiedler表示:“我们几乎和中国所有的移动运营商进行沟通,希望他们将HE-AAC技术应用在更多的场景中,比如VoIP、VoLTE等技术在音乐和移动设备领域的应用。此外,我们也极为重视与中小企业的合作,帮助中国制造商以正确的方式来实施我们的技术,以使得他们在全球范围内保持领先优势。”
好文章,需要你的鼓励
清华大学等多家机构研究团队完成了语音分离技术的全面调研,系统梳理了从传统方法到深度学习的技术演进。研究揭示了"鸡尾酒会问题"的核心挑战,分析了各种学习范式和网络架构的优劣,并通过统一实验框架提供了公平的性能基准。调研涵盖了实时处理、轻量化设计、多模态融合等关键技术方向,为学术界和产业界的技术选型提供了重要参考,推动语音分离从实验室走向实际应用。
浙江大学和腾讯微信视觉团队发现AI图片生成训练中"时机胜过强度"的重要规律,开发出TempFlow-GRPO新方法。通过轨迹分支技术精确评估中间步骤,结合噪声感知权重调整优化不同阶段的学习强度,将训练效率提升三倍,在复杂场景理解方面准确率从63%提升至97%,为AI训练方法论带来重要突破。
谷歌DeepMind发布突破性AI规划技术,让机器人学会像人类一样进行"情境学习"规划。该技术通过Transformer架构实现了快速适应新问题的能力,在迷宫导航、机器人控制等测试中表现优异,为自动驾驶、智能制造、医疗等领域应用奠定基础,标志着向通用人工智能迈出重要一步。
新南威尔士大学研究团队开发了ZARA系统,这是首个零样本运动识别框架,能够在未经专门训练的情况下识别全新的人类活动。该系统集成了自动构建的知识库、多传感器检索机制和分层智能体推理,不仅实现了比现有最强基线高2.53倍的识别准确率,还提供清晰的自然语言解释,为可穿戴设备和健康监护等应用领域带来了突破性进展。