Fraunhofer IIS在音频编解码领域拥有超过25年的经验,先后发明了MP3格式和AAC技术,现如今很多的技术也应用在许多不同的场景当中。目前致力于研发两大块技术:第一是xHE-AAC和MPEG H的音频解码,xHE-AAC是下一代广播电视将会主要使用的编解码;第二个是EVS(增强语音服务),将主要应用于4G LTE领域。目前,有超过1000家公司在使用Fraunhofer IIS的授权许可软件,全球超过70亿台的设备部署了HE-AAC。
AAC系列编解码
Fraunhofer先后研发了MP3格式、能够提高编码效率的AAC技术以及其组件、目前最流行的也是几乎在每部手机中都配备的HE-AAC技术。此外,AAC-ELD是主要应用在通信领域,能够实现双向低延迟通信的技术。目前,应用于4G LTE电信通信的技术也正在研发中。
Fraunhofer音频技术最大的特征是向后兼容。如果企业使用了最新的解码器xHE-AAC,那么之前所有的技术均能够使用。一些主流的电视台,比如BBC、NHK、新加坡的MediaCorp都使用了这一技术。
目前诸如广播电视、IP网络和移动网络的技术都在不断融合的过程中,也与很多标准组织进行合作,比如:欧洲智能电视标准HbbTV,网络标准DASH,以及为好莱坞影院提供在线语音播放标准Ultra violet。HE-AAC技术是以上标准的必选技术。几乎所有的主流媒体、广播电视设备及服务厂商均支持HE-AAC多声道,与此同时,越来越多的服务供应方也在使用HE-AAC的技术,HE-AAC被广泛应用于全球最受欢迎的流媒体服务中。
下一代广播电视
下一代广播电视的话题在包括中国、欧洲、美国、日本在内的国家都在进行热烈的讨论。所以基于这样一个背景,也产生了一个新的机构——FOBTV。来自于全世界各地的会员都集中于此,共同探讨未来广播电视标准的发展。Fraunhofer希望未来电视系统能够实现全球化的兼容,但这并不意味着全世界各地的电视标准全是一样的,而是能够开发出一个更为灵活的系统,来更好地满足各地方的标准,但与此同时又能够相互兼容。值得一提的是,这个机构的技术委员会的主席是一名中国人,来自上海交通大学的张文军教授。
Fraunhofer Cingo
这个产品的理念是希望能够在移动设备当中为客户提供环绕音效。这是一个非常重要的技术进步,一般来说高品质的音效都需要在非常理想的音乐环境下才能得以实现。但随着技术的进步,目前有越来越多的用户会在小型设备上,比如平板电脑或手机中欣赏音乐或观看电影。
而这项技术就能够满足用户即使在小型设备中也能获得优质的听觉体验。虽然人类只有两只耳朵,但也能够听到各种环绕声音效,并且能够非常清晰地分辨声音来自于前面、后面或者是上面、下面。所以Fraunhofer认为,人的两个耳朵能够实现这些效果的话,如果有两个扬声器,应该也能够实现这种环绕音效的效果。目前这项技术能够实现一种虚拟的环绕音效效果,即使只有两个扬声器也可以。谷歌已经将这项技术嵌入到他们的设备当中去,所以现在Google Play里面,你下载一个音频便可以享受5.1声道音效的影音效果。
对白增强技术——掌控音频平衡
为了让电视和广播听众能够拥有音频的掌控权,Fraunhofer研发了对白增强技术。这项备受赞誉的技术帮助广播电视领域克服了一个长期困扰的问题,即观众依照个人需求来改变环境音和对白之间的平衡。Fraunhofer在2013年IBC期间携手Thomson Video Networks演示了对白增强技术在实时数字视频广播(DVB)链中的应用。此外,在2011年的温布尔登网球锦标赛期间,Fraunhofer IIS与BBC共同针对对白增强技术的可用性进行了用户体验反馈实验。
对白增强技术正在完成DVB标准化的进程中,因此这项技术能够应用于基于DVB标准(如DVB-T2)的传输系统中。
对白增强技术是HE-AAC编解码器的理想补充。作为目前最高效的电视广播音频编解码器,在英国、瑞典等大多数推出了第二代地面电视的国家,HE-AAC都是指定的音频编解码器。此外,HE-AAC还是 HbbTV(Hybrid Broadcast Broadband TV,混合广播宽带电视)指定的音频编解码器。
Fraunhofer IIS在中国
Fraunhofer几乎在和中国所有的移动运营商进行沟通,希望他们将HE-AAC技术应用在更多的应用场景当中,比如VoIP、VoLTE等技术在音乐和在移动设备领域的应用。此外还与中小企业的合作。对于Fraunhofer来说,最为重要的一点就是帮助中国制造商以正确的方式来实施我们的技术,以使得他们在全球范围内保持竞争优势。就在昨天,Fraunhofer刚刚宣布了一项与香港公司的合作项目,为客户提供测试套件,以保证他们的测试能够满足各个不同市场的需要。中国的客户希望按照Fraunhofer的标准做测试,并由Fraunhofer提供认证。目前,从欧洲、新加坡、马来西亚等国家进口的广电设备必须得到Fraunhofer的相关认证才得以进口。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。