7月5日,由莫斯科国立大学举办的MSU2022世界编码器大赛硬件编码器成绩全部揭晓。快手StreamLake首款自研智能视频处理芯片StreamLake-200(SL200)夺得4K和1080P赛道24项指标中的16项第一。
据悉,这是快手StreamLake首次参加MSU世界编码器大赛,在全部6个子赛道中斩获5个“最佳ASIC编码器”称号,标志着SL200芯片在高密度、高质量及超高质量下均达到业界领先水平。
MSU大赛在视频压缩领域极具影响力,至今已连续举办了十七届,吸引了国内外多家知名科技企业和组织参赛。本次MSU2022世界编码器大赛硬件编码器赛道共有14个国内外企业参赛,包括腾讯、字节跳动、Intel、英伟达、AMD等。比赛分为4K30fps、4K60fps、4K120fps、1080P60fps、1080P120fps、1080P240fps共6个子赛道,快手StreamLake参加了全部硬件赛道比赛。
随着视频行业的发展,4K超高清在短视频、长视频、广电、高质量监控等领域的应用越来越广泛。在多年积累的基础上,SL200芯片采用了多项快手自主创新技术,对4K/8K超高清视频进行了针对性的优化,实现了业界领先的清晰度和流畅度,并达到极高的编解码密度。本届MSU比赛中,SL200芯片在1080P和4K两个赛道都斩获佳绩,显示了该芯片广泛的实用范围,将对我国未来智能视频行业的发展起到基石的作用。
该SoC芯片集成了快手领先的视频编解码、图像处理、AI推理、内容自适应编码等关键技术,具备高质量、高密度、智能化的特点。SL200芯片于2022年6月流片成功之后,快手团队设计研发了基于该芯片的板卡和服务器系统,并完成了数月的大规模灰度和压力测试,目前正逐步全面应用于快手短视频和直播业务,并已对外开放测试,联合多家合作伙伴共同探索更为广阔的应用场景。
目前,直播和短视频已经成为了视频消费中的重要部分,意味着视频流量迎来快速增长以及带宽成本不断增加。SL200芯片具有“高编码质量+高密度”的特性,可极大限度降低带宽成本,同时提供行业领先的编码质量。其中,高编码质量相比x265 medium节省约30%码率,另外支持画质增强;高转码密度方面,单卡(2颗芯片)支持8路4K60fps编码,还支持“一进多出”的转码模式。
随着4K/8K超高清视频被广泛应用于大型赛事、重要活动的直播/转播之中,为了提供更好的用户体验,广电行业在质量、稳定性、密度方面都对视频转码方案提出了更高的要求。SL200芯片凭借"AI+高质量视频编码"特性,相比国内某头部广电编码器厂商可以节省约40%的码率。另外SL200芯片提供了ABR、CBR、CRF三种码控方案以应对有线电视、IPTV、OTT和新媒体场景对于码率控制的诉求。
而在云游戏场景下,对延时有着极高要求,例如射击类游戏,对操作精准度有很高要求,通常需要将游戏响应延迟控制在50ms以内;VR等肢体配合类游戏,整个游戏链路延迟需要低于25ms。在整个云游戏的延迟通路中,通常对视频编码延迟的要求是控制在6ms内。SL200芯片具有“低延迟+更好的编码质量”的特性,在4ms的超低延时下,可以获得1080P超清画质,并且相比某主流GPU在可节省约14%的码率。
此外,快手StreamLake搭建了基于SL200芯片的视频基础设施,正式发布StreamLake硬件编码器产品,利用快手领先的视频编解码及增强和修复算法,帮助客户提升多媒体处理环节的质量与效率,可应用于IPTV、OTT、广电、智能监控、互联网视频直播等多个领域的超高清直播平台建设及视频压缩编码。
好文章,需要你的鼓励
这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题:如何让AI既能写出高质量内容,又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法,他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感,最终训练出的模型在保持顶级质量的同时,创作多样性接近人类水平,为AI创意写作开辟了新方向。
上海AI实验室联合多所高校开发出VisualPRM系统,这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程,显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准,实现了在七个推理基准上的全面性能提升,即使是最先进的大型模型也获得了5.9个百分点的改进。
上海AI实验室团队通过LEGO积木设计了创新评测基准LEGO-Puzzles,系统测试了20个先进多模态大语言模型的空间推理能力。研究发现即使最强AI模型准确率仅57.7%,远低于人类93.6%的表现,揭示了当前AI在三维空间理解和多步序列推理方面的重大不足,为机器人、自动驾驶等应用发展提供重要参考。
字节跳动团队突破了AI图像生成领域的三大难题:身份识别不准确、文字理解偏差和图片质量不佳。他们开发的InfiniteYou技术采用创新的InfuseNet架构和多阶段训练策略,能够根据用户照片和文字描述生成高质量个性化图像。实验显示该技术在身份相似度、文本匹配度和图像质量方面均超越现有最佳方案,并具备出色的兼容性,为个性化内容创作开辟了新道路。