5月21日,搜狗联合新华社推出的全球首个3D AI合成主播“新小微”正式亮相,为全国观众带来最新的两会新闻资讯报道。基于搜狗人工智能核心技术“搜狗分身”打造的“新小微”,将拉开中国传媒行业全面进入智慧时代的序幕。
作为AI合成主播的开创者和引领者,自2018年基于搜狗分身技术推出全球首个AI合成主播后,搜狗分身持续取得重大突破,此次的3D AI合成主播就是搜狗分身最新的突破性成果。
“新小微”以新华社记者赵琬微为原型,基于超写实3D数字人建模、多模态识别及生成、实时面部动作生成及驱动、迁移学习等多项人工智能前沿技术,使机器可以基于输入文本生成逼真度极高的3D数字人视频内容。
3D AI合成主播结合了原力科技提供的业界领先的扫描还原、面部肌肉驱动、表情肢体捕捉等技术,生产出了高度还原真人发肤、形象逼真的数字人模型;同时基于搜狗分身领先的端到端多模态建模技术,使用语音、图像、文本、3D肌肉运动数据等多模态信息完成联合建模训练。在AI算法的驱动下,只需输入文本内容,“新小微”就能根据语义实时播报新闻,其表情唇动、肢体动作和语音表达高度契合、自然逼真。
搜狗推出全球第一位AI合成主播后,通过不断迭代更新使AI合成主播具备了多语种播报、对话交互等诸多能力,用最前沿的技术能力和产品效果,不断推动传媒行业内容生产的效率变革。据统计,首位 AI 合成主播“新小浩”已在新华社客户端上持续为观众服务500 多天,先后产出13,000多条新闻报道,累计时长超过35,000分钟。
较之前的2D AI合成主播,3D“新小微”不仅立体、灵活,可控,还具有同时支持多机位多景深,360°任意角度呈现内容等能力,在应用空间上拥有更多的可能性,为新闻节目多样化制作和呈现带来了更多选择。
从最初的2D到今天的3D AI合成主播,其背后不仅仅是搜狗分身技术的一次次突破迭代,更体现出人工智能驱动传媒行业生产效率与生产流程的不断革新。不仅减轻了行业从业者的重复性工作,更让相关工作“拟人化”、“生动化”,让传媒新闻播报更加有趣,更具现场性。不久的将来,3D AI合成主播还会走出演播厅,支持外景播报和互动采访,为观众带来最前沿的新闻讯息。
在5G全面铺展的新技术时代,随着分身技术落地经验的不断积累以及产品技术的突破创新,搜狗分身也会从传媒领域出发,快速向影音娱乐、医疗健康、教育金融等众多领域蔓延辐射,持续推动大众智能生活的建设。
好文章,需要你的鼓励
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。
谷歌DeepMind团队开发的GraphCast是一个革命性的AI天气预测模型,能够在不到一分钟内完成10天全球天气预报,准确性超越传统方法90%的指标。该模型采用图神经网络技术,通过学习40年历史数据掌握天气变化规律,在极端天气预测方面表现卓越,能耗仅为传统方法的千分之一,为气象学领域带来了效率和精度的双重突破。