今年的政府工作报告提出,提高科技创新支撑能力。稳定支持基础研究和应用基础研究,引导企业增加研发投入。两会期间,提高科技创新支撑能力、加速人工智能应用落地成为代表热议的话题。
全国人大代表丁国林为人工智能进言献策:“我们要增强紧迫感和使命感,推动关键核心技术自主创新突破,以互联网思维探索人工智能技术转化运用,用主流价值导向驾驭‘算法’,。”
丁国林表示:“为适应信息主体视听化、网络视频爆发期大势,要更加有力推动AI影像技术的应用,更加精准促进媒体融合转型,更加迅速占领信息传播制高点,一是大力扶持相关技术企业,出台针对性减税降费政策;二是积极开放应用场景空间,合力做强媒体融合国家战略;三是成立产学研一体联盟,共同推动技术进步和业务应用。”
随着5G技术的大规模商用,视频流量将呈指数级增长,视频化表达已是大势所趋。但当前,我国媒体转型与发展正面临着发展瓶颈,主要表现在:低效率的视频生产方式制约了传统媒体向融媒体、智媒体转型;海量化的视频生产规模使内容审核更加复杂困难。
丁国林认为,AI 影像技术的赋能加持可以有效解决传统媒体发展瓶颈,也是实现媒体融合发展战略的必由之路。
目前,AI影像技术对于媒体融合潜力巨大、前景广阔,主要作用有5个方面:一是自动化生产,融合多模态图像识别、情感语境、关键帧捕捉等关键技术,自动化生产全新视频,极大缩短工时、降低成本;二是智能化识别,基于数据快速处理、视频智能识别,有效解决镜头提取准确率不高、类型识别不准、通用性差等问题;三是数据化挖掘,通过人工智能技术,盘活持续性海量视频资料,使其可搜索可随需提取,实现价值最大化;四是结构化服务,提供精确到帧的自动化视频结构化服务,实现视频、图片、声音等内容自动合规性审核;五是个性化推送,分析理解观众兴趣偏好,视频输出从常规单向输出变为按需求输出,更加贴合观众需求。
实际上,国内已经有企业正在利用AI影像技术服务于国家的“媒体融合”战略。作为国内典型的智能影像技术系统的开发者及提倡者,影谱科技(Moviebook)的智能影像系列方案可支持大批量数字内容视频化,融合多模态图像识别、情感语境、关键帧捕捉等关键技术,实现影像生产过程的自动化,提升视频生产效率,降低生产成本,在文娱、媒体、科教等行业得到大规模商用,并使影谱科技迈入中国计算机视觉市场第一阵营。
影谱科技创始人姬晓晨表示,“影像内容将是继文字、图片之后的主要信息载体,随着信息视频化提速,影像内容产制播将进一步向个性化和智能化演进,智能影像与机器影像并存。智能影像技术在流媒体领域的充分应用将推动‘个性化和互动性的智能内容将成为重要组成部分’,并已达到大规模应用的临界点”。
据悉,影谱科技开发了一套AI生成无限视频内容的技术引擎AGC,该技术可基于用户的喜好及技术应用者的需求自动生产符合场景需求的短视频、视频内片段、虚拟主持人等AI智能影像。该技术在很大程度上缓解了高质量内容生产力不足的情况。与单一业务流应用略有不同,Moviebook影谱科技聚焦于从内容创建到分发,形成以元数据为基本单位的一站式智能影像技术服务。面向传媒企业提供包括批量化创建智能影像、视频资产管理与分析、智能影像运营、再到智能视频商业化的全过程。
AI影像技术已成为人工智能在媒体领域的应用标杆之一,不仅能创建及优化内容本质,它还可以在定义“技术如何快速落地”方面发挥重要作用。除此之外,智能影像技术仍然充满了各种可能性。
好文章,需要你的鼓励
这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题:如何让AI既能写出高质量内容,又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法,他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感,最终训练出的模型在保持顶级质量的同时,创作多样性接近人类水平,为AI创意写作开辟了新方向。
上海AI实验室联合多所高校开发出VisualPRM系统,这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程,显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准,实现了在七个推理基准上的全面性能提升,即使是最先进的大型模型也获得了5.9个百分点的改进。
上海AI实验室团队通过LEGO积木设计了创新评测基准LEGO-Puzzles,系统测试了20个先进多模态大语言模型的空间推理能力。研究发现即使最强AI模型准确率仅57.7%,远低于人类93.6%的表现,揭示了当前AI在三维空间理解和多步序列推理方面的重大不足,为机器人、自动驾驶等应用发展提供重要参考。
字节跳动团队突破了AI图像生成领域的三大难题:身份识别不准确、文字理解偏差和图片质量不佳。他们开发的InfiniteYou技术采用创新的InfuseNet架构和多阶段训练策略,能够根据用户照片和文字描述生成高质量个性化图像。实验显示该技术在身份相似度、文本匹配度和图像质量方面均超越现有最佳方案,并具备出色的兼容性,为个性化内容创作开辟了新道路。