科技行者 3月28日 北京消息:今日,在华为开发者大会2020(Cloud)第二天,华为全面分享在计算视觉领域的基础研究成果,全球开发者可通过公开发表的论文及开源代码,进一步开展AI的研究、开发和部署。同时,华为发布计算视觉研究计划(以下简称视觉计划),并邀请全球AI专家参与研究。基于华为昇腾AI处理器的Atlas人工智能计算平台将为该计划提供强大算力支撑,研究成果将在华为全场景AI计算框架MindSpore实现并开源给业界,让全球AI开发者以此为基础持续创新、不断突破边界、共同打造无所不及的智能。
开放华为计算视觉基础研究成果
投资基础研究是华为AI战略的重要部分,华为致力于在计算视觉、自然语言处理、决策推理等领域构筑数据高效、能耗高效、安全可信、自动自治的机器学习基础能力。
面向全球开发者,华为诺亚方舟实验室计算视觉首席科学家、IEEE Fellow田奇教授分享了计算视觉领域的最新研究进展:“华为在计算视觉领域围绕数据、知识和模型三大方向,大力投入基础研究,过去两年已在AI顶会CVPR、ICCV、NeurIPS、ICLR等发表80余篇论文,并取得多项业界领先的成果,这些研究成果已通过学术论文和算法代码开源等形式公开给业界,我们欢迎全球AI开发者基于华为已有的研究成果,进一步开展AI的研究、开发和部署”。
发布华为计算视觉研究计划、助力每一位AI开发者
华为计算视觉研究计划
在当前研究基础上,田奇教授发布了华为计算视觉计划,“华为将继续加大投入计算视觉的基础研究,不断挑战计算视觉领域三大问题,包括如何从海量数据中高效挖掘有用的信息、设计高效的万物识别视觉模型,以及表达并存储知识以迈向通用智能“。华为视觉计划围绕三大方向,共有六大子计划,包括:
同时,田奇教授表示,“我们欢迎全球AI研究者加入华为视觉计划,共同创新、探索未来。华为Atlas人工智能计算平台的超强算力将全面加速视觉计划开展,研究成果将在华为全场景AI计算框架MindSpore上充分实现并开源给业界,助力每一位AI开发者“。
华为在2018年华为全联接大会上首次发布AI战略,重点投资AI基础研究,并协同全球科研机构和开发者共同构建AI生态。本次开发者大会上,华为系统展示计算视觉领域基础研究成果并发布视觉计划,以AI基础研究和开放创新全面支持全球开发者探索未来,不断突破边界,共同打造无所不及的智能。
好文章,需要你的鼓励
这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题:如何让AI既能写出高质量内容,又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法,他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感,最终训练出的模型在保持顶级质量的同时,创作多样性接近人类水平,为AI创意写作开辟了新方向。
上海AI实验室联合多所高校开发出VisualPRM系统,这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程,显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准,实现了在七个推理基准上的全面性能提升,即使是最先进的大型模型也获得了5.9个百分点的改进。
上海AI实验室团队通过LEGO积木设计了创新评测基准LEGO-Puzzles,系统测试了20个先进多模态大语言模型的空间推理能力。研究发现即使最强AI模型准确率仅57.7%,远低于人类93.6%的表现,揭示了当前AI在三维空间理解和多步序列推理方面的重大不足,为机器人、自动驾驶等应用发展提供重要参考。
字节跳动团队突破了AI图像生成领域的三大难题:身份识别不准确、文字理解偏差和图片质量不佳。他们开发的InfiniteYou技术采用创新的InfuseNet架构和多阶段训练策略,能够根据用户照片和文字描述生成高质量个性化图像。实验显示该技术在身份相似度、文本匹配度和图像质量方面均超越现有最佳方案,并具备出色的兼容性,为个性化内容创作开辟了新道路。