微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 Facebook利用10亿张社交软件图片,训练AI新算法

Facebook利用10亿张社交软件图片,训练AI新算法

2021-03-08 11:44
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2021-03-08 11:44 科技行者

Facebook研究人员日前发布了一个新的人工智能模型SEER,SEER模型可以利用互联网上任何一组随机的、未被标记的图像进行学习。Facebook这一“突破”虽然还处于早期阶段,但团队预计该“突破”将导致计算机视觉领域的一场"革命"。

Facebook利用10亿张社交软件图片,训练AI新算法

SEER是SElf-SupERvised(自我监督[学习])的英文缩写,SEER的训练用了10亿张公开的Instagram图片,这些图片是未经人工策划过的。即图片没有做过通常用于算法训练的标签和注释处理,但SEER仍然能够自主地利用数据集一边学习一边处理数据,最终可以在物体检测等任务上达到最高的准确度。

SEER用的这种方法被称为「自我监督学习」,自我监督学习在人工智能领域已经非常成熟,可以直接从用于训练的信息创建学习系统,不必依靠经过仔细标记的数据集训练如何执行任务,例如识别照片里的对象,或翻译一段文字等任务。

自我监督学习最近在科学界受到大量关注,因为这个方法,意味着对人类标注数据的需要少很多,标注数据是一项费力费时的任务,是大多数研究人员都不愿做的事情。同时,由于自监督模型不需要经人工策划的数据集,因此可以利用更大、更多样化的数据集。

在某些领域(尤其是自然语言处理领域),自我监督学习方法已经取得了突破性的进展。许多利用无标记文本训练的算法使得诸如答疑、机器翻译、自然语言推理等应用取得了各种进展。

相比之下,计算机视觉还没有完全投入自我监督学习的革命之中。Facebook AI Research的软件工程师Priya Gopal称,SEER标志着计算机视觉领域的第一次。她告诉记者,"SEER是第一个完全自我监督的计算机视觉模型,是利用互联网的随机图像进行训练的,而相比之下,计算机视觉领域现有的自我监督方面的工作,都是利用经大量编辑过的ImageNet数据集进行训练。"

ImageNet实际上是个由数百万张图片组成的大规模数据库,这些图片都被研究人员标注了标签,ImageNet面向广大计算机视觉界开放,目的是推动人工智能的发展。

Facebook的研究人员以该项目的数据库,作为基准评估SEER的性能,他们发现,自监督模型在低照、物体检测、分割和图像分类等任务上的表现优于最先进的监督型AI系统。

Goyal表示,"SEER仅利用随机图像进行训练,性能却优于现有的自我监督模型。这个结果基本上表明,我们在计算机视觉中不需要像ImageNet这种经高度策划过的数据集,利用随机图像进行自我监督学习已经可以产生非常高质量的模型。"

由于自我监督学习需要的精密程度较高,研究人员在这方面的工作也并非没有挑战。在涉及到文本时,人工智能模型要做的是赋予单词特定的意思;但对于图像而言,算法必须给每个像素赋予一个对应的概念,同时要考虑同一个概念在不同图片中的各种角度、视图和形状。

换句话说,研究人员处理图像时,需要大量的数据以及可以复杂的信息库中推导出所有可能的视觉概念的模型。

Goyal和她的团队为了达到这个目的,在Facebook AI自我监督学习方面的现有基础上,开发了名为「SwAV」的新算法,SwAV算法将那些显示相似概念的图像分类为不同的组。Facebook科学家们还设计了一个深度学习算法的卷积网络,该卷积网络可以模拟人脑中神经元的连接模式,以及为图像中的不同对象赋予不同的重要性。

该系统用了10亿Instagram图的强大数据集,至少规模是够大了。Facebook的团队用了V100 Nvidia GPU和32GB内存,模型规模增大后,团队也只得用模型去套可用的内存。但Goyal解释说,下一步的研究将有助于确保计算能力可以适应新系统。

她表示,"我们要在越来越多的GPU上训练模型时,GPU之间的通信需要足够快速,以达到实现更快训练的目的。这样的挑战可以通过开发明确的软件和研究技术得到解决,开发的软件和技术能够针对特定的内存和运行时间预算行之有效。"

因此,在SEER付诸实际使用案例之前还有一些工作要做。但Goyal认为,SEER技术的影响不应该被低估。她表示,"SEER技术使得我们现在可以利用大量丰富的互联网随机图像训练大型模型,可以在计算机视觉领域取得各种进展。"

Goyal称,"这一突破,可以实现计算机视觉领域的自我监督学习革命,其和我们在自然语言处理里看到的涉及文本的自我监督学习革命有些类似。"

SEER在Facebook内部可以用在广泛的计算机视觉任务上,包括自动生成图像描述、帮助识别违反政策的内容等等。SEER技术在Facebook以外的地方也可以在图像和元数据有限的领域发挥作用,比如医疗成像。

Facebook的团队呼吁各方面做更多的工作,以推动SEER进入下一个发展阶段。Facebook团队还开发了基于PyTorch的多用途库,可用于自我监督学习,库名为「VISSL」,已开源,目的是鼓励广泛的AI社区使用该技术进行测试。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。

  • 香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。

  • 中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。

  • 字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-