微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

Facebook利用10亿张社交软件图片，训练AI新算法

FacebookAI机器学习人工智能社交软件

Facebook利用10亿张社交软件图片，训练AI新算法

作者：科技行者

2021-03-08 11:44

分享至：

Facebook研究人员发布新的人工智能模型，该模型可以利用互联网上任何一组随机无标签图片进行学习。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2021-03-08 11:44 • 科技行者

Facebook研究人员日前发布了一个新的人工智能模型SEER，SEER模型可以利用互联网上任何一组随机的、未被标记的图像进行学习。Facebook这一“突破”虽然还处于早期阶段，但团队预计该“突破”将导致计算机视觉领域的一场"革命"。

SEER是SElf-SupERvised（自我监督[学习]）的英文缩写，SEER的训练用了10亿张公开的Instagram图片，这些图片是未经人工策划过的。即图片没有做过通常用于算法训练的标签和注释处理，但SEER仍然能够自主地利用数据集一边学习一边处理数据，最终可以在物体检测等任务上达到最高的准确度。

SEER用的这种方法被称为「自我监督学习」，自我监督学习在人工智能领域已经非常成熟，可以直接从用于训练的信息创建学习系统，不必依靠经过仔细标记的数据集训练如何执行任务，例如识别照片里的对象，或翻译一段文字等任务。

自我监督学习最近在科学界受到大量关注，因为这个方法，意味着对人类标注数据的需要少很多，标注数据是一项费力费时的任务，是大多数研究人员都不愿做的事情。同时，由于自监督模型不需要经人工策划的数据集，因此可以利用更大、更多样化的数据集。

在某些领域（尤其是自然语言处理领域），自我监督学习方法已经取得了突破性的进展。许多利用无标记文本训练的算法使得诸如答疑、机器翻译、自然语言推理等应用取得了各种进展。

相比之下，计算机视觉还没有完全投入自我监督学习的革命之中。Facebook AI Research的软件工程师Priya Gopal称，SEER标志着计算机视觉领域的第一次。她告诉记者，"SEER是第一个完全自我监督的计算机视觉模型，是利用互联网的随机图像进行训练的，而相比之下，计算机视觉领域现有的自我监督方面的工作，都是利用经大量编辑过的ImageNet数据集进行训练。"

ImageNet实际上是个由数百万张图片组成的大规模数据库，这些图片都被研究人员标注了标签，ImageNet面向广大计算机视觉界开放，目的是推动人工智能的发展。

Facebook的研究人员以该项目的数据库，作为基准评估SEER的性能，他们发现，自监督模型在低照、物体检测、分割和图像分类等任务上的表现优于最先进的监督型AI系统。

Goyal表示，"SEER仅利用随机图像进行训练，性能却优于现有的自我监督模型。这个结果基本上表明，我们在计算机视觉中不需要像ImageNet这种经高度策划过的数据集，利用随机图像进行自我监督学习已经可以产生非常高质量的模型。"

由于自我监督学习需要的精密程度较高，研究人员在这方面的工作也并非没有挑战。在涉及到文本时，人工智能模型要做的是赋予单词特定的意思；但对于图像而言，算法必须给每个像素赋予一个对应的概念，同时要考虑同一个概念在不同图片中的各种角度、视图和形状。

换句话说，研究人员处理图像时，需要大量的数据以及可以复杂的信息库中推导出所有可能的视觉概念的模型。

Goyal和她的团队为了达到这个目的，在Facebook AI自我监督学习方面的现有基础上，开发了名为「SwAV」的新算法，SwAV算法将那些显示相似概念的图像分类为不同的组。Facebook科学家们还设计了一个深度学习算法的卷积网络，该卷积网络可以模拟人脑中神经元的连接模式，以及为图像中的不同对象赋予不同的重要性。

该系统用了10亿Instagram图的强大数据集，至少规模是够大了。Facebook的团队用了V100 Nvidia GPU和32GB内存，模型规模增大后，团队也只得用模型去套可用的内存。但Goyal解释说，下一步的研究将有助于确保计算能力可以适应新系统。

她表示，"我们要在越来越多的GPU上训练模型时，GPU之间的通信需要足够快速，以达到实现更快训练的目的。这样的挑战可以通过开发明确的软件和研究技术得到解决，开发的软件和技术能够针对特定的内存和运行时间预算行之有效。"

因此，在SEER付诸实际使用案例之前还有一些工作要做。但Goyal认为，SEER技术的影响不应该被低估。她表示，"SEER技术使得我们现在可以利用大量丰富的互联网随机图像训练大型模型，可以在计算机视觉领域取得各种进展。"

Goyal称，"这一突破，可以实现计算机视觉领域的自我监督学习革命，其和我们在自然语言处理里看到的涉及文本的自我监督学习革命有些类似。"

SEER在Facebook内部可以用在广泛的计算机视觉任务上，包括自动生成图像描述、帮助识别违反政策的内容等等。SEER技术在Facebook以外的地方也可以在图像和元数据有限的领域发挥作用，比如医疗成像。

Facebook的团队呼吁各方面做更多的工作，以推动SEER进入下一个发展阶段。Facebook团队还开发了基于PyTorch的多用途库，可用于自我监督学习，库名为「VISSL」，已开源，目的是鼓励广泛的AI社区使用该技术进行测试。

FacebookAI机器学习人工智能社交软件

分享至

0赞

好文章，需要你的鼓励

推荐文章

自对弈训练
推理能力提升
零和游戏学习

2025-07-02 14:26

AI玩游戏能让推理变聪明？新加坡国立大学发现自对弈训练的神奇效果

新加坡国立大学研究团队开发了SPIRAL框架，通过让AI与自己对弈零和游戏来提升推理能力。实验显示，仅训练AI玩简单扑克游戏就能让其数学推理能力提升8.6%，通用推理提升8.4%，且无需任何数学题目作为训练材料。研究发现游戏中的三种推理模式能成功转移到数学解题中，为AI训练提供了新思路。
计算机视觉
图像降噪
3D相机技术

2025-07-02 14:26

同济大学突破性研究：让3D相机告别"噪点困扰"的智能降噪新技术

同济大学团队开发的GIGA-ToF技术通过融合多帧图像的"图结构"信息，创新性地解决了3D相机噪声问题。该技术利用图像间的不变几何关系，结合深度学习和数学优化方法，在合成数据集上实现37.9%的精度提升，并在真实设备上展现出色泛化能力，为机器人、AR和自动驾驶等领域提供更可靠的3D视觉解决方案。
人工智能
视觉语言模型
强化学习

2025-07-02 14:26

AI视觉推理模型的"顿悟时刻"真的存在吗？伊利诺伊大学研究揭示令人意外的真相

伊利诺伊大学研究团队通过对比实验发现，经过强化学习训练的视觉语言模型虽然表现出"顿悟时刻"现象，但这些自我纠错行为并不能实际提升推理准确率。研究揭示了AI模型存在"生成-验证差距"，即生成答案的能力强于验证答案质量的能力，且模型在自我验证时无法有效利用视觉信息，为AI多模态推理发展提供了重要启示。
大语言模型
稀疏性训练
计算效率优化

2025-07-02 14:25

MIT团队发明"智能减肥法"让AI训练快1.6倍：只需要一半的算力就能教会大模型新技能

MIT等顶尖机构联合提出SparseLoRA技术，通过动态稀疏性实现大语言模型训练加速1.6倍，计算成本降低2.2倍。该方法使用SVD稀疏性估计器智能选择重要计算部分，在保持模型性能的同时显著提升训练效率，已在多个任务上验证有效性。