微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

这一年，人工智能对未来的预测越来越准了

人工智能DNNGAN

这一年，人工智能对未来的预测越来越准了

作者：CNET科技行者

2018-02-05 19:54

分享至：

谷歌公司研究科学家Carl Vondrick近日在旧金山Re-Work深度学习峰会发表演讲时说：“计算机非常擅长记忆，问题是教他们如何忘记。”

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2018-02-05 19:54 • CNET科技行者

大规模的数据收集和处理能力的飞跃，为人工智能的重大进步奠定了基础。然而越来越多的证据表明，人工智能领域已经准备好进入一个全新的高度，人工智能不仅能够想象现实世界，而且能够开始准确地判断什么是真实的、重要的，什么是不真实的、不重要的——从而预测接下来会发生什么。

谷歌公司研究科学家Carl Vondrick近日在旧金山Re-Work深度学习峰会发表演讲时说：“计算机非常擅长记忆，问题是教他们如何忘记。”

Vondrick的研究专注于当今世界网络最棘手的挑战之一：如何利用大量的、无处不在的、无标签视频的数据库。被一个可爱的婴儿或有趣的猫咪视频逗笑是一回事，要从视频中获得信息是另一回事。

从视频中学习

谷歌研究小组认为，最好的方法是：使用数百万个无标签的视频时间来训练深度学习神经网络（DNN），以更好地了解世界。利用大量可用的素材，采用了人工智能技术的网络不仅可以准确描述它看到了什么，而且还可以预测接下来将会发生什么。

在这次峰会，Vondrick展示了人们相互交流的视频，然后网络分析出基本正确的结果。拥抱、握手或击掌，往往是基于视频捕捉到的人际交往的行为。

深度学习研究是重要的，因为人类对机器越多依赖，越要机器有能力辨别所观察的人类行为。如果一个人靠近门把手，这时候如果机器人决定关门的话，就是非常不合适的。

将声音与图像关联

有趣的是，谷歌研究人员一直在扩展深度学习模式，把声音也包含在内。峰会与会者听到一段唱着“生日快乐”的音乐，而当视频图像显示出来，网络正确地预测了该段视频中会有蜡烛的形象。Vondrick解读道，深度学习系统在预测行动方面进展顺利，精确度达74％，比人类的速度提高了约10个百分点。

Vondrick坦言：“这项任务仍然非常困难，我们并不总能得到正确的结果。”

Vondrick的研究是基于一种被称为对抗式学习（adversarial learning）的方法，这种方法实际上是让两种网络彼此竞争。一个网络产生真实的图像，另一个网络分析这些图像，并确定这些图像是真的还是假的。“谷歌大脑”研究人员Ian Goodfellow最近也采用了这种技术，他已经成为“生成式对抗式网络”（GAN，Generative Adversarial Networks）领域的权威。

在Goodfellow的工作中，GAN创造出真实世界的照片和声音。Goodfellow说：“GAN是基于博弈论的生成模型，开启了广泛的工程任务的大门。”

这些任务包括各种深度学习模式，在这些模式下，机器可以被要求把一匹棕色的马变成斑马。在这次峰会的一段视频中，一匹马在动物园中跃跃欲试，斑马的条纹完美地呈现出来，并且由于计算机从非洲大草原拍摄的图像中找到了斑马纹，所以在背景中还有一些褐色的草。

理解书面文字的上下文

机器要理解书面文字的上下文，也许更重要的是深度学习方面的进步，也就是训练计算模型以理解人的情境。在艾伦人工智能研究所（Allen Institute for AI），研究人员正在从在线数据库中读取大量未标记的文本数据，来训练大规模的语言模型。

这里使用的关键方法结合了来自语言模型或ELMo表示的嵌入。艾伦研究所的研究科学家Matthew Peters说：“ELMo的表述是上下文的，依赖于所使用的整个句子。”

在这次峰会上，Peters展示了这种技术如何使网络能够正确解读像“play”这种简单单词背后的意图，这个单词可以有多种含义，取决于它在句子中的用法。“three-point play”可能意味着与“representatives who play to the party base”完全不同的含义。通过训练完整的句子而不是有限的单词定义，计算机正在学习如何做到这一点。

人工智能移动化

人工智能也正在扩展到移动设备。Facebook人工智能摄像头团队开发了一项新技术Mask R-CNN2Go，可以检测身体姿势，并且可以准确地将图像从背景中分离出来。这不是一个容易解决的问题，因为实时检测身体动作是一个混乱的过程。衣服、运动和附近的其他人或物体的存在都会干扰。人工智能网络必须能够最终排除掉图像的其他部分，以便准确地检测和跟踪人体姿势。换句话说，它必须学会“忘记”。

Facebook公司研究工程师Andrew Tulloch表示，Facebook人工智能实验室（FAIR）最近发布了基于开源代码的Mask R-CNN平台。在Facebook庞大的移动用户社区中使用这个应用突显了其未来潜力。“这是一个巨大的机会，”Tulloch表示。

深度学习到底要走多远？本月早些时候在拉斯维加斯举行的CES消费电子展上，参观者看到从人工智能控制的猫咪宠物玩具，到以人工智能为动力的站立式办公桌，连流行文化偶像贾斯汀•汀布莱克也加入了这场派对，最近发布了一个融入人工智能主题的视频。

英伟达公司人工智能基础设施副总裁Clement Farabet说：“深度学习现在几乎是一种商品了。这意味着，我们只能看到人工智能技术如何改变我们日常生活这一个开始。”

来源：siliconangle.com

编译：科技行者

人工智能DNNGAN

分享至

0赞

好文章，需要你的鼓励

推荐文章

人工智能
AI安全防护
自适应攻击

2025-11-19 16:15

谷歌DeepMind等顶级机构联合揭秘：为什么所有AI安全防护都是纸老虎？

谷歌DeepMind等顶级机构联合研究揭示，当前12种主流AI安全防护系统在面对专业自适应攻击时几乎全部失效，成功率超过90%。研究团队通过强化学习、搜索算法和人类红队攻击等多种方法，系统性地突破了包括提示工程、对抗训练、输入过滤和秘密检测在内的各类防护技术，暴露了AI安全评估的根本缺陷。
视频生成
多模态控制
Diffusion Transformer

2025-11-19 16:15

西蒙弗雷泽大学和Adobe研究院联手打造视频制作新神器：让静态图片学会"按剧本演戏"

西蒙弗雷泽大学和Adobe研究院联合开发的MultiCOIN技术，能够将两张静态图片转换为高质量的过渡视频。该技术支持轨迹、深度、文本和区域四种控制方式，可单独或组合使用。采用双分支架构和分阶段训练策略，在运动控制精度上比现有技术提升53%以上，为视频制作提供了前所未有的灵活性和精确度。
人工智能
扩散语言模型
并行文本生成

2025-11-19 16:14

英国国王学院突破传统：让AI像人类思考一样"反复斟酌"，生成速度飞跃10倍

英国国王学院研究团队开发了潜在精炼解码（LRD）技术，解决了AI文本生成中的速度与准确性平衡难题。该方法通过两阶段设计模仿人类思考过程：先让AI在连续空间中"深思熟虑"，保持多种可能性的混合状态，然后"果断行动"，逐步确定答案。实验显示，LRD在编程和数学推理任务中准确性提升最高6.3个百分点，生成速度提升最高10.6倍，为AI并行文本生成开辟了新路径。
人工智能
强化学习
模型训练优化

2025-11-19 16:14

清华大学团队发布ViSurf：让AI视觉模型学习更聪明的新方法

清华大学团队开发的ViSurf是一种创新的大型视觉语言模型训练方法，巧妙融合了督导式学习和强化学习的优势。该方法通过将标准答案整合到强化学习过程中，让AI既能从正确答案中学习又能保持自主推理能力。实验显示ViSurf在多个视觉任务上显著超越传统方法，特别是在处理模型知识盲区时表现突出，同时有效避免了灾难性遗忘问题，为AI训练提供了更高效稳定的新范式。