
大规模的数据收集和处理能力的飞跃,为人工智能的重大进步奠定了基础。然而越来越多的证据表明,人工智能领域已经准备好进入一个全新的高度,人工智能不仅能够想象现实世界,而且能够开始准确地判断什么是真实的、重要的,什么是不真实的、不重要的——从而预测接下来会发生什么。
谷歌公司研究科学家Carl Vondrick近日在旧金山Re-Work深度学习峰会发表演讲时说:“计算机非常擅长记忆,问题是教他们如何忘记。”
Vondrick的研究专注于当今世界网络最棘手的挑战之一:如何利用大量的、无处不在的、无标签视频的数据库。被一个可爱的婴儿或有趣的猫咪视频逗笑是一回事,要从视频中获得信息是另一回事。
谷歌研究小组认为,最好的方法是:使用数百万个无标签的视频时间来训练深度学习神经网络(DNN),以更好地了解世界。利用大量可用的素材,采用了人工智能技术的网络不仅可以准确描述它看到了什么,而且还可以预测接下来将会发生什么。
在这次峰会,Vondrick展示了人们相互交流的视频,然后网络分析出基本正确的结果。拥抱、握手或击掌,往往是基于视频捕捉到的人际交往的行为。
深度学习研究是重要的,因为人类对机器越多依赖,越要机器有能力辨别所观察的人类行为。如果一个人靠近门把手,这时候如果机器人决定关门的话,就是非常不合适的。
有趣的是,谷歌研究人员一直在扩展深度学习模式,把声音也包含在内。峰会与会者听到一段唱着“生日快乐”的音乐,而当视频图像显示出来,网络正确地预测了该段视频中会有蜡烛的形象。Vondrick解读道,深度学习系统在预测行动方面进展顺利,精确度达74%,比人类的速度提高了约10个百分点。
Vondrick坦言:“这项任务仍然非常困难,我们并不总能得到正确的结果。”
Vondrick的研究是基于一种被称为对抗式学习(adversarial learning)的方法,这种方法实际上是让两种网络彼此竞争。一个网络产生真实的图像,另一个网络分析这些图像,并确定这些图像是真的还是假的。“谷歌大脑”研究人员Ian Goodfellow最近也采用了这种技术,他已经成为“生成式对抗式网络”(GAN,Generative Adversarial Networks)领域的权威。
在Goodfellow的工作中,GAN创造出真实世界的照片和声音。Goodfellow说:“GAN是基于博弈论的生成模型,开启了广泛的工程任务的大门。”
这些任务包括各种深度学习模式,在这些模式下,机器可以被要求把一匹棕色的马变成斑马。在这次峰会的一段视频中,一匹马在动物园中跃跃欲试,斑马的条纹完美地呈现出来,并且由于计算机从非洲大草原拍摄的图像中找到了斑马纹,所以在背景中还有一些褐色的草。
机器要理解书面文字的上下文,也许更重要的是深度学习方面的进步,也就是训练计算模型以理解人的情境。在艾伦人工智能研究所(Allen Institute for AI),研究人员正在从在线数据库中读取大量未标记的文本数据,来训练大规模的语言模型。
这里使用的关键方法结合了来自语言模型或ELMo表示的嵌入。艾伦研究所的研究科学家Matthew Peters说:“ELMo的表述是上下文的,依赖于所使用的整个句子。”
在这次峰会上,Peters展示了这种技术如何使网络能够正确解读像“play”这种简单单词背后的意图,这个单词可以有多种含义,取决于它在句子中的用法。“three-point play”可能意味着与“representatives who play to the party base”完全不同的含义。通过训练完整的句子而不是有限的单词定义,计算机正在学习如何做到这一点。
人工智能也正在扩展到移动设备。Facebook人工智能摄像头团队开发了一项新技术Mask R-CNN2Go,可以检测身体姿势,并且可以准确地将图像从背景中分离出来。这不是一个容易解决的问题,因为实时检测身体动作是一个混乱的过程。衣服、运动和附近的其他人或物体的存在都会干扰。人工智能网络必须能够最终排除掉图像的其他部分,以便准确地检测和跟踪人体姿势。换句话说,它必须学会“忘记”。
Facebook公司研究工程师Andrew Tulloch表示,Facebook人工智能实验室(FAIR)最近发布了基于开源代码的Mask R-CNN平台。在Facebook庞大的移动用户社区中使用这个应用突显了其未来潜力。“这是一个巨大的机会,”Tulloch表示。
深度学习到底要走多远?本月早些时候在拉斯维加斯举行的CES消费电子展上,参观者看到从人工智能控制的猫咪宠物玩具,到以人工智能为动力的站立式办公桌,连流行文化偶像贾斯汀•汀布莱克也加入了这场派对,最近发布了一个融入人工智能主题的视频。
英伟达公司人工智能基础设施副总裁Clement Farabet说:“深度学习现在几乎是一种商品了。这意味着,我们只能看到人工智能技术如何改变我们日常生活这一个开始。”
来源:siliconangle.com
编译:科技行者
好文章,需要你的鼓励
谷歌DeepMind等顶级机构联合研究揭示,当前12种主流AI安全防护系统在面对专业自适应攻击时几乎全部失效,成功率超过90%。研究团队通过强化学习、搜索算法和人类红队攻击等多种方法,系统性地突破了包括提示工程、对抗训练、输入过滤和秘密检测在内的各类防护技术,暴露了AI安全评估的根本缺陷。
西蒙弗雷泽大学和Adobe研究院联合开发的MultiCOIN技术,能够将两张静态图片转换为高质量的过渡视频。该技术支持轨迹、深度、文本和区域四种控制方式,可单独或组合使用。采用双分支架构和分阶段训练策略,在运动控制精度上比现有技术提升53%以上,为视频制作提供了前所未有的灵活性和精确度。
英国国王学院研究团队开发了潜在精炼解码(LRD)技术,解决了AI文本生成中的速度与准确性平衡难题。该方法通过两阶段设计模仿人类思考过程:先让AI在连续空间中"深思熟虑",保持多种可能性的混合状态,然后"果断行动",逐步确定答案。实验显示,LRD在编程和数学推理任务中准确性提升最高6.3个百分点,生成速度提升最高10.6倍,为AI并行文本生成开辟了新路径。
清华大学团队开发的ViSurf是一种创新的大型视觉语言模型训练方法,巧妙融合了督导式学习和强化学习的优势。该方法通过将标准答案整合到强化学习过程中,让AI既能从正确答案中学习又能保持自主推理能力。实验显示ViSurf在多个视觉任务上显著超越传统方法,特别是在处理模型知识盲区时表现突出,同时有效避免了灾难性遗忘问题,为AI训练提供了更高效稳定的新范式。