大规模的数据收集和处理能力的飞跃,为人工智能的重大进步奠定了基础。然而越来越多的证据表明,人工智能领域已经准备好进入一个全新的高度,人工智能不仅能够想象现实世界,而且能够开始准确地判断什么是真实的、重要的,什么是不真实的、不重要的——从而预测接下来会发生什么。
谷歌公司研究科学家Carl Vondrick近日在旧金山Re-Work深度学习峰会发表演讲时说:“计算机非常擅长记忆,问题是教他们如何忘记。”
Vondrick的研究专注于当今世界网络最棘手的挑战之一:如何利用大量的、无处不在的、无标签视频的数据库。被一个可爱的婴儿或有趣的猫咪视频逗笑是一回事,要从视频中获得信息是另一回事。
谷歌研究小组认为,最好的方法是:使用数百万个无标签的视频时间来训练深度学习神经网络(DNN),以更好地了解世界。利用大量可用的素材,采用了人工智能技术的网络不仅可以准确描述它看到了什么,而且还可以预测接下来将会发生什么。
在这次峰会,Vondrick展示了人们相互交流的视频,然后网络分析出基本正确的结果。拥抱、握手或击掌,往往是基于视频捕捉到的人际交往的行为。
深度学习研究是重要的,因为人类对机器越多依赖,越要机器有能力辨别所观察的人类行为。如果一个人靠近门把手,这时候如果机器人决定关门的话,就是非常不合适的。
有趣的是,谷歌研究人员一直在扩展深度学习模式,把声音也包含在内。峰会与会者听到一段唱着“生日快乐”的音乐,而当视频图像显示出来,网络正确地预测了该段视频中会有蜡烛的形象。Vondrick解读道,深度学习系统在预测行动方面进展顺利,精确度达74%,比人类的速度提高了约10个百分点。
Vondrick坦言:“这项任务仍然非常困难,我们并不总能得到正确的结果。”
Vondrick的研究是基于一种被称为对抗式学习(adversarial learning)的方法,这种方法实际上是让两种网络彼此竞争。一个网络产生真实的图像,另一个网络分析这些图像,并确定这些图像是真的还是假的。“谷歌大脑”研究人员Ian Goodfellow最近也采用了这种技术,他已经成为“生成式对抗式网络”(GAN,Generative Adversarial Networks)领域的权威。
在Goodfellow的工作中,GAN创造出真实世界的照片和声音。Goodfellow说:“GAN是基于博弈论的生成模型,开启了广泛的工程任务的大门。”
这些任务包括各种深度学习模式,在这些模式下,机器可以被要求把一匹棕色的马变成斑马。在这次峰会的一段视频中,一匹马在动物园中跃跃欲试,斑马的条纹完美地呈现出来,并且由于计算机从非洲大草原拍摄的图像中找到了斑马纹,所以在背景中还有一些褐色的草。
机器要理解书面文字的上下文,也许更重要的是深度学习方面的进步,也就是训练计算模型以理解人的情境。在艾伦人工智能研究所(Allen Institute for AI),研究人员正在从在线数据库中读取大量未标记的文本数据,来训练大规模的语言模型。
这里使用的关键方法结合了来自语言模型或ELMo表示的嵌入。艾伦研究所的研究科学家Matthew Peters说:“ELMo的表述是上下文的,依赖于所使用的整个句子。”
在这次峰会上,Peters展示了这种技术如何使网络能够正确解读像“play”这种简单单词背后的意图,这个单词可以有多种含义,取决于它在句子中的用法。“three-point play”可能意味着与“representatives who play to the party base”完全不同的含义。通过训练完整的句子而不是有限的单词定义,计算机正在学习如何做到这一点。
人工智能也正在扩展到移动设备。Facebook人工智能摄像头团队开发了一项新技术Mask R-CNN2Go,可以检测身体姿势,并且可以准确地将图像从背景中分离出来。这不是一个容易解决的问题,因为实时检测身体动作是一个混乱的过程。衣服、运动和附近的其他人或物体的存在都会干扰。人工智能网络必须能够最终排除掉图像的其他部分,以便准确地检测和跟踪人体姿势。换句话说,它必须学会“忘记”。
Facebook公司研究工程师Andrew Tulloch表示,Facebook人工智能实验室(FAIR)最近发布了基于开源代码的Mask R-CNN平台。在Facebook庞大的移动用户社区中使用这个应用突显了其未来潜力。“这是一个巨大的机会,”Tulloch表示。
深度学习到底要走多远?本月早些时候在拉斯维加斯举行的CES消费电子展上,参观者看到从人工智能控制的猫咪宠物玩具,到以人工智能为动力的站立式办公桌,连流行文化偶像贾斯汀•汀布莱克也加入了这场派对,最近发布了一个融入人工智能主题的视频。
英伟达公司人工智能基础设施副总裁Clement Farabet说:“深度学习现在几乎是一种商品了。这意味着,我们只能看到人工智能技术如何改变我们日常生活这一个开始。”
来源:siliconangle.com
编译:科技行者
好文章,需要你的鼓励
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。
浙江大学研究团队通过OmniEAR基准测试揭示了当前AI模型在物理世界推理方面的严重缺陷。测试显示,即使最先进的AI在明确指令下能达到85-96%成功率,但面对需要从物理约束推断行动的任务时,成功率骤降至56-85%。研究发现信息过载反而降低AI协作能力,监督学习虽能改善单体任务但对多智能体协作效果甚微,表明当前架构存在根本局限性。
纽约大学和Aimpoint Digital Labs的研究团队首次揭示了Transformer模型训练中"大规模激活"的完整发展轨迹。这些影响力比普通激活大千倍的"超级激活"遵循可预测的数学规律,研究者开发出五参数公式能以98.4%准确率预测其变化。更重要的是,通过调整模型架构参数如注意力密度、宽深比等,可以在训练前就预测和控制这些关键激活的行为,为设计更高效、量化友好的AI模型提供了全新工具。