未来,可能不只有新闻标题是假的。
机器学习技术十分强大,无论是编辑视频、音频,还是生成逼真的视频、音频,将越来越简单,甚至可以十分准确的模仿任何一个你想模仿的人。
总部位于俄罗斯的一家公司最近发布了一款智能手机应用软件,叫FaceApp。它可以自动修改人脸图片,比如变成笑脸、改变年龄、甚至转换性别。引起人们热议的是,这款应用还有“美颜”功能,比如抚平皱纹,提亮肤色。
今年4月,蒙特利尔大学的初创公司Lyrebird展示了一项可以模仿人声的技术。这项技术成功模仿了布莱克.奥巴马、唐纳德.特朗普和希拉里.克林顿的声音,且将模仿的音频片段展示给了大家。
人工智能算法无比强大,不仅可以分析数据,还可以创造数据,以上只是其中的两个例子。
Face2Face,实时人脸捕捉和再扮演
功能强大的图形硬件和软件以及新的视频采集技术不断推动着这股浪潮。去年,斯坦福大学的研究人员展示了一个可进行人脸转换的程序,叫Face2Face。这个程序利用视频脚本,可以将一个人的面部表情匹配到另一个人(由深度感知相机追踪)的面部,成为这个人的表情。合成后的视频效果非常逼真。
Lyrebird创始人承认,操纵人声和人脸的技术会引发一系列的争论。
一家公司网站上,有这样一段关于伦理的陈述:“许多国家,人声音的记录通常会被看作十分有力的证据,尤其在司法方面。但是改变人的声音的技术却可以轻易地改变这种证据,使得这种证据的有效性受到质疑,可能会带来十分危险的后果。”
Face2Face和Lyrebird公司都是利用深度卷积网络实现这些技术。这意味着,基于近几年的新兴技术,这些公司使人工智能算法不仅对事物进行分类,还可以创造一些仿真度极高的事物。
Face2Face在YouTube上引起热议
与如今许多人工智能项目一样,这也需要利用广大深邃的神经网络。通常,人们会向这样的神经网络输入大量的训练数据,不断调整以得到理想的输出值。比如,人们可能会训练这些神经网络识别人脸或物体图像,准确率极高。
但与此同时,基于这些已经内化的数据集,这类神经网络可以产生自己的数据。
通过训练,这样的神经网络也可能生成仿真度极高的图片。未来,这种技术可以使操纵视频也变得更简单。Lyrebird的合伙创始人Alexandre de Brébisson说,“某种意义上来讲,利用神经网络创造一个全新的视频也是有可能的。但是因为样例视频高维空间有很大的变动性,而且目前的模型依然不够完美,所以这将更具挑战性。”
考虑到这些不断涌现的新技术,分辨视频音频的真假将会变得越来越重要。
德国弗里德里希亚力山大大学的博士、实时换脸应用Face2Face幕后研究人员之一的Justus Thies,自称已经开始研究检测视频是否被改变的项目,他说,“看起来,过程非常值得期待”。
当然,人工智能还有正义的一面,AI能否击败假新闻?请关注科技行者(公众号:itechwalker)明日报道。
<来源 :MIT Technology Review;编译:科技行者>
好文章,需要你的鼓励
新加坡国立大学研究团队开发了SPIRAL框架,通过让AI与自己对弈零和游戏来提升推理能力。实验显示,仅训练AI玩简单扑克游戏就能让其数学推理能力提升8.6%,通用推理提升8.4%,且无需任何数学题目作为训练材料。研究发现游戏中的三种推理模式能成功转移到数学解题中,为AI训练提供了新思路。
同济大学团队开发的GIGA-ToF技术通过融合多帧图像的"图结构"信息,创新性地解决了3D相机噪声问题。该技术利用图像间的不变几何关系,结合深度学习和数学优化方法,在合成数据集上实现37.9%的精度提升,并在真实设备上展现出色泛化能力,为机器人、AR和自动驾驶等领域提供更可靠的3D视觉解决方案。
伊利诺伊大学研究团队通过对比实验发现,经过强化学习训练的视觉语言模型虽然表现出"顿悟时刻"现象,但这些自我纠错行为并不能实际提升推理准确率。研究揭示了AI模型存在"生成-验证差距",即生成答案的能力强于验证答案质量的能力,且模型在自我验证时无法有效利用视觉信息,为AI多模态推理发展提供了重要启示。
MIT等顶尖机构联合提出SparseLoRA技术,通过动态稀疏性实现大语言模型训练加速1.6倍,计算成本降低2.2倍。该方法使用SVD稀疏性估计器智能选择重要计算部分,在保持模型性能的同时显著提升训练效率,已在多个任务上验证有效性。