
未来,可能不只有新闻标题是假的。
机器学习技术十分强大,无论是编辑视频、音频,还是生成逼真的视频、音频,将越来越简单,甚至可以十分准确的模仿任何一个你想模仿的人。
总部位于俄罗斯的一家公司最近发布了一款智能手机应用软件,叫FaceApp。它可以自动修改人脸图片,比如变成笑脸、改变年龄、甚至转换性别。引起人们热议的是,这款应用还有“美颜”功能,比如抚平皱纹,提亮肤色。
今年4月,蒙特利尔大学的初创公司Lyrebird展示了一项可以模仿人声的技术。这项技术成功模仿了布莱克.奥巴马、唐纳德.特朗普和希拉里.克林顿的声音,且将模仿的音频片段展示给了大家。
人工智能算法无比强大,不仅可以分析数据,还可以创造数据,以上只是其中的两个例子。
Face2Face,实时人脸捕捉和再扮演
功能强大的图形硬件和软件以及新的视频采集技术不断推动着这股浪潮。去年,斯坦福大学的研究人员展示了一个可进行人脸转换的程序,叫Face2Face。这个程序利用视频脚本,可以将一个人的面部表情匹配到另一个人(由深度感知相机追踪)的面部,成为这个人的表情。合成后的视频效果非常逼真。
Lyrebird创始人承认,操纵人声和人脸的技术会引发一系列的争论。
一家公司网站上,有这样一段关于伦理的陈述:“许多国家,人声音的记录通常会被看作十分有力的证据,尤其在司法方面。但是改变人的声音的技术却可以轻易地改变这种证据,使得这种证据的有效性受到质疑,可能会带来十分危险的后果。”
Face2Face和Lyrebird公司都是利用深度卷积网络实现这些技术。这意味着,基于近几年的新兴技术,这些公司使人工智能算法不仅对事物进行分类,还可以创造一些仿真度极高的事物。
Face2Face在YouTube上引起热议
与如今许多人工智能项目一样,这也需要利用广大深邃的神经网络。通常,人们会向这样的神经网络输入大量的训练数据,不断调整以得到理想的输出值。比如,人们可能会训练这些神经网络识别人脸或物体图像,准确率极高。
但与此同时,基于这些已经内化的数据集,这类神经网络可以产生自己的数据。
通过训练,这样的神经网络也可能生成仿真度极高的图片。未来,这种技术可以使操纵视频也变得更简单。Lyrebird的合伙创始人Alexandre de Brébisson说,“某种意义上来讲,利用神经网络创造一个全新的视频也是有可能的。但是因为样例视频高维空间有很大的变动性,而且目前的模型依然不够完美,所以这将更具挑战性。”
考虑到这些不断涌现的新技术,分辨视频音频的真假将会变得越来越重要。
德国弗里德里希亚力山大大学的博士、实时换脸应用Face2Face幕后研究人员之一的Justus Thies,自称已经开始研究检测视频是否被改变的项目,他说,“看起来,过程非常值得期待”。
当然,人工智能还有正义的一面,AI能否击败假新闻?请关注科技行者(公众号:itechwalker)明日报道。
<来源 :MIT Technology Review;编译:科技行者>
好文章,需要你的鼓励
Adobe研究院与UCLA合作开发的Sparse-LaViDa技术通过创新的"稀疏表示"方法,成功将AI图像生成速度提升一倍。该技术巧妙地让AI只处理必要的图像区域,使用特殊"寄存器令牌"管理其余部分,在文本到图像生成、图像编辑和数学推理等任务中实现显著加速,同时完全保持了输出质量。
香港科技大学团队开发出A4-Agent智能系统,无需训练即可让AI理解物品的可操作性。该系统通过"想象-思考-定位"三步法模仿人类认知过程,在多个测试中超越了需要专门训练的传统方法。这项技术为智能机器人发展提供了新思路,使其能够像人类一样举一反三地处理未见过的新物品和任务。
韩国KAIST开发的Vector Prism系统通过多视角观察和统计推理,解决了AI无法理解SVG图形语义结构的难题。该系统能将用户的自然语言描述自动转换为精美的矢量动画,生成的动画文件比传统视频小54倍,在多项评估中超越顶级竞争对手,为数字创意产业带来重大突破。
华为诺亚方舟实验室提出VersatileFFN创新架构,通过模仿人类双重思维模式,设计了宽度和深度两条并行通道,在不增加参数的情况下显著提升大语言模型性能。该方法将单一神经网络分割为虚拟专家并支持循环计算,实现了参数重用和自适应计算分配,为解决AI模型内存成本高、部署难的问题提供了全新思路。