微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 Google DeepMind重磅发现:视频AI不仅会"看",还会"推理"

Google DeepMind重磅发现:视频AI不仅会"看",还会"推理"

2025-10-15 01:09
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-15 01:09 科技行者

这项由Google DeepMind的Thaddäus Wiedemer、Yuxuan Li、Paul Vicol等多位研究者共同完成的研究发表于2025年9月,论文编号为arXiv:2509.20328v2。有兴趣深入了解的读者可以通过该编号查询完整论文。这项研究首次系统性地证明了视频生成模型具备了令人惊讶的零样本学习和推理能力。

想象一下,如果有一天你的电脑不仅能看懂图片,还能像人类一样思考和推理,那会是什么样子?Google DeepMind的研究团队最近就发现了这样一个令人兴奋的现象。他们发现,原本只是用来生成视频的AI模型,竟然在没有经过专门训练的情况下,展现出了惊人的视觉理解和推理能力。

这就像是你买了一台本来只用来播放音乐的设备,结果发现它还能自动识别歌曲类型、分析音乐情感,甚至能根据你的心情推荐合适的歌单。研究团队使用的是Google的Veo 3视频生成模型,这个模型原本的"工作"是根据文字描述生成相应的视频。但是当研究者们开始用它做各种视觉任务测试时,他们惊讶地发现,这个模型竟然能够完成从图像分割、边缘检测到解决迷宫、理解物理定律等各种复杂任务。

这个发现的重要性在于,它预示着计算机视觉领域可能即将迎来一个重大转折点。就像几年前大语言模型彻底改变了自然语言处理领域一样,视频模型也可能成为计算机视觉的"万能工具"。研究团队通过对18,384个生成视频的分析,涵盖了62个定性任务和7个定量任务,系统性地验证了这一发现。

一、从"看图说话"到"深度理解":视频AI的感知能力

传统上,计算机要完成不同的视觉任务需要不同的专门工具,就像修理工需要螺丝刀修螺丝、扳手拧螺母一样。但是Veo 3就像一把瑞士军刀,一个工具就能完成多种任务。

在最基础的感知层面,Veo 3展现出了令人印象深刻的能力。比如说,当你给它一张模糊的照片时,它能够自动将图片变清晰,这就像是给近视眼戴上了眼镜。更神奇的是,它还能从嘈杂的图片中提取出清晰的信息,就像在嘈杂的餐厅里准确听出朋友的声音一样。

研究团队发现,Veo 3能够准确地检测图像中的边缘轮廓。在标准的边缘检测测试中,虽然它的表现还没有达到专门设计的边缘检测算法的水平,但考虑到它从未接受过这方面的专门训练,这个结果已经相当令人惊讶了。更有趣的是,Veo 3生成的边缘图往往比标准答案更加详细,它会勾勒出树叶的纹理和轮胎的花纹,这些细节在标准答案中通常被忽略了。

在图像分割任务中,Veo 3需要将图片中的不同物体用不同颜色标记出来,就像给拼图的每一块涂上不同的颜色。研究结果显示,Veo 3在这项任务上的表现可以与专门的图像编辑工具相媲美。特别有趣的是,研究者们发现提示词的选择对结果有很大影响,使用绿色背景比白色背景的效果更好,这可能是因为绿幕在视频制作中的广泛应用。

除了这些基础能力,Veo 3还能处理一些更加复杂的视觉任务。比如它能够理解著名的"斑点狗错觉"图片,这是一张看起来像是随机黑白斑点的图片,但仔细观察会发现其中隐藏着一只狗的轮廓。这种能力表明Veo 3不仅能看到表面的像素,还能理解图像的深层含义。

二、物理世界的"直觉":AI开始理解现实规律

更让人惊讶的是,Veo 3似乎对物理世界有着某种"直觉"。这就像是一个从未接触过物理课本的学生,却能凭直觉判断哪个球会先落地、哪个物体会浮在水面上。

在浮力测试中,研究者给Veo 3展示了一只手拿着不同物体的图片,然后要求它预测松手后会发生什么。结果显示,当手中拿着石头时,Veo 3正确预测石头会沉入水中的成功率达到83%,而对于瓶盖这样的轻质物体,它预测其会浮起来的准确率也有58%。这种对浮力的理解并不是通过死记硬背物理公式获得的,而是通过观察大量视频数据中的物理现象自然习得的。

Veo 3对重力和空气阻力也有一定的理解。当要求它模拟物体在地球和月球上的下落过程时,它能够显示出不同的下落速度,体现了对不同重力环境的理解。虽然准确率只有50%,但考虑到这是零样本学习的结果,这个表现已经相当不错了。

在材料属性方面,Veo 3展现出了对光学现象的理解。当一个玻璃球在房间中滚动时,它能够正确显示透过玻璃球看到的倒立图像,这需要对光的折射原理有基本的理解。同样,当镜面球体滚动时,它也能正确显示反射图像,而且知道反射图像不会倒立。

颜色混合是另一个有趣的测试领域。Veo 3能够区分加法混色(如灯光混合)和减法混色(如颜料混合)的不同规律。当红色和绿色的聚光灯照射在同一区域时,它知道会产生黄色光,这遵循的是加法混色原理。而当红色和绿色颜料混合时,它知道会产生棕色,这符合减法混色的规律。

三、创造与改造:AI的图像编辑天赋

除了理解现有的图像,Veo 3还展现出了强大的图像编辑和创造能力。这就像是拥有了一个永远不知疲倦、技艺精湛的数字艺术家。

在背景移除任务中,Veo 3能够准确识别图像中的主体对象,并将背景替换为纯色。这个过程就像是用魔法橡皮擦,能够精确地擦除不需要的部分,同时保持主体的完整性。研究显示,这项任务的成功率达到了83%,这对于一个没有接受过专门训练的模型来说是相当不错的表现。

更令人印象深刻的是Veo 3的风格转换能力。它能够将一张普通的照片转换成不同的艺术风格,就像是请不同流派的画家重新绘制同一个场景。这种能力不仅仅是简单的滤镜效果,而是对图像内容的深度理解和重新诠释。

在图像修复方面,Veo 3展现出了"无中生有"的能力。当给它一张有缺失部分的图片时,它能够根据周围的内容合理地填补空白区域。这就像是一个考古学家,能够根据发现的碎片推测出完整文物的样子。

三维空间理解是Veo 3的另一个强项。它能够生成同一物体的不同视角,就像是拥有了一个虚拟的摄影棚,可以从任意角度拍摄物体。这种能力对于产品展示、建筑设计等领域具有重要的应用价值。

在物体操作模拟方面,Veo 3能够展示复杂的手部动作,比如如何打开罐子、如何投掷物体等。虽然这只是视觉模拟而不是真实的机器人操作,但它为机器人学习提供了新的思路。通过观察这些模拟,机器人可能能够更好地理解如何执行类似的任务。

四、逻辑推理的萌芽:从"看"到"想"

最令人兴奋的发现是,Veo 3开始展现出视觉推理的能力。这就像是从简单的"看图说话"进化到了"看图思考"。

在迷宫求解任务中,Veo 3需要找到从起点到终点的正确路径。这不仅需要理解迷宫的结构,还需要进行路径规划。研究结果显示,在5×5的简单迷宫中,Veo 3的成功率可以达到78%,这比它的前一代版本Veo 2的14%有了显著提升。更有趣的是,Veo 3在不规则形状的迷宫中也能找到正确路径,这表明它的推理能力不仅限于规则的网格结构。

视觉对称性测试是另一个有趣的推理任务。给定一个图案的一半,Veo 3需要补全另一半使整个图案对称。这就像是完成一个视觉拼图,需要理解对称的概念并将其应用到具体的图形中。研究显示,Veo 3在这个任务上的表现远超其前代版本和其他图像编辑工具。

在视觉类比推理中,Veo 3需要理解"A之于B,正如C之于?"这样的关系。比如,如果给出一个红色圆形变成蓝色圆形的例子,然后给出一个红色方形,它需要推断出答案应该是蓝色方形。虽然Veo 3在颜色和大小变换方面表现不错,但在旋转和翻转等空间变换方面还有待改进。

数字排序是一个更加抽象的推理任务。Veo 3需要将随机排列的数字按照大小顺序重新排列。这个任务需要同时理解数字的含义和大小关系,然后在视觉空间中重新组织这些元素。虽然成功率还不是很高,但能够完成这样的任务本身就说明了模型具备了一定的抽象推理能力。

研究团队将这种逐帧推理的过程称为"帧链思维"(Chain-of-Frames),这与大语言模型中的"思维链"(Chain-of-Thought)相对应。就像语言模型通过逐步推理来解决复杂问题一样,视频模型通过逐帧生成来完成复杂的视觉推理任务。

五、从实验室到现实:技术进步的轨迹

研究团队通过对比Veo 2和Veo 3的性能,发现了一个令人鼓舞的趋势:视频模型的能力正在快速提升。这两个版本发布时间相隔仅约半年,但在各项任务上的性能差异却相当显著。

在边缘检测任务中,Veo 3的最佳表现达到了0.77的OIS分数,而Veo 2只有0.57。在图像分割任务中,Veo 3达到了0.74的mIoU分数,Veo 2则为0.52。这种快速的性能提升表明,视频模型正在沿着一条陡峭的学习曲线快速发展。

特别值得注意的是,研究团队发现增加尝试次数能够显著提高成功率。这就像是给学生更多的考试机会,总能找到一次发挥最好的。在大多数任务中,尝试10次的最佳结果都明显好于只尝试1次的结果,这为实际应用提供了一个重要的策略:通过多次生成并选择最佳结果来提高任务完成质量。

然而,研究也发现了一些有趣的现象。Veo 3有一个"不安分"的特性,即使任务已经完成,它也倾向于继续生成动画效果。这就像是一个停不下来的表演者,即使观众已经鼓掌,还要继续加演几个节目。这种特性有时会影响最终帧的质量,因为模型可能会在任务完成后继续修改结果。

成本是另一个需要考虑的因素。目前,生成视频的成本比运行专门的视觉任务模型要高得多。但是,正如研究团队指出的,这种情况在历史上并不罕见。早期的大语言模型也曾被认为成本过高而难以实用,但随着技术的发展和规模的扩大,成本迅速下降。据估算,大语言模型的推理成本每年下降9到900倍,视频模型很可能也会遵循类似的趋势。

六、未来展望:通用视觉智能的曙光

这项研究的意义远不止于展示一个模型的能力,它更像是为我们打开了一扇通往未来的窗户。正如几年前大语言模型的出现彻底改变了自然语言处理领域一样,视频模型可能即将引发计算机视觉领域的类似革命。

研究团队认为,我们正处于计算机视觉的"GPT-3时刻"的边缘。GPT-3的发布标志着自然语言处理从任务特定模型向通用模型的转变,而Veo 3的表现暗示着计算机视觉可能也即将经历类似的转变。这种转变的核心在于,单一的模型将能够处理各种不同的视觉任务,而不需要为每个任务单独训练专门的模型。

当然,目前的视频模型还远未达到完美。在许多任务上,专门设计的模型仍然表现更好。但是,正如研究团队指出的,早期的大语言模型在许多任务上的表现也不如专门的模型,这并没有阻止它们最终成为主流。关键在于通用性带来的便利性和成本效益往往能够弥补性能上的不足。

研究还揭示了一个重要的技术细节:提示工程的重要性。就像与人交流需要选择合适的词语和表达方式一样,与视频模型交流也需要精心设计的提示。研究团队发现,不同的提示方式可能导致40到64个百分点的性能差异,这强调了人机交互设计在未来AI系统中的重要地位。

从更广阔的视角来看,这项研究为我们展示了一种新的AI发展模式。传统上,我们为不同的任务开发不同的AI系统,就像为不同的工作雇佣不同的专家。但是视频模型展示了另一种可能性:通过大规模的数据训练,单一的模型可以获得多种能力,就像培养一个多才多艺的通才。

这种发展模式的优势是显而易见的。对于用户来说,他们不需要学习使用多种不同的工具,一个界面就能完成各种任务。对于开发者来说,他们可以专注于改进一个核心模型,而不是维护多个专门系统。对于整个行业来说,这种模式可能会大大降低AI技术的使用门槛,让更多的人和组织能够受益于AI的能力。

说到底,这项研究最重要的贡献可能不是证明了Veo 3能做什么,而是为我们展示了AI发展的一个新方向。它告诉我们,通过适当的训练和足够的数据,AI系统可能会自然而然地获得我们从未明确教授给它们的能力。这种"涌现"现象不仅在技术上令人兴奋,也为我们理解智能本身提供了新的视角。

归根结底,虽然我们还不能确定视频模型是否真的会成为计算机视觉的未来,但这项研究无疑为这种可能性提供了强有力的证据。就像当年第一次看到计算机下棋获胜时的震撼一样,看到AI能够在没有专门训练的情况下解决各种视觉问题,我们不禁要问:AI的边界究竟在哪里?而这个问题的答案,可能会在不久的将来逐渐揭晓。对于那些想要深入了解这项研究技术细节的读者,可以通过论文编号arXiv:2509.20328v2查询完整的研究报告。

Q&A

Q1:Veo 3是什么?它和普通的视频生成AI有什么不同?
A:Veo 3是Google DeepMind开发的视频生成模型,最初设计用于根据文字描述生成视频。但研究发现它具有惊人的零样本学习能力,能够在没有专门训练的情况下完成图像分割、边缘检测、迷宫求解等各种视觉任务,这使它不仅仅是一个视频生成工具,更像是一个通用的视觉智能系统。

Q2:视频AI模型会完全取代现有的专门视觉工具吗?
A:目前不会完全取代。在许多具体任务上,专门设计的模型仍然表现更好。但就像大语言模型逐渐取代了许多专门的自然语言处理工具一样,视频模型的通用性和便利性可能会让它们在未来成为主流选择,特别是当成本下降和性能提升后。

Q3:普通用户如何体验这种视频AI的能力?使用成本高吗?
A:目前可以通过Google Cloud的Vertex AI API使用Veo模型,但成本相对较高。不过研究团队指出,AI推理成本历史上都会快速下降,大语言模型的推理成本每年下降9到900倍,视频模型很可能也会遵循类似趋势,未来普通用户使用这类技术的门槛会大大降低。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-