微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

谷歌开发出一项适用手机的视频分割技术视频背景随意换

谷歌视频分割人工智能卷积神经网络机器学习

谷歌开发出一项适用手机的视频分割技术视频背景随意换

作者：科技行者

2018-03-05 15:07

分享至：

谷歌正在利用人工智能技术设计出一种适用于手机平台的视频背景实时性替代方案，目前已经在YouTube当中进行测试。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2018-03-05 15:07 • 科技行者

视频分割是一类被广泛使用的技术，它确保了视频场景中的前景与背景区分开来，并将二者视为两个不同的图层。通过修改或替换背景，表演者将可以表达特定的情绪，任意转换位置，或者增强信息的表现力。然而，从传统角度讲，这种操作属于一类极为耗时的手动过程（例如对每一帧画面进行调整），或者需要在专门提供绿幕的工作室环境下（利用一种所谓色度键控技术）实现实时背景转换。

现在，为了让用户能够在取景器中直接享受这种效果，谷歌正在利用人工智能技术设计出一种适用于手机平台的实时性替代方案，目前已经在YouTube Stories应用当中进行测试。

具体而言，谷歌利用机器学习通过卷积神经网络以解决语义分割任务。谷歌认为，一款适用于手机的网络架构与训练程序，且其重点关注以下要求及约束条件：

· 移动解决方案应当具备轻量化特性，其运行速度至少要比现有的最为先进的图像分割模型快10到30倍。对于实时推理，这种模型需要提供每秒30帧的处理速度。

· 视频模型应该利用时间冗余特性（即相邻帧的内容往往较为相似）并体现出时间一致性（相邻结果应当彼此相似）。

· 高质量的分割结果源自高质量的注释。

谷歌这项视频分割技术与大多数基于人工智能的成像程序一样——人们首先以手动方式在超过10000张图像进行注释。正因为这些图像内涵丰富的前景与背景信息，因此相关注释包括头发、眼镜、颈部、皮肤、嘴唇等前景元素的精确像素位置，以及一套能够以98%的精度重现人类注释交叉验证结果（简称IOU）质量的常规性背景标签。

利用这套数据集，谷歌研究团队得以训练程序并指导其将背景与前景分离开来。（Adobe公司在Photoshop当中也曾提供一款类似的背景清除工具，但仅适用于静止图像）

图：来自谷歌数据集的示例图像，其中标有九项标签——前景元素覆盖在该图像之上。

谷歌的特定分割任务在于计算出一套二进制遮罩，从而在视频的每个输入帧（三通道，RGB）内将前景与背景区分开来。在这项任务当中，实现跨帧计算遮罩的时间一致性是其关键所在。对于目前的移动手机而言，利用LSTM或者GRU来实现实时应用显然在计算资源层面不具备可行性。因此，我们首先将前一帧的计算遮罩作为先验，并将其作为第四条通道接入当前RGB输入帧，从而实现时间一致性。具体如下图所示：

图：原始帧（左）在其三色通道中被区分出来，且与之前的遮罩（中）对接。其将作为神经网络的输入内容以预测当前帧的遮罩结果（右）。

然而，在视频分割当中，需要实现帧与帧之间的时间连续性，同时也要考虑到可能存在的时间不连续性——例如突然出现在摄像头当中的人物对象，而且，以上数据集是针对单幅图像训练而成的，那么谷歌如何利用单一图像替换每一帧视频的背景呢？

事实上，一旦该软件在第一幅图像上遮盖了背景，程序本身就会利用相同的遮罩机制来预测下一帧背景。当下一帧与前一帧仅存在些许差异时（例如摄像头发生了轻微移动），程序将对遮罩作出同样的微调。而如果下一帧与前一帧存在巨大区别（例如有新的人物对象加入视频），那么该软件将彻底丢弃原有遮罩预测结论，并创建新的遮罩（mask）。

具体操作而言，谷歌利用多种方式转换对图像内基本事实的注释，并将其用作前一帧的遮罩基准：

· 清空前一套遮罩——训练网络以正确方式处理第一帧与场景中的新对象。这就模拟出了新的人物对象突然出现在摄像头画面中的情况。

· 仿射转换后的实际背景遮罩——利用微调转换以训练网络传播并调整至前一帧的遮罩。利用重大转换以训练网络理解不适用的遮罩，并弃用此类遮罩。

· 转换图像——实现了对原始图像进行顺滑的平移转换，从而模拟摄像头的快速移动与旋转。

尽管这种分离背景的能力确实令人印象深刻，但谷歌公司还希望更进一步，包括使该程序能够在智能手机之上更为有限的硬件条件下运行。这意味着其必须放弃相对强大的台式计算机性能资源。在视频分割功能背后，程序员们会对程序作出进一步调整，从而提高分割与采样等操作的速度，同时减少通道数量。在此之后，该团队通过添加图层为前景与背景之间创建出更为平滑的边缘，最终提升处理质量。

谷歌公司指出，这些调整使得该应用程序能够以实时方式完成背景替换——在iPhone 7上，该应用的处理速度超过每秒100帧，而谷歌Pixel 2上的处理速度亦超过每秒40帧。谷歌方面表示，该训练集的准确率达到94.8%。不过谷歌公司目前发布的所有示例皆为单人视频，且其并没有提到该功能是否适用于多对象视频素材。

在该项功能的beta测试当中，YouTube主播们可通过选择不同的效果（夜景、黑白乃至空白背景）来更改视频中的显示背景。这一测试版本中的部分特效甚至增加了光照效果，例如可在角落处添加镜头光晕。

这款视频分割工具已经正式开放，但目前仅作为beta测试方案，因此相关功能仍无法广泛使用。谷歌公司表示，在整理出该项测试的相关结果之后，他们计划进一步扩展这种分割效果，并将该功能添加到其它程序当中——包括提供增强现实选项。

【谷歌“视频分割”文章Mobile Real-time Video Segmentation获取方式：关注科技行者公众号（itechwalker），打开对话界面，回复关键字“视频分割”，即可获得下载地址】

来源：digitaltrends.com

编译整理：科技行者

谷歌视频分割人工智能卷积神经网络机器学习

分享至

0赞

好文章，需要你的鼓励

推荐文章

人工智能
数据合成
大语言模型

2025-07-16 10:01

北航大学团队推出Easy Dataset：让普通人也能制作AI训练数据的神奇工具

北航团队推出Easy Dataset框架，通过直观的图形界面和角色驱动的生成方法，让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能，在金融领域实验中显著提升了AI模型的专业表现，同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
人工智能
自然语言处理
网络安全

2025-07-16 10:01

网络安全AI助手：让电脑漏洞危险等级一秒识别的RoBERTa智能系统

卢森堡计算机事件响应中心开发的VLAI系统，基于RoBERTa模型，能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练，准确率达82.8%，已集成到实际安全服务中。研究采用开源方式，为网络安全专家提供快速漏洞风险评估工具，有效解决了官方评分发布前的安全决策难题。
人工智能
推理模型评估
xVerify系统

2025-07-16 10:00

人工智能评判官：xVerify如何解决复杂推理模型的评估难题

中国电信研究院等机构联合开发的xVerify系统，专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出，在准确率和效率方面均超越现有方法，为AI评估领域提供了重要突破。
多模态推理
视觉语言模型
深度学习

2025-07-16 10:00

只需输入音频就能生成说话人视频？昆仑集团推出的Skywork R1V让AI同时看懂图片和推理数学

昆仑公司Skywork AI团队开发的Skywork R1V模型，成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能，在MMMU测试中达到69.0分，在MathVista获得67.5分，同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术，成功实现了视觉理解与逻辑推理的完美结合，并将所有代码和权重完全开源。