微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 香港理工大学重磅发布UniPixel:让AI既能"看懂"又能"画圈"的视频理解神器

香港理工大学重磅发布UniPixel:让AI既能"看懂"又能"画圈"的视频理解神器

2025-10-13 09:28
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-13 09:28 科技行者

这项由香港理工大学的刘烨、马宗阳等研究团队与腾讯PCG ARC实验室联合开展的突破性研究,于2025年发表在神经信息处理系统会议(NeurIPS 2025)上。这个名为UniPixel的系统首次实现了让AI既能理解视频内容,又能精确标注出相关物体位置的统一能力。感兴趣的读者可以通过arXiv:2509.18094v1查询完整论文。

想象一下,如果有一位超级聪明的助手,不仅能看懂你给它的任何图片或视频,还能用画笔准确圈出你想要的任何物体,甚至能回答关于这些物体的复杂问题。这就是UniPixel要解决的核心问题。传统的AI系统就像只会看病历的医生和只会做手术的医生一样,各司其职但无法协作。而UniPixel则是第一个既会"看病历"又会"做手术"的全能AI医生。

在这项研究之前,AI领域存在一个有趣的分工现象。有些AI系统擅长理解图片和视频的整体内容,可以告诉你"这是一只猫在沙发上睡觉",但如果你问它"那只猫在哪里?",它就无法准确指出猫的确切位置。另一些AI系统则专门负责在图片上画圈标注物体,但它们只是机械地执行标注任务,无法真正理解画面内容或回答相关问题。这就像让一个只会读书的人和一个只会画画的人合作完成一项需要既读又画的工作,效率和效果都会大打折扣。

研究团队发现了一个关键问题:现有的大型多模态模型虽然在整体理解方面表现出色,但在精细化的像素级理解和标注方面却存在明显短板。它们无法灵活处理用户通过点击、框选或涂抹等方式提供的视觉提示,也无法在回答问题时同时生成相应的标注信息。这种局限性严重制约了AI在需要精确定位和细粒度理解的实际应用中的表现。

一、创新的对象记忆银行:让AI拥有"过目不忘"的能力

UniPixel的核心创新在于引入了一个巧妙的"对象记忆银行"概念。这个记忆银行就像一个超级记忆力的图书管理员,能够将视频中出现的每个重要物体都编号登记,并记录它们在不同时间出现的位置和特征。当用户通过点击、框选或其他方式指向某个物体时,系统会立即将相关信息存储到记忆银行中,就像在物体上贴了一个智能标签。

这种记忆银行的工作方式可以用家庭相册来类比。当你整理家庭照片时,你不仅会看到每张照片的整体内容,还会在脑海中记住"这张照片里的小明站在左边"、"那张照片里的小红穿着红裙子在中间"。UniPixel的记忆银行就是这样一个智能相册管理系统,它不仅能识别画面中的人物和物体,还能精确记录它们的位置、外观和在时间轴上的变化。

记忆银行的运作分为两个关键步骤:记忆预填充和记忆注入。记忆预填充就像给每个重要角色建立档案,当系统检测到用户的指向性询问时,会自动分析相关物体并为它们分配唯一的标识符。记忆注入则像是在回答问题时随时调取相关档案,确保AI在推理和回答过程中始终"记得"用户关心的具体物体。

这种设计的巧妙之处在于,它将物体识别和语言理解完全融合在一起。传统方法往往将这两个任务分开处理,就像让两个不同的专家分别负责"看"和"说",然后试图让他们合作。而UniPixel的记忆银行则让同一个AI系统同时具备了精确的视觉定位能力和深度的语言理解能力,真正实现了"所见即所得"的智能交互。

二、多模态提示编码器:听懂用户的每一种"指示"

UniPixel的另一个突破在于它能够理解用户通过各种方式提供的视觉指示。就像一位优秀的导游能够理解游客用手指指向、用眼神示意或者用语言描述的各种指示方式一样,UniPixel配备了专门的多模态提示编码器,能够准确解读用户的点击、框选和涂抹等操作。

当用户在图片或视频上点击一个位置时,系统会将这个点击位置转换为空间坐标,并结合时间信息(如果是视频的话)生成一个独特的"地址编码"。这就像给每个房子分配门牌号一样,确保系统能够准确定位用户关注的区域。对于框选操作,系统会记录矩形框的四个角点坐标,相当于划定了一个明确的关注区域。而对于涂抹操作,系统则会处理更复杂的不规则形状,就像艺术家能够理解各种复杂的画笔笔触一样。

这种多样化的交互方式设计体现了人机交互的自然性考虑。在现实生活中,人们指向物体的方式是多样化的:有时是精确的点击,有时是大概的手势,有时是详细的描述。UniPixel通过支持多种输入方式,让用户可以根据具体情况和个人习惯选择最合适的交互方法,大大提升了系统的可用性和用户体验。

更重要的是,这个提示编码器不仅能处理空间信息,还能处理时间信息。在视频场景中,用户可能只在某一帧上进行标注,但希望系统能够自动跟踪该物体在整个视频中的变化。这就像你在电影的某一个镜头中指出主角的位置,然后期望AI能够在整部电影中持续关注这个角色的行动轨迹。UniPixel的时空编码能力让这种智能跟踪成为可能。

三、SAM 2.1掩码解码器:精准的"手术刀"定位技术

为了实现精确的物体分割和标注,UniPixel采用了当前最先进的SAM 2.1作为其掩码解码器。如果说前面的组件负责"理解"和"记忆",那么SAM 2.1就是负责"动手"的精密工具,它能够像外科医生的手术刀一样精确地在图像中"切出"用户指定的物体。

SAM 2.1的工作原理可以比作一位技艺精湛的裁缝。当你告诉裁缝"我要这块布料上的花朵图案"时,裁缝不仅要理解你的要求,还要能够精确地沿着花朵的边缘进行切割,确保既不多切一丝,也不少切一毫。SAM 2.1在数字世界中扮演的就是这样的角色,它能够根据系统的语言指令,在像素级别上精确地标识出目标物体的边界。

这个解码器的强大之处在于它的自适应能力。面对不同类型的物体—无论是规则的几何形状还是复杂的自然形态—SAM 2.1都能够生成准确的分割掩码。更令人印象深刻的是,在视频场景中,它能够自动处理物体的运动和变形,确保标注的一致性和准确性。就像一个经验丰富的摄像师能够始终将镜头对准移动中的主角一样,SAM 2.1能够在整个视频序列中持续准确地追踪和标注目标物体。

整个系统的协调工作就像一个训练有素的团队:提示编码器负责接收和理解用户指令,记忆银行负责存储和管理相关信息,而SAM 2.1则负责执行精确的标注操作。这三个组件的无缝配合,让UniPixel能够在理解用户意图的同时,提供精确的视觉反馈。

四、三阶段渐进训练:从"学步"到"跑步"的成长过程

UniPixel的训练过程就像培养一个全能型学生,需要分阶段逐步提升各项能力。研究团队设计了一个精巧的三阶段渐进训练策略,确保系统能够稳步掌握从基础到高级的各种技能。

第一阶段相当于"学步期",重点是让系统学会基础的视觉提示理解能力。这个阶段使用了大约85万个区域描述数据样本,主要训练系统理解点击和框选等简单操作的含义。就像教孩子认识"这是苹果"、"那是香蕉"一样,这个阶段让系统学会将用户的指向动作与具体物体建立对应关系。训练数据包含了大量的图像区域和对应的文字描述,让系统逐渐理解不同类型的视觉提示所代表的含义。

第二阶段是"学会走路"的阶段,主要任务是让语言模型和掩码解码器学会协作。这个阶段使用约8.7万个referring segmentation数据样本,重点训练系统将语言理解能力与精确的物体分割能力结合起来。这就像教会一个学生不仅要理解题目要求,还要能够准确地在答题纸上标出正确答案的位置。这个阶段的关键是建立语言指令与视觉输出之间的精确映射关系。

第三阶段是"学会跑步"的综合能力训练阶段,使用了约100万个多样化任务样本进行联合训练。这个阶段的训练数据涵盖了各种复杂场景:物体指代、区域理解、推理分割、视频问答等多个任务类型。就像一个学生要参加综合考试,需要运用所有学过的知识来解决复杂问题一样,这个阶段让UniPixel学会在实际应用中灵活运用各项能力。

训练过程中的一个重要创新是联合损失函数的设计。系统不仅要学会生成准确的语言回答,还要学会生成精确的视觉标注,这就像要求学生既要写出正确的文字答案,又要画出准确的图解。这种联合训练确保了系统在语言理解和视觉定位两个方面都能达到高水平的表现。

五、PixelQA任务:开创性的视频推理新标准

为了全面评估UniPixel的能力,研究团队创造性地提出了PixelQA这一全新的评测任务。这个任务的设计理念是将物体指代、精确分割和问答推理三种能力融合在一起,形成一个更贴近实际应用需求的综合性挑战。

PixelQA任务的工作流程可以用侦探破案来类比。当侦探接到一个案件时,他需要根据有限的线索(用户的点击或框选)找到关键证据(相关物体),然后对这些证据进行深入分析(跟踪和分割),最后基于分析结果回答关于案件的复杂问题(推理和问答)。整个过程需要观察力、分析力和推理力的完美结合。

在具体的PixelQA评测中,系统面对的是这样的场景:给定一段视频和一个问题,用户可能会在视频的某一帧上点击或框选特定区域,然后询问关于这些区域中物体的复杂问题。比如,用户可能在一段动物觅食的视频中点击某只动物,然后询问"这只动物的行为与其他动物有什么不同?原因是什么?"系统不仅要准确识别并跟踪被点击的动物,还要分析其行为模式,比较不同动物之间的差异,最后给出合理的解释。

这种评测方式的创新性在于它更接近人类的自然交互模式。在日常生活中,我们经常会一边指着某个物体,一边询问相关问题。PixelQA正是要测试AI系统是否具备了这种多模态交互和推理的综合能力。传统的评测任务往往将不同能力分开测试,而PixelQA则要求系统在一个统一的框架内同时展现多种高级能力。

实验结果显示,UniPixel在PixelQA任务上建立了强有力的基准表现,而现有的其他AI系统甚至无法完成这类综合性任务。这进一步证明了UniPixel在多模态理解和推理方面的独特优势。

六、广泛的应用场景:从实验室到现实世界的无缝对接

UniPixel的设计理念使其能够轻松应对多种实际应用场景,展现出强大的实用价值。在教育领域,UniPixel可以成为智能教学助手,学生可以通过点击教材中的图片或视频来获得详细解释。比如在生物课上,学生点击细胞图像中的某个结构,系统不仅能准确标出该结构的位置,还能详细解释其功能和与其他结构的关系。

在医疗影像分析方面,UniPixel的精确定位和智能分析能力具有巨大潜力。医生可以在X光片或CT扫描图像上点击感兴趣的区域,系统能够自动分割出相关组织或病变部位,并提供初步的分析建议。这种交互方式大大简化了医疗影像分析的工作流程,提高了诊断效率。

在内容创作和编辑领域,UniPixel可以大幅简化视频编辑工作。内容创作者可以通过简单的点击操作来标识视频中需要处理的物体,系统会自动完成精确的物体分割和跟踪,为后续的特效制作或内容编辑奠定基础。这种智能化的处理方式让原本需要专业技能的视频编辑变得更加普及和易用。

在安防监控方面,UniPixel能够协助安保人员更高效地分析监控视频。当发现可疑情况时,安保人员只需点击相关区域,系统就能自动跟踪可疑人员或物体的移动轨迹,并分析其行为模式,为安全决策提供有力支持。

电商和零售行业也能从UniPixel中受益。消费者可以在产品展示视频中点击感兴趣的商品,系统能够自动识别和标注该商品,并提供详细的产品信息和购买建议。这种交互方式让在线购物体验更加直观和便捷。

七、实验验证:多项指标创下新纪录

研究团队在十个权威数据集上进行了全面的性能评测,结果显示UniPixel在多个任务上都达到了领先水平。在最具挑战性的ReVOS推理视频分割任务上,UniPixel-3B模型取得了62.1的J&F分数,显著超越了参数量更大的竞争对手。这就像一个年轻的运动员在各项比赛中都战胜了经验更丰富的老将,充分证明了新方法的优越性。

在视频物体分割任务上,UniPixel同样表现出色。在MeViS数据集上,3B模型达到了53.1的J&F分数,比同等规模的VideoGLaMM模型提升了17%。在更困难的长视频理解任务中,UniPixel展现出了强大的时序建模能力,能够在复杂的视频场景中保持准确的物体跟踪和理解。

特别值得关注的是,UniPixel在需要深度推理的任务上表现尤为突出。在VideoRefer-BenchQ问答任务中,系统不仅要理解用户的视觉指示,还要基于指示内容回答复杂问题。UniPixel-7B模型在这个任务上取得了76.3%的准确率,超越了包括GPT-4o在内的多个强大基准模型。

实验还验证了多任务联合训练的有效性。通过同时学习物体指代和精确分割任务,UniPixel在两个方面都获得了性能提升,形成了良性循环。这种相互促进的效果证明了统一框架设计的正确性,也为未来的多模态AI系统设计提供了有价值的参考。

消融实验进一步证实了各个组件的重要性。对象记忆银行的引入带来了显著的性能提升,而多阶段训练策略的每个阶段都对最终性能有重要贡献。这些详细的分析为理解系统的工作机制和进一步优化提供了重要依据。

八、技术突破的深远意义

UniPixel的成功不仅仅是一个技术产品的突破,更代表了AI发展的重要方向转变。传统的AI系统往往专注于单一任务的优化,而UniPixel证明了多模态能力统一的可行性和优越性。这种统一不是简单的功能堆叠,而是在系统层面实现了不同能力的深度融合和相互促进。

从技术架构角度看,UniPixel的对象记忆银行设计为未来的多模态AI系统提供了新的思路。这种将短期交互信息转化为长期记忆的机制,有望在更广泛的AI应用中发挥作用。不同于传统的端到端学习,这种显式的记忆机制提供了更好的可解释性和可控性。

在人机交互方面,UniPixel展示了更自然、更直观的交互模式的可能性。用户不再需要学习复杂的命令或界面操作,而是可以通过最自然的指向动作与AI系统进行交流。这种交互方式的普及将大大降低AI技术的使用门槛,让更多普通用户能够享受到AI技术带来的便利。

从产业应用的角度看,UniPixel的成功为多个行业的数字化转型提供了新的技术支撑。精确的物体定位和智能推理能力的结合,为自动化和智能化应用开辟了新的可能性。特别是在需要精细操作和复杂决策的领域,这种技术有望带来革命性的改变。

研究团队还特别关注了系统的可扩展性和实用性。通过提供3B和7B两个不同规模的模型版本,UniPixel能够适应不同的计算资源和应用需求。这种灵活性确保了技术成果能够更好地转化为实际应用。

说到底,UniPixel代表了AI技术发展的一个重要里程碑。它不仅解决了多模态理解中的关键技术难题,更重要的是展示了AI系统向更智能、更自然、更实用方向发展的可能性。就像智能手机将多种功能集成在一个设备中一样,UniPixel将多种AI能力统一在一个系统中,为用户提供了更加便捷和强大的智能服务。

这项研究的开源数据集和代码的发布,也为学术界和产业界的进一步研究提供了宝贵资源。相信在不久的将来,我们会看到更多基于这些成果的创新应用,让AI技术真正融入到我们的日常生活中,成为我们工作和学习的得力助手。归根结底,UniPixel不只是一个技术演示,而是向着更智能、更人性化的AI未来迈出的坚实一步。

Q&A

Q1:UniPixel是什么?它和其他AI视频理解系统有什么不同?

A:UniPixel是由香港理工大学和腾讯联合开发的AI系统,它最大的特点是既能理解视频内容,又能精确标出物体位置。传统AI系统要么只会"看懂"视频,要么只会"画圈"标注,而UniPixel首次将这两种能力完美融合,用户可以通过点击、框选等方式与系统自然交互,获得智能分析结果。

Q2:对象记忆银行是如何工作的?为什么这个设计很重要?

A:对象记忆银行就像一个智能档案管理系统,会给视频中的每个重要物体建立档案,记录它们的位置、外观和变化轨迹。当用户点击某个物体时,系统会立即将相关信息存储起来,后续回答问题时随时调取。这种设计让AI能够"记住"用户关心的物体,实现连贯的智能对话。

Q3:PixelQA任务有什么特殊之处?普通人能用到吗?

A:PixelQA是研究团队创造的新型测试任务,要求AI同时具备物体识别、精确标注和问答推理三种能力。就像让AI当侦探,根据线索找到目标,然后回答复杂问题。这种能力在教育、医疗、内容创作等领域都很有用,比如学生可以点击教材图片获得详细解释,医生可以点击影像获得分析建议。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-