微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 PointArena:华盛顿大学和艾伦人工智能研究所联合推出的多模态指向能力评测平台

PointArena:华盛顿大学和艾伦人工智能研究所联合推出的多模态指向能力评测平台

2025-05-20 17:44
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-20 17:44 科技行者

在人类日常交流中,指着某物说"看那个"是再自然不过的行为了。当妈妈教孩子认识世界时,她会指着苹果说"这是苹果";当朋友帮你找东西时,他会指着角落说"在那儿"。这种指向性交流是如此基础,以至于孩子们在学会说话前就已经掌握了指向的能力。

长程(Long Cheng)、段佳飞(Jiafei Duan)等来自华盛顿大学和艾伦人工智能研究所的研究团队在2025年5月发布的最新研究《PointArena: Probing Multimodal Grounding Through Language-Guided Pointing》(指向竞技场:通过语言引导的指向探索多模态基础)中,正是聚焦于这一基础却极其重要的人机交互能力。读者可通过论文预印本网站arXiv(arXiv:2505.09990v2)或项目官网(https://pointarena.github.io)了解更多细节。

想象一下,如果你的智能助手不仅能理解"帮我找到桌上的红色杯子"这样的指令,还能精确地指出杯子的位置,甚至帮助机器人将其拿起,这将为各种应用场景带来革命性变化。从辅助技术(帮助视障人士找到物体)到机器人操作(精确抓取特定物品),从教育辅助(指出科学图表中的特定部分)到增强现实交互,指向能力都是连接语言理解和实际行动的关键桥梁。

近年来,多模态大型语言模型(MLLMs)取得了长足进步,能够同时处理文本和图像,但在精确指向能力的测评上,我们仍缺乏全面且系统的评测平台。现有的评测数据集如RefCOCO系列主要关注物体定位,无法评估更广泛、更复杂的指向场景。

为填补这一空白,研究团队开发了PointArena评测平台,它包含三个相互补充的组件:Point-Bench(指向测试台)、Point-Battle(指向竞技场)和Point-Act(指向行动)。这三个部分分别从静态基准测试、人类偏好评价和实际机器人操作三个维度全方位评估模型的指向能力。

在Point-Bench中,研究团队精心构建了982个图像-问题对,涵盖空间关系理解、功能部件识别、计数、相对位置指向和推理等五大类指向任务。在Point-Battle平台上,用户可以上传图片并提供指令,让两个匿名模型进行指向预测,然后投票选择表现更好的一方。目前该平台已收集来自100多名全球参与者的4,500多次投票。最后,Point-Act将指向转化为实际的机器人操作,让用户直观感受模型指向精度对实际任务的影响。

研究团队评测了包括Molmo-72B、GPT-4o、Gemini-2.5-Pro等在内的多个开源和闭源模型。结果显示,Molmo-72B在Point-Bench上表现最佳,而专门针对指向任务进行训练的模型普遍优于未经指向特定训练的模型。有趣的是,研究发现,通过语言推理(如思维链方法)并不能提高模型的视觉定位准确性,反而会降低性能。

更令人欣喜的是,研究团队发现这三种评测方法之间存在高度相关性,这意味着模型在静态数据集上的优异表现很可能转化为人类更喜欢的指向行为和更高的实际任务成功率。这不仅验证了PointArena评测框架的有效性,也表明精确的指向能力对于多模态模型连接抽象推理和具体实际行动至关重要。

接下来,让我们更深入地了解这个创新的评测平台及其发现的重要洞见。

一、研究背景:为什么指向能力如此重要?

想象一下,当你在杂乱的厨房里寻找某种调料时,你的朋友不是抽象地描述"在橱柜的第二层靠右的地方",而是直接指着说"就在那儿"。这种简单的指向动作传递了精确的空间信息,极大地简化了沟通过程。在人机交互中,这种能力同样至关重要。

指向是人类最早、最普遍的非语言交流方式之一。心理学研究表明,婴儿在学会说话之前就已经掌握了指向作为一种前语言交流形式。正如研究者在论文中指出的,精确的空间定位——指向——能够支持广泛的实际应用,从机器人技术到辅助技术,再到人机交互和视觉-语言界面。

例如,在机器人领域,具备指向能力的模型可以理解"拿起碗旁边的红杯子"这样的语言命令,并将其转化为精确的空间动作,实现在杂乱环境中的精细物体操作。在辅助技术方面,系统可以帮助视障用户回答"这个门的把手在哪里?"或"哪一个是大蒜?"等空间查询。在教育或创意工具中,指向功能允许进行交互式视觉辅导,如识别科学图表中的组件或引导学习者理解一幅画作。即使在日常虚拟助手或搜索引擎中,通过指向引用特定图像区域的能力也能使多模态交互更加直观和表达丰富。

近年来,多模态大型语言模型在融入更动态、更具空间表达力的交互形式方面取得了显著进展。例如,分割任意物体模型(SAM)支持从点或框等稀疏视觉提示进行分割,展示了精细空间控制的潜力。谷歌的Gemini模型推动了长上下文视觉推理的边界,整合了多种模态的扩展序列。另一方面,新的数据集也开始支持显式空间引用。Molmo的PixMo数据集将2D指向作为图像和指令之间多模态对齐的一种形式,而RoboPoint则专注于通过将指令链接到机器人上下文中与交互相关的关键点来预测空间可供性。

尽管这些进步令人振奋,但仍然缺乏一个整体性的评估平台来推动语言引导指向的进展。虽然已经存在用于引用表达式的数据集(如RefCOCO、RefCOCO+和RefCOCOg),但它们仅关注指向任务的一个子集:物体定位。这些数据集缺乏用户期望从现代交互模型中获得的模糊性和上下文变化性,限制了它们在研究实用或交互应用中的效用。

二、PointArena:一个全面的指向能力评测平台

为了系统地评估语言引导下的指向能力,研究团队开发了PointArena评测平台。这个平台将指向任务分为三个评估阶段,每个阶段都提供了不同角度的洞察。

### 任务定义:将语言转化为精确坐标

在深入了解平台各部分之前,我们先来理解PointArena如何定义指向任务。指向被形式化为一个语言条件下的精细定位任务。输入包括一张RGB图像和一个自然语言指令提示,多模态大型语言模型需要预测一组图像空间坐标点。

具体来说,如果我们有一张尺寸为H×W的图像和一个包含T个词的语言指令,模型需要输出K个坐标点,每个点都在图像边界内。模型预测的成功与否取决于这些点是否落在了正确的目标区域内——这些区域用二进制掩码表示。

预测被视为成功需要满足两个条件:首先,预测点的数量需要与目标区域的数量匹配;其次,每个目标区域至少被一个预测点覆盖。这种形式化使得评估可以完全自动化,无需在测试时依赖人类标注者。

### Point-Bench:静态基准测试

Point-Bench是目前最大的语言引导指向评测基准,提供了982个文本-图像对,每对都有像素级的目标掩码。这些数据来自2025年4月20日之后发布的公共资源,确保了数据的新颖性。数据集均匀分为五个任务驱动类别:空间关系(Spatial)、功能部件(Affordance)、计数(Counting)、相对位置(Steerable)和推理(Reasoning)。

这些类别是如何设计的呢?想象一下生活中的各种场景:

1. 空间关系(Spatial):这类场景选择了具有丰富空间关系或重复物体的图像。比如,街景中有多棵树,标注者会提出纯粹基于位置的查询,如"指向图像中最左边的树。"

2. 功能部件(Affordance):这些场景展示桌面物体或强调功能部分的特写。例如,一个茶壶的图像,标注者会询问关于可操作组件的问题,比如"指向用于倒水的把手"。

3. 计数(Counting):这类场景包含不同数量的相似物体。比如,一张停车场的照片,标注者会提出选择特定数量或属性子集的查询,如"指向图像中所有蓝色汽车"。

4. 相对位置(Steerable):来自PixMo数据集的图像,每张都包含一个参考点。标注者提出相对于该点的查询,避免显式物体名称,如"指向距离标记点最近的物品"。

5. 推理(Reasoning):一般性、事件丰富的场景,邀请开放式查询,需要视觉推理,答案通过指向传达,如"指向图像中最高的人造物体"。

为了构建这个数据集,研究团队开发了一个直观的基于Gradio的标注界面。标注者首先根据每个类别的主题撰写自然语言查询,然后使用三个匿名多模态模型评估这些查询。如果仅有一个或更少的模型产生正确预测(由人类评估者判断),则该查询被认为足够具有挑战性,可以纳入数据集。随后,标注者直接在图像上标注目标点,使用SAM模型生成初始掩码,并可以通过编辑或移除部分内容来细化这些掩码。最后,另一组标注者手动验证掩码,确保它们准确反映了用户生成的查询。

### Point-Battle:人类偏好评估平台

随着多模态模型越来越多地融入视觉基础推理和指向能力,静态基准在评估开放式、真实世界场景中的性能时变得不够充分,特别是在考量人类偏好方面。为了解决这一限制,研究团队引入了Point-Battle,这是一个基于用户提供的语言指令对多模态模型指向能力进行两两评估的动态平台。

Point-Battle采用了受Chatbot Arena启发的头对头评估格式,通过基于Gradio的网络界面实现。在每一轮中,从Point-Bench表现最佳的模型中随机抽取两个匿名模型——包括GPT-4o、Gemini 2.5 Flash、Molmo-7B-D、Qwen2.5-VL-7B和Grok-2 Vision。用户提交一个自然语言指令,并从精选数据集(2025年4月20日后)中选择图像或上传自己的图像。两个模型返回点预测,并并排显示。参与者为更好的输出投票,或者在适用的情况下选择"两者都好"或"两者都差"。

这种设计鼓励了多样化和无偏见的指令,不提供预设提示。模型身份保持匿名以防止偏见。自平台推出以来,Point-Battle已收集了来自约100名全球参与者的4,500多次投票。与静态的Point-Bench不同(如果在模型开发过程中使用可能导致过拟合),Point-Battle服务为持续更新的基准,捕捉实时人类偏好并跟踪多模态模型在视觉基础推理方面的进展。随着Point-Battle规模的扩大,这也将成为收集指向数据的平台。

### Point-Act:真实世界机器人操作测试

PointArena的前两个阶段通过定量指标和人类偏好评估来评估模型的指向能力。然而,指向只有在能够实现真实世界的实用性时才有意义。为了评估这种支持,研究团队引入了Point-Act——一个交互式系统,用户通过GUI向双盲多模态模型发出自然语言指令。模型生成一个或多个预测点,这些点被转换为xArm 6 Lite机器人的可操作命令。机器人使用深度感知进行空间推理,在指示位置执行拾取或放置操作。

这种设置将指向操作化为端到端物理操作,将语言基础与机器人控制连接起来。Point-Act突显了基础精度的下游后果:即使是小的定位错误也会导致执行失败,而准确的预测则能实现持续的真实世界成功。

三、研究实验:谁是指向能力的王者?

研究团队评估了一系列多模态大型语言模型(MLLMs)——包括专有和开源的——使用PointArena的三个组件。这些评估在零样本提示条件下进行,也就是说,模型没有接受过特定于任务的微调或示例学习。为了确保具有不同内部坐标系统的模型(特别是专有模型)的输出一致,研究团队采用了标准化的输出格式:[x, y],其中x和y分别表示水平和垂直像素坐标。

成功率的衡量使用了一个二元指标:如果预测点落在目标掩码内,则认为预测正确。对于非计数任务,模型被提示预测单个点;如果返回多个点,则只评估第一个点,假设它因自回归生成过程而反映最高置信度的预测。

### 实验设置

在Point-Bench上,研究团队评测了16个MLLMs(跨越开源和专有模型,包括关键变体)。每个模型都在相同的982个图像-指令对上评估三次,以计算平均值和标准偏差。开源模型在本地的NVIDIA A100 GPU上执行,而专有模型则通过公共API访问。

对于Point-Battle,为了测量与人类偏好的一致性,研究团队发布了一个实时评估平台,并通过社交媒体和邮件列表进行宣传。用户对匿名模型输出进行头对头比较投票。从成对比较中计算Elo评级,排除模糊投票("两者都好"或"两者都差")。

在Point-Act中,招募了10名远程参与者与真实世界机器人设置进行交互。对于固定场景,参与者评估了三个代理——Molmo-7B-D、GPT-4o和人类参考——进行三次试验。在每个条件之后,他们完成了系统可用性量表(SUS)调查。

评估的模型包括Molmo、Gemini、OpenAI、Claude、Grok、LLaVA和Qwen的多个变体。

### 主要发现

实验结果揭示了几个关键发现:

1. **开源模型的表现可与专有模型相媲美**:Point-Bench结果显示,明确针对指向数据训练的开源MLLMs通常能够匹配或优于专有模型。例如,Molmo-72B在性能上超过了Gemini-2.5-Pro 0.43个百分点——这是一个统计上不显著的差距(p≈0.29)。在功能部件推理方面,像Molmo-72B和Qwen2.5-VL这样的开源模型始终超过专有基线。总体而言,Molmo-72B在Point-Bench基准测试中取得了最高性能。

2. **指向监督显著提升性能**:接触明确的指向数据是模型准确性的关键驱动因素。在Qwen家族中,将PixMo语料库融入Qwen2.5-VL-7B使性能提高到52.3%,远高于未使用此类数据的Qwen2-VL-7B的17.4%。相比之下,同样未经过明确指向监督训练的LLaVA变体在平均上仅达到4.8-17.4%。

3. **专有模型可能受益于开源指向数据集**:虽然专有训练数据是不透明的,但研究团队观察到在PixMo和RoboPoint数据集发布后不久发布的模型性能大幅跃升。例如,GPT-o3比GPT-4-Turbo提高了21.1个百分点,而Gemini-2.5-Flash比Gemini-1.5-Flash提高了45.9个百分点。这些结果表明,最近的专有模型可能已经融入了PixMo或类似的语料库。

4. **开源模型更符合人类偏好**:在Point-Battle中,Molmo-7B-D的表现超过Gemini-2.5-Flash 196个Elo点。它们的95%置信区间不重叠,在115次直接头对头比较中,Molmo-7B-D赢得了79%。Qwen2.5-VL-7B和Molmo-7B-D在人类偏好评估中都超过了专有模型,并超过了1000点的基线,表明相对于随机猜测具有统计显著的优势。

5. **Molmo在Point-Act评估中表现出色**:用户研究结果显示,Molmo-7B-D的表现大幅超过专有GPT-4o模型,性能提高了65%,接近人类(预言)基线水平。这种优势也反映在用户偏好上,Molmo-7B-D在SUS评分上比GPT-4o高出60.3分。

6. **模型大小对指向性能影响不大**:如图5c所示,开源模型(LLaVA-OV、Molmo和Qwen-VL)在Point-Bench上的性能随着模型大小增加而基本保持不变。例如,Qwen2.5-VL-7B的性能在Qwen2.5-VL-72B的3%范围内,而Molmo-7B-O与Molmo-72B的差异不到1%。这些结果表明,增加模型大小并不会显著提高指向准确性。

### 三个评估框架之间的相关性

PointArena对MLLMs指向能力的三阶段评估不应被视为孤立的组件,而应被视为渐进流程中的互补步骤。随着MLLMs的改进,它们有望通过这些阶段取得进展。因此,了解阶段之间的相关性和一致性对于评估一致性能提升至关重要。

研究发现,人类偏好和静态数据集评估高度一致。随着MLLMs的改进,Point-Bench的静态数据集将不可避免地达到平台期。为了保持领先,研究团队引入了Point-Battle,一个不断更新的实时竞技场,支持开放式模型比较。验证这一设置时,研究团队重新评估了在Point-Bench上测试的模型,并观察到强烈的一致性:Point-Battle分数与Point-Bench结果的相关性为R? = 0.85。

更重要的是,Point-Bench准确性能够预测真实世界任务成功率。研究团队通过在Point-Act上测试三个代理——Molmo-7B-D、GPT-4o和人类参考——来验证Point-Bench作为可靠代理的有效性。成功率与Point-Bench分数紧密一致,产生强线性相关(R? = 0.92)。这种高相关性表明,Point-Bench是多模态LLMs在实际环境中指向能力的可靠代理。

四、影响指向性能的其他因素

为了理解影响指向的设计选择,研究团队对GPT-4o进行了消融实验,使用提示结构和输出表示的变体。

结果表明,针对性提示优于冗长推理。融入思维链(CoT)推理使GPT-4o的指向准确率降低了2.9%,而对Gemini-2.5-Flash则大幅降低了16%。使用原始、未过滤的用户查询导致GPT-4o和Gemini-2.5-Flash分别额外下降2.6%和3.7%。这些结果表明,清晰、针对性的提示与明确定义的坐标系统对于有效指向至关重要,而通过语言的额外推理并不能增强MLLMs的指向能力。

这一发现非常有趣,因为它与许多其他任务中的发现相反——在那些任务中,思维链方法通常会提高性能。这表明视觉定位任务可能需要与纯语言任务不同的推理策略。

五、PointArena的局限性与未来展望

虽然PointArena为评估多模态模型的指向能力提供了一个统一、可扩展的框架,但研究团队也坦率地讨论了当前的局限性。

当前的标注管道依赖于分割任意物体模型(SAM)生成初始掩码,标注者通过基于网格的界面对其进行细化。虽然高效,但这种方法通常导致粗糙和不精确的边界,特别是对于精细或不规则形状。这种情况降低了分割质量,并将噪声引入下游评估。

此外,随着大型多模态模型经常在公开可用的数据集上训练,像Point-Bench这样的静态基准越来越有风险成为训练数据的一部分,降低了它们在评估泛化能力方面的有效性。最后,Point-Battle目前随机均匀地选择模型对,这导致了无信息的比较——特别是在性能差距较大的模型之间——限制了评估过程的效率。

未来工作计划通过几个关键方向解决这些限制:

首先,研究团队计划用自由形式轮廓界面替换当前的网格基础细化工具,允许标注者使用鼠标或手写笔直接追踪物体边界。这可能产生更平滑、更精确的掩码,特别是在物体边缘周围,粗糙网格经常失效。

第二,为解决基准陈旧性问题,研究团队计划用来自Point-Battle的用户生成内容增强Point-Bench,参与者上传图像并通过交互提供隐式监督。虽然这些标注比手动策划的标注噪声更大,但它们支持可扩展、最新的评估。

最后,研究团队计划实施自适应采样策略,动态选择性能相似的模型对,增加每次比较的信息量。

结语:指向能力对未来AI的重要意义

通过对PointArena基准三个阶段的开源和专有模型评估,研究团队发现了几个重要见解,这些见解可能对多模态模型的未来发展产生深远影响。

首先,Molmo-72B在Point-Bench上取得了最高性能,专有模型如Gemini-2.5-Pro表现相当。明确针对指向监督训练的模型始终优于未经训练的模型。研究团队还观察到静态基准准确性与Point-Battle中的人类偏好之间存在强相关性。值得注意的是,研究团队发现,增加语言推理(如思维链)并不能提高指向任务的视觉基础能力,反而会降低性能。

从更广泛的角度来看,PointArena填补了一个关键空白,为多模态指向能力提供了一个统一的评估框架。随着我们向更通用、更交互式的AI系统发展,精确的空间基础能力将变得越来越重要。无论是辅助视障人士导航环境、指导机器人在家庭或工厂中执行任务,还是简单地使人机交互更加直观,准确的指向都是将语言理解转化为有意义的实际行动的基础桥梁。

通过提供一个开放、可扩展的平台来测量这种能力,PointArena不仅推动了当前多模态模型的进步,还为未来更复杂、更自然的人机交互奠定了基础。随着模型继续改进,我们可以期待看到指向能力从简单的物体定位扩展到复杂的视觉推理和实时交互场景,最终实现真正自然的、指向增强的人机沟通。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-