微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 拆解界面,组合交互:香港大学和Salesforce AI的创新研究让电脑操作模型更精准

拆解界面,组合交互:香港大学和Salesforce AI的创新研究让电脑操作模型更精准

2025-05-22 08:25
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-22 08:25 科技行者

如今,随着人工智能技术的不断发展,让AI助手能够像人类一样自然地操作电脑已成为研究热点。然而,当前的图形用户界面(GUI)交互模型面临着一个关键瓶颈:无法准确地将自然语言指令映射到屏幕上的具体操作位置。这个被称为"GUI定位"的能力,是构建高效电脑操作AI助手的基石。

这项研究由香港大学的谢天宝(Tianbao Xie)、邓嘉琪(Jiaqi Deng)、李晓川(Xiaochuan Li)、杨俊霖(Junlin Yang)等研究人员与Salesforce AI Research的Doyen Sahoo、余韬(Tao Yu)和熊才明(Caiming Xiong)共同完成,发表于arXiv预印版(arXiv:2505.13227v1)。研究团队构建了OSWORLD-G基准测试集和JEDI数据集,显著提升了GUI定位能力,让AI助手更准确地理解和执行用户指令。

想象一下,你告诉一个AI助手:"点击顶部通知栏的关闭按钮",而它能准确找到并点击屏幕上正确的位置。要做到这一点,AI需要理解什么是"通知栏",知道它在"顶部",识别出其中的"关闭按钮",并最终精确地点击正确的像素位置。这听起来很简单,但对AI来说却充满挑战。

现有的研究往往过度简化了这类任务,将其视为简单的参照表达问题,忽略了真实用户指令的复杂性。例如,现有的ScreenSpot-v2基准测试已经被最新的模型轻松达到约90%的准确率,但这些测试主要集中在简单的文本或图标识别上,并不能反映现实中交互任务的复杂性。

研究团队意识到,真实世界的GUI交互需要软件常识(了解图标含义、组件功能)、布局理解(理解侧边栏位置、面板下的元素等)以及精细操作能力(调整滑块、字符级文本选择等)。为了解决这些挑战,研究团队构建了OSWORLD-G基准测试集,包含564个精心标注的样本,涵盖了文本匹配、元素识别、布局理解和精细操作等多种任务类型。

不仅如此,他们还通过多角度分解任务的方式合成并发布了目前最大的电脑使用定位数据集JEDI,包含400万个示例。这个数据集的构建方法非常巧妙,就像厨师将复杂菜肴拆分为基本烹饪技巧一样,他们将复杂的GUI交互拆分为基础组件,分别针对图标、组件和布局进行训练,然后再组合起来应对复杂场景。

团队基于这个丰富的数据集训练了多种规模的模型,并在ScreenSpot-v2、ScreenSpot-Pro以及他们自己的OSWORLD-G基准测试上都取得了优于现有方法的成绩。更重要的是,他们发现改进后的GUI定位能力直接提升了通用模型在复杂电脑任务上的表现,在OSWorld基准测试上的成功率从5%提升到了27%。

通过详细的消融研究,研究团队确定了影响GUI定位性能的关键因素,并验证了组合不同界面元素的专门数据能够使模型对新界面具有组合泛化能力,就像人类可以将学到的不同操作技巧应用到从未见过的新软件中一样。

接下来,让我们深入了解这项研究的具体内容,看看研究团队是如何一步步突破GUI定位的挑战的。

一、GUI定位挑战:为什么电脑操作AI如此困难?

当我们使用电脑时,能够自然地找到按钮、移动光标、点击图标或调整设置,但这对AI来说却是一项艰巨的任务。想象一下,你告诉AI助手:"帮我在Excel表格中把第三列的数据按升序排列"。这个简单的指令背后,AI需要完成一系列复杂的理解和操作:找到第三列、识别排序按钮、选择升序选项等。

GUI定位(GUI grounding)就是AI准确将自然语言指令映射到具体屏幕坐标的能力。研究团队指出,现有的基准测试如ScreenSpot-v2和ScreenSpot-Pro存在明显不足:它们过度简化了任务,主要测试简单的引用表达式(如"点击保存按钮"),无法捕捉真实交互的复杂性。

真实世界的GUI定位需要AI具备三大核心能力:

首先是软件常识,包括理解图标含义、组件功能等。就像你能立即认出保存按钮上的软盘图标表示"保存"功能,即使现在几乎没人使用实体软盘了。AI需要这种与软件相关的常识性理解。

其次是布局理解能力,能够理解"侧边栏"、"顶部菜单"、"面板下的元素"等相对位置关系。这类似于你能理解当有人说"厨房水槽左边的抽屉"时,你知道如何在空间中定位这个抽屉。

最后是精细操作能力,可以精确地调整滑块、选择文本中的特定字符等。就像外科医生需要准确地操作手术器械,AI也需要这种精准度来执行细微操作。

此外,AI还需要能够判断不可行指令(例如在Firefox界面中误认为是Thunderbird),避免进入不可恢复的状态。这就像你能判断出有人给你错误的指示,而不是盲目执行导致问题。

二、OSWORLD-G:全面测试GUI定位能力的新基准

为了解决现有基准测试的局限性,研究团队构建了OSWORLD-G基准测试集。这个测试集包含564个精心标注的样本,覆盖文本匹配、元素识别、布局理解和精细操作等多种任务类型。

OSWORLD-G的构建过程十分严谨。研究团队从OSWorld(一个广泛用于评估电脑操作AI的环境)中采样截图,设置屏幕分辨率为720p和1080p。他们使用CVAT平台收集对应指令的对象标注,每个标注都由熟悉软件细节的人员完成,并通过在实际软件中测试进行验证,特别是对边缘情况。

在OSWORLD-G中,每个样本都被分配了精细的标签,标识完成该任务所需的元素类型。此外,研究团队还为每个样本提供了重新表述的指令,分解了完成任务所需的GUI知识。平均而言,每个样本的标注时间约为0.5人工小时。

这个测试集涵盖了32种不同的UI类型,并按能力维度分为五类:

文本匹配任务要求AI根据指令中提供的明确文本信息进行定位。例如"选择'作为附件'",需要匹配指定文本来定位适当的屏幕区域。

元素识别任务需要AI理解视觉模式,如图标或图像,甚至需要基于隐含功能而非明确标签识别元素。例如,通过软盘图标识别"保存"按钮,通过齿轮图标识别"设置"选项,或通过放大镜符号识别"搜索"功能。

布局理解任务要求AI理解界面的模块化结构。GUI通常设计为模块化结构,了解布局层次结构对于精确定位元素至关重要。例如,指令"关闭顶部通知栏"需要正确识别通知栏区域,因为界面中可能存在多个类似的关闭按钮。

精细操作任务通常涉及文本编辑操作,要求AI进行高精度的光标放置。例如,"选择'person'一词和数字'1'之间的位置"需要在特定字母之间精确放置光标,这些字母可能只占据屏幕的一小部分。此类操作需要能够在相对较小的屏幕区域内执行高精度操作。

不可行任务测试AI拒绝执行不可能指令的能力。例如,当指令为"点击打开Firefox浏览器",但截图中没有Firefox图标或任何可见引用时,AI应该能够识别并拒绝这类指令。

通过这种综合性测试,OSWORLD-G能够全面评估AI在GUI交互中的表现,为研究提供了更接近真实情况的基准。

三、JEDI:400万样本的GUI定位训练数据集

为了解决GUI定位的挑战,仅有好的评测基准是不够的,还需要大量高质量的训练数据。研究团队构建了JEDI(Just Enough Data for Interfaces),这是目前世界上最大的电脑使用定位数据集,包含400万个合成示例。

JEDI数据集的构建核心思想是"多视角任务解耦"。就像乐高积木一样,复杂的GUI交互被拆分为基本构建块,然后通过组合这些构建块来处理各种复杂场景。研究团队专注于收集三类核心数据:图标数据、组件数据和布局数据。

对于图标数据,研究团队采用三种互补的数据收集策略:从GitHub仓库和专业图标网站收集,通过网络爬虫从流行网站提取图标元素,以及使用IconsExtract等专业工具从可执行文件、DLL和系统库中提取图标。这样,他们获得了来自Windows、macOS和Ubuntu各种软件的数千个生产级图标。

组件数据主要通过代码和渲染管道收集。研究团队利用Material UI等前端开发中常用的UI组件库,选择组件并使用其示例代码作为基础。然后,他们使用大型语言模型(LLM)合成特定任务的功能案例(如空调控制的滑块),并在React应用程序中渲染这些组件,提取相应的元数据,如元素位置树、内置组件名称和坐标。

为了补充缺少的现实组件数据,研究团队还从现有网站和应用程序中获取真实世界的截图,重点收集如滚动网页、点击电子表格单元格或在幻灯片中调整文本框大小等常见交互行为的数据。

布局数据则来自两个主要来源:Figma等UI原型平台的设计模板(包括VSCode、Zoom和Microsoft 365等产品的真实规格)以及从OSWorld和WindowsAgentArena等环境中捕获的真实应用程序截图。

收集到截图和元数据后,研究团队将其转换为适合视觉语言模型训练的图像-文本到文本的多模态问答格式。他们使用像GPT-4o和Claude这样的模型,基于原始截图和元数据生成丰富的注释,描述外观和功能。他们构建了两种互补的训练格式:定位格式(模型接收截图和指令,预测操作或相关边界框)和描述格式(模型接收截图和边界框,提供描述信息)。

为了增强模型识别和拒绝不可行操作的能力,研究团队通过将现有指令与不相关截图错配,构建了拒绝部分数据集,产生了超过260万个示例。他们还集成和统一了来自以前工作的数据集,如SeeClick、OS-Atlas等。

通过这种多角度、多来源的数据收集和处理方法,JEDI数据集为GUI定位任务提供了前所未有的多样性和规模,为模型训练提供了坚实基础。

四、实验结果:JEDI如何提升GUI定位性能

研究团队基于JEDI数据集训练了不同规模的模型,并在多个基准测试上评估了其性能。他们选择了Qwen2.5-VL作为基础模型,设置最大像素限制约为1080p。3B模型的微调大约需要20小时,7B模型需要30小时,使用了128个CPU核心、512GB内存和64个NVIDIA H100 GPU的计算集群。

实验结果令人印象深刻。在ScreenSpot-v2基准测试上,基于JEDI训练的7B模型实现了91.7%的平均准确率,超过了现有方法如Operator(70.5%)和UI-TARS-7B(91.6%)。特别是在手机和桌面环境中的图标/小部件识别任务上,JEDI模型表现尤为突出。

在更具挑战性的ScreenSpot-Pro基准测试上(专注于高分辨率和专业软件图表),JEDI-7B模型的平均准确率达到了39.5%,超过了SeeClick(1.1%)、ShowUI-2B(7.7%)、Aria-UI(11.3%)等现有方法,也略优于UI-TARS-7B(35.7%)。在创意设计(34.0%)和科学软件(52.4%)等类别中,JEDI-7B表现尤为突出。

在研究团队自己的OSWORLD-G基准测试上,JEDI-7B模型在所有能力维度上都取得了最佳性能,整体准确率达到54.1%,远超OS-Atlas-7B(27.7%)、UGround-V1-7B(36.4%)和UI-TARS-7B(47.5%)。在文本匹配(65.9%)、元素识别(55.5%)、布局理解(57.7%)和精细操作(46.9%)等任务上,JEDI-7B都显示出卓越能力。

然而,研究团队注意到,在拒绝不可行指令的任务上,除了Gemini-2.5-Pro(38.9%)外,所有模型(包括JEDI)的表现都相对较弱(7.4%)。这表明识别和拒绝不可行指令仍是一个需要进一步研究的挑战。

除了单纯的GUI定位性能外,研究团队还评估了改进后的定位能力如何影响实际电脑任务的完成。他们在OSWorld和WindowsAgentArena基准测试中,使用GPT-4o作为规划模型,接收高级指令并在每个步骤中预测下一个低级自然语言指令。JEDI模型则负责将这些指令转换为具体的可执行操作。

结果显示,当使用JEDI作为定位组件时,即使是未专门针对电脑使用任务训练的基础模型,也能达到最先进的性能,超过了使用72B规模模型进行定位的先前方法,并匹配专业模型的性能。具体来说,在OSWorld上,使用JEDI-7B(15步)的系统成功率达到22.7%,使用更多步骤(100步)可以进一步提高到27.0%。在WindowsAgentArena上,JEDI-7B(100步)的成功率达到33.7%。

这表明,在当前大型语言模型的推理能力基础上,通过增强定位能力(如使用JEDI数据集或外部系统),可以构建高效的代理系统,为未来的发展提供了良好的起点。

五、深入分析:是什么因素影响了GUI定位性能?

为了更深入地理解是什么因素影响了GUI定位性能,研究团队进行了一系列细致的分析实验。

首先,研究团队探究了知识因素的影响。他们假设,如果指令接收者对GUI交互经验极少,那么定位任务的表现如何?为此,他们重新标注了整个基准测试,最大程度减少理解每个指令所需的背景知识,依靠颜色和形状等易于识别的通用特征。

例如,指令"打开搜索设置的过滤功能"被细化为"点击'搜索设置'栏右侧包含漏斗图标的按钮"。实验表明,指令细化后,模型性能普遍提高,这表明如果能够通过上游模型补充模型相关交互经验或提供更精确的表达,定位性能可以得到增强。

特别值得注意的是,指令细化后,JEDI模型达到了与最先进的UI-TARS-72B相当的性能。这表明,使用适当的数据(如JEDI数据集),在纯定位能力方面,较小的模型已经足够,进一步的优势可能在于背景知识的补充。

其次,研究团队调查了数据规模如何影响性能。他们以10%、20%、50%和100%的比例采样图标、组件和布局数据,对于每个数据比例,训练步数相同,确保所有模型都充分训练,以进行公平比较。

结果显示,随着数据规模增加,模型性能持续提高,没有出现饱和迹象。这表明,使用研究团队提出的方法进一步扩大数据规模可能带来额外收益。此外,他们发现,仅扩大单一数据类型(如组件)可能导致性能波动,而扩大混合数据类型则能带来更稳定的改进,表明组合多源数据是有益的。

最后,研究团队通过详细的案例研究,展示了JEDI模型相比基础模型Qwen2.5-VL-7B-Instruct的改进。在多个代表性案例中,JEDI表现出色:

通过对图标、组件和布局数据的训练,JEDI更加重视关键词如"按钮"和"在左侧",而Qwen则更专注于字面文本匹配,导致在某些情况下点击错误位置。

JEDI能够从屏幕上众多元素中有效识别具有指定功能的正确图标,展示其对常见图标功能的深入理解。相比之下,传统模型在使用粗粒度数据训练时,往往难以学习图标与其功能之间的关联。

JEDI能够同时理解特定组件(如什么构成水平滚动条)和整体布局(滚动条的位置),而Qwen模型则与无关元素交互。

JEDI成功识别弹出页面和消息栏等子页面中的可点击文本链接,而未经组件和布局训练的基础模型可能无法准确管理这些元素。

然而,研究团队也发现JEDI在某些情况下仍面临挑战:

当任务要求点击右箭头关闭右侧面板时,JEDI点击了'x'按钮。虽然这在功能上是正确的,但并未严格遵循点击右箭头的要求。

在界面中出现两次"居中"一词时(一个以白色显示表示活动状态,另一个以灰色显示表示非活动状态),JEDI误解了颜色差异,错误点击了下方非活动的选项。

在被指示接受cookie选项时,JEDI错误地关注了cookie首选项选项,可能是因为指令措辞误导了模型。

当任务要求点击艺术字体中的特定字母时,JEDI表现不佳,凸显了模型在处理涉及艺术或风格化设计的定位任务方面的当前局限性,这可能源于当前训练语料库中缺乏艺术和设计数据。

这些分析为未来的研究和改进提供了重要方向,尤其是在拒绝识别和艺术内容理解方面。

六、结论与未来展望

总的来说,这项研究在GUI定位领域取得了显著进展。研究团队通过构建OSWORLD-G基准测试集和JEDI数据集,成功展示了之前被忽视的GUI定位挑战,如文本匹配、元素识别、布局理解和精细操作等,并提供了解决这些挑战的有效方法。

基于JEDI数据集训练的模型在多个基准测试上都取得了优于现有方法的表现,这不仅证明了数据集的有效性,也验证了"多角度任务解耦"思想的价值。更重要的是,改进后的GUI定位能力直接提升了通用模型在复杂电脑任务上的表现,展示了GUI定位作为计算机操作AI基础能力的重要性。

然而,研究也存在一些局限性。研究团队主要讨论了数据合成方法,而未深入探讨如何从互联网图像和视频中提取屏幕捕获数据,这种方法可能进一步扩大数据集。由于资源限制,他们将这部分工作留给未来的工业化努力。此外,在拒绝不可行指令和理解艺术字体等方面,当前模型仍有改进空间。

未来的研究方向可能包括:进一步扩大数据规模,特别是通过从互联网图像和视频中提取更多数据;改进模型在拒绝不可行指令方面的能力;增强对艺术字体和特殊设计元素的理解;以及基于增强的定位模型构建更完善的电脑操作AI系统。

这项研究的成果对于构建更自然、更高效的人机交互系统具有重要意义。随着技术的不断进步,我们可以期待未来的AI助手能够更加精确地理解和执行用户指令,无论是简单的网页浏览还是复杂的文档编辑,都能如人类一样自然流畅地完成。

所有的基准测试、数据集、检查点和代码都已开源,可通过https://osworld-grounding.github.io获取,为社区提供了宝贵的资源,促进这一领域的进一步发展。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-