这项由新加坡南洋理工大学刘舜宇团队与2077AI、浙江大学等多个机构合作的研究于2025年8月发表在了arXiv平台上。有兴趣深入了解的读者可以通过https://github.com/VeriGUI-Team/VeriGUI或https://huggingface.co/datasets/2077AIDataFoundation/VeriGUI访问完整数据集和论文详情。
近年来,我们经常听到AI能够下棋、写文章、画画,但有没有想过让AI直接操控你的电脑,帮你完成复杂的工作呢?比如说,让AI帮你搜集研究资料、制作表格、处理文档,就像一个真正的数字助理一样。这个想法听起来很美好,但现实却充满挑战。
目前的AI智能体虽然能够执行一些简单的电脑操作,比如点击某个按钮或输入一段文字,但遇到需要多个步骤、跨越不同应用程序的复杂任务时,它们往往表现得像刚学会用电脑的小朋友——虽然知道怎么点击鼠标,但不知道该按什么顺序完成整个任务。更糟糕的是,现有的训练数据大多只关注任务的最终结果,就像只告诉学生考试答案,却不教他们解题步骤一样。
研究团队面临的核心问题是:如何让AI学会真正的"长程规划"——也就是将一个复杂任务分解成多个相互关联的子步骤,并能够在执行过程中根据情况调整策略。这就像教会AI成为一个优秀的项目经理,不仅要知道最终目标,还要明白每个阶段的具体目标和验证标准。
为了解决这个问题,研究团队开发了一个名为VeriGUI的创新数据集。这个数据集的特殊之处在于,它不仅记录了完整的任务操作流程,还为每个子任务设定了可以独立验证的目标。这样一来,AI就能够在训练过程中获得更细致的指导,就像有一位耐心的老师在每个学习阶段都给予及时的反馈和纠正。
VeriGUI数据集涵盖了网页操作和桌面应用两大类任务。网页任务主要聚焦于深度研究场景,包括科学学术研究、金融经济、技术创新、艺术娱乐以及社会政策可持续发展五个主题领域。桌面任务则涵盖了办公生产力软件、系统工具和专业应用三个方面。每个任务都被精心分解为4到8个相互依赖的子任务,总共需要执行数百个GUI操作步骤,平均每个任务包含214.4个操作步骤。
这种设计理念可以用烹饪来类比。传统的AI训练数据就像只告诉厨师"做一道红烧肉",然后直接展示最终成品。而VeriGUI就像一本详细的烹饪教程,不仅告诉你最终要做出什么菜,还详细记录了每个步骤:先准备食材、然后腌制、接着炒糖色、再加调料炖煮等等。更重要的是,每个步骤都有明确的验证标准,比如"肉色变金黄"、"汤汁浓稠"等,这样即使中途出现偏差,也能及时调整。
在数据收集方面,研究团队采用了两阶段流程。第一阶段是任务指令构建,结合了语言模型生成和人工筛选。他们首先为每个主题领域手工选择少量种子指令,然后让语言模型基于这些种子生成大量候选任务。人工专家对这些候选任务进行审核,只保留那些语法清晰、语义合理、实际可行的任务。一旦建立了经过验证的主任务池,语言模型就会被提示进行子任务分解,获得包含详细子指令的完整任务指令。
第二阶段是人工演示收集。人工标注员根据给定的最终指令手动执行每个任务,并记录完整的轨迹演示。在执行前,标注员会完善子任务序列以确保可行性和流畅操作,在交互过程中允许根据需要进行调整。演示使用屏幕捕获工具记录,包含详细的动作日志、观察日志和子任务级目标。
为了确保高质量的监督和准确的基准测试,所有轨迹演示都要经过严格的质量控制。这包括自动检查和人工审核,验证子任务结果的正确性、动作序列的连贯性以及观察的完整性。只有满足所有标准的演示才会被保留。
研究团队用这个数据集测试了多种不同类型的AI智能体,包括具有内置搜索功能的深度研究智能体(如OpenAI Deep Research和Gemini Deep Research)、结合开源搜索工具的搜索引擎智能体、使用Browser-Use框架的浏览器使用智能体,以及多智能体系统。
测试结果令人深思。在所有智能体类型和基础模型中,没有任何配置的平均成功率超过10%,完成率也没有超过30%。这种持续的低性能表现突出了VeriGUI任务的挑战性,这些任务需要长期规划、多步推理以及在多样化网络场景下的复杂决策能力。
具体来看,在深度研究智能体设置中,OpenAI-o3和Gemini-2.5-Pro实现了最高的平均成功率8.5%,完成率分别为28.8%和28.1%。这些结果表明,这两个模型具有相对更强的推理能力和跨任务的更好泛化性。相比之下,OpenAI-o4-mini在这种设置下表现最差,表明尽管是推理模型,但在处理复杂网络任务方面存在局限性。
在搜索引擎和浏览器使用设置中,研究团队观察到类似的模型级别趋势。OpenAI-o3、Claude-3.7-Sonnet和Claude-4.0-Sonnet在这两种设置中都表现出更强的完成率。GPT-4o在两种设置中都显示出一致的低成功率(0.8-1.5%)和完成率(5.2-7.0%),表明在处理复杂多步任务方面存在局限性。
交互范式的设计对智能体性能有重大影响。使用搜索引擎范式的智能体在成功率和完成率指标上都取得了最弱的结果。这种设置下的大多数模型平均成功率在0.8-5.4%之间,完成率低于18.3%。这很可能是因为它们依赖被动的基于文本的检索,无法直接与网页结构交互。
相比之下,使用浏览器使用范式的智能体通常获得稍高的分数。虽然成功率的改进往往很小,但几个模型的平均完成率更高。例如,Claude-4.0-Sonnet从搜索引擎设置中的14.4%完成率提高到浏览器设置中的18.5%,Gemini-2.5-Pro从13.3%提高到15.5%。这些提升表明,能够访问页面级结构和模拟用户操作的能力可以提供有意义的优势,特别是对于涉及动态界面或多个步骤的任务。
在不同领域的表现方面,艺术娱乐类任务通常获得了最高的成功率和完成率,这可能是由于更结构化和可预测的数据格式,如列表或摘要。例如,使用Claude-4.0-Sonnet的浏览器使用智能体在该领域达到19.4%的成功率和45.8%的完成率。相比之下,金融经济和社会政策可持续发展等领域证明更具挑战性,通常要求智能体从不够标准化的内容中提取碎片化、抽象的信息。大多数模型在这些领域显示接近0%的成功率和低于20%的完成率。
为了更好地理解VeriGUI基准中任务的内在难度,研究团队对所有任务的成功率和完成率分布进行了细致的统计分析。分布曲线显示,对于两种智能体类型,大多数任务都产生较低的成功率和完成率值,并伴有接近零成功的长尾,突出了VeriGUI多步推理要求带来的挑战。
研究团队还系统地将任务难度分为五个级别。第一级包括成功率高于0%的任务,表明它们对当前智能体来说相对容易处理。第二级包括成功率为零但完成率高于20%的任务。第三级包括成功率为零但完成率在5%到20%之间的任务。第四级包括成功率为零但完成率在0%到5%之间的任务。第五级包括成功率和完成率都为零的任务,表明没有模型能够取得进展。
结果显示,VeriGUI任务的大部分落在成功率为零的第二到五级,突出了高复杂性、部分可实现任务的普遍性。只有一小部分任务落入第一级,表明对当前智能体来说很少有任务是直接的。这种分类为未来的基准测试和GUI智能体训练中的课程设计提供了一个实用框架。
通过具体的案例研究,研究团队展示了不同类型智能体在长期GUI推理任务中的行为和局限性。这些例子说明了检索保真度、多步推理质量以及四种定义错误类型的典型失败模式:错误信息、不完整结果、检索失败和无关结果。
在一个关于流媒体服务订阅增长的任务中,深度研究智能体(OpenAI-o3)取得了相对较高的完成率,正确识别了Netflix、《怪奇物语》和大部分相关元数据。然而,它表现出两个关键错误。首先,它犯了错误信息错误,报告了大约3900万的近似订户增长,而不是确切的3864万,这是由于被媒体报告误导并错误地记录2023年第四季度为2.608亿而不是官方的2.6028亿。其次,它展示了不完整结果,只提到了一家VFX公司,而遗漏了其他六家有重要贡献的公司。
在另一个关于世界首个拥堵收费城市的任务中,浏览器使用智能体(GPT-4o)正确识别了新加坡和实施年份1975年,但在其他方面失败了。它遇到检索失败,没有提供拥堵收费的任何具体价值,而是返回模糊的描述。此外,它提供了无关结果,讨论平均交通速度而不是报告第一年所需的交通减少百分比。这些问题表明,尽管基于浏览器的智能体可以导航网页,但它们仍然在精确数据提取和生成结构化、目标导向的输出方面存在困难,导致较低的完成率。
除了个别例子,研究团队的实验还揭示了几个系统性局限。首先,许多基于聊天的智能体展示了浅层搜索行为:它们在明显需要更深入调查的任务中,只调用几次工具就过早终止输出。这限制了它们在复杂GUI环境中执行全面、多跳检索的能力。其次,浏览器智能体经常使用完整的自然语言句子而不是提炼的关键词来制定网络查询。虽然句子级输入可能看起来更自然,但它们经常导致次优搜索结果,降低了检索完成任务所需确切信息的可能性。
当前的实验结果基于有限的130个网络任务子集,其中大部分专注于信息寻求场景。有趣的是,研究团队观察到深度研究智能体在这种设置下通常优于浏览器使用智能体。这提出了一个重要问题:我们应该优先发展深度研究智能体,还是GUI智能体范式仍然具有更广泛和更强大的通用能力前景?
研究团队认为后者仍然非常有吸引力,这种观察应该从几个角度来解释。任务的性质强烈影响性能。VeriGUI中当前的大部分网络任务强调多跳信息检索和事实综合,这与深度研究智能体的优势密切相关。然而,对于许多涉及界面操作的实际任务,如上传文件和登录账户,深度研究智能体基本上是有限的。这些智能体缺乏与界面视觉布局交互的能力,这对完成此类任务至关重要。相比之下,GUI智能体构建为在环境的视觉和结构组件上操作,使它们能够处理超越被动信息提取的交互式工作流程。
另外,GUI智能体的性能被低估了。大多数现有的基于浏览器的GUI智能体依赖于通用多模态模型和相对基本的执行框架。它们还没有受益于支持深度研究系统的相同程度的领域特定优化或工具集成。随着该领域的进步,研究团队预期环境建模、长期规划、多模态理解以及使用VeriGUI提供的细粒度子任务监督进行训练的进步将显着改善GUI智能体的推理、鲁棒性和决策能力。今天看到的性能差距不应被视为根本限制,而是反映了这一有前景技术的早期阶段。
GUI智能体最令人兴奋的前景之一是它们作为开发更通用AI系统的基础工具的潜力。虽然深度研究智能体目前专注于基于网络的任务,但GUI智能体具有跨多个计算环境(包括网络和桌面平台)进行泛化的固有能力。它们与图形界面交互的能力使它们变得多才多艺,能够执行诸如浏览、文档编辑、系统配置和数据输入等任务,所有这些都不需要领域特定的规则或管道。这种可扩展性和灵活性为构建真正通用的交互式智能体提供了一条有希望的道路。
值得注意的是,当前评估仅反映了VeriGUI旨在捕获的一部分内容。研究团队正在积极扩展数据集,以包括更多具有交互要求的网络任务,以及涉及复杂软件操作的大量桌面任务。未来对这一扩展数据的实验将能够更平衡和完整地了解跨任务类型和环境的GUI智能体能力。
说到底,VeriGUI这项研究就像给AI智能体制作了一本详细的"电脑操作指南"。它不仅告诉AI要完成什么任务,还详细记录了每一个步骤应该怎么做、做到什么程度算合格。这种精细化的指导方式让AI能够学会真正的"长程思维",就像培养一个优秀的项目经理一样。
虽然目前的测试结果显示,即便是最先进的AI智能体在面对复杂的电脑操作任务时仍然表现得像个初学者,但这恰恰证明了这个数据集的价值——它为我们提供了一个真实而严格的测试标准。正如学会骑自行车需要在摔倒中不断练习一样,AI智能体也需要通过这样的挑战性训练才能真正掌握复杂的电脑操作技能。
随着这个数据集的不断完善和扩充,我们有理由相信,在不远的将来,AI智能体将能够像熟练的办公助理一样,帮我们处理各种复杂的电脑工作。到那时,我们只需要对AI说"帮我整理一份关于某个主题的研究报告",它就能自动搜索资料、整理信息、制作表格、生成文档,真正成为我们数字生活中不可或缺的智能伙伴。
Q&A
Q1:VeriGUI数据集有什么特别之处,为什么比现有的训练数据更有效?
A:VeriGUI的特别之处在于它提供了"分步骤验证"的训练方式。现有的训练数据就像只告诉学生考试答案,而VeriGUI像一本详细教程,不仅记录完整操作流程,还为每个子任务设定可独立验证的目标。每个任务被分解为4-8个相互依赖的子任务,总共需要数百个操作步骤,让AI能获得更细致的指导和及时反馈。
Q2:目前AI智能体在VeriGUI测试中的表现如何,达到了什么水平?
A:测试结果显示现有AI智能体的表现还比较有限。在所有智能体类型和基础模型中,没有任何配置的平均成功率超过10%,完成率也没有超过30%。即使是表现最好的OpenAI-o3和Gemini-2.5-Pro,成功率也只有8.5%左右。这说明复杂的电脑操作任务对AI来说仍然是很大的挑战。
Q3:VeriGUI数据集包含哪些类型的任务,这些任务有多复杂?
A:VeriGUI包含网页操作和桌面应用两大类任务。网页任务涵盖科学学术研究、金融经济、技术创新、艺术娱乐、社会政策可持续发展五个领域,主要是深度研究场景。桌面任务包括办公软件、系统工具和专业应用操作。每个任务平均包含214.4个操作步骤,需要跨越多个应用程序完成复杂的多步骤工作流程。
好文章,需要你的鼓励
这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题:如何让AI既能写出高质量内容,又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法,他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感,最终训练出的模型在保持顶级质量的同时,创作多样性接近人类水平,为AI创意写作开辟了新方向。
上海AI实验室联合多所高校开发出VisualPRM系统,这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程,显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准,实现了在七个推理基准上的全面性能提升,即使是最先进的大型模型也获得了5.9个百分点的改进。
上海AI实验室团队通过LEGO积木设计了创新评测基准LEGO-Puzzles,系统测试了20个先进多模态大语言模型的空间推理能力。研究发现即使最强AI模型准确率仅57.7%,远低于人类93.6%的表现,揭示了当前AI在三维空间理解和多步序列推理方面的重大不足,为机器人、自动驾驶等应用发展提供重要参考。
字节跳动团队突破了AI图像生成领域的三大难题:身份识别不准确、文字理解偏差和图片质量不佳。他们开发的InfiniteYou技术采用创新的InfuseNet架构和多阶段训练策略,能够根据用户照片和文字描述生成高质量个性化图像。实验显示该技术在身份相似度、文本匹配度和图像质量方面均超越现有最佳方案,并具备出色的兼容性,为个性化内容创作开辟了新道路。