微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

多模态通才：InfantAgent-Next如何让AI更智能地操作你的电脑

人工智能多模态代理计算机自动化交互

多模态通才：InfantAgent-Next如何让AI更智能地操作你的电脑

作者：科技行者

2025-05-29 14:49

分享至：

InfantAgent-Next是一款突破性的多模态通用型AI助手，能通过文本、图像、音频和视频与计算机进行交互。不同于现有方法，它采用高度模块化架构，将基于工具和纯视觉的代理技术融为一体，让不同模型能逐步协作解决分散任务。在OSWorld视觉测试中达到7.27%的准确率，超越Claude-Computer-Use；同时在代码处理基准SWE-Bench和通用任务平台GAIA上也表现出色。其开源设计不仅提供了丰富工具集，还优化了鼠标点击定位和文件编辑功能，为AI自动操作计算机开创了新范式。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-29 14:49 • 科技行者

在2025年5月，来自明尼苏达大学、芝加哥伊利诺伊大学、康涅狄格大学、圣安东尼奥德克萨斯大学和思科研究院的研究团队发布了一项引人注目的研究成果。由Bin Lei和Weitai Kang共同领导的团队在arXiv预印本平台发表了论文《InfantAgent-Next: A Multimodal Generalist Agent for Automated Computer Interaction》，为计算机自动化交互领域带来了新的突破。这项研究的代码和评估脚本已在GitHub上开源，有兴趣深入了解的读者可以通过https://github.com/bin123apple/InfantAgent访问完整代码库。

想象一下，你有一个虚拟助手，它不仅能理解你的文字指令，还能看懂屏幕上的内容，听懂语音命令，甚至处理视频信息。更棒的是，它能将所有这些信息综合起来，帮你完成各种电脑操作任务。这就是InfantAgent-Next的核心愿景—一个多模态全能型AI助手。

在今天的数字时代，自动化AI助手变得越来越重要。传统的AI助手通常面临两大困境：要么它们需要为每个可能的桌面场景手动定义和集成工具，这显然是不现实的；要么它们完全依赖视觉理解来操控图形界面，但这种方法在处理可以通过简单工具调用轻松处理的任务时，如文档编辑或代码操作，效率往往不高。

InfantAgent-Next打破了这种二分法，它巧妙地将基于工具的助手和纯视觉助手整合在一起，创建了一个模块化的架构，允许不同的模型协同工作，逐步解决解耦的任务。这种方法让它既能像专业工具那样精准高效，又保持了视觉助手的通用灵活性。

研究团队在OSWorld、GAIA和SWE-Bench等多个基准测试上评估了InfantAgent-Next的性能。特别值得一提的是，它在OSWorld测试中取得了7.27%的准确率，超过了Claude-Computer-Use的表现。这意味着，在处理现实世界的计算机交互任务时，InfantAgent-Next展现出了强大的能力。

一、当前AI助手的局限性

当前的自动化AI助手大致可分为两类，它们都在工具选择和执行层面存在明显局限。

第一类是基于工具的助手，如OpenHands、OWL和AutoGPT。想象一下，这些助手就像是配备了各种工具的瑞士军刀。它们为大型语言模型(LLM)配备了一系列预定义的工具（如代码生成工具、网络搜索工具等），以提高特定任务的准确性。就好比你有一把多功能工具，但是你需要自己判断何时使用螺丝刀，何时使用小刀。这些助手通常依靠单一模型来决定何时以及如何使用每个工具，因此需要为每个可能的桌面场景手动定义和集成工具。这就像是你必须为每个家庭维修场景预先准备好特定的工具组合，如果遇到预期外的情况，就会束手无策。这种方法显然是不切实际且脆弱的，限制了其通用性。

第二类是纯视觉助手，如UI-TARS和Aguvis。这些助手就像是有眼睛的机器人，可以通过图形用户界面(GUI)控制计算机。这种设计允许更广泛的应用，因为它绕过了工具集成的需要。就像是一个人即使不知道工具的具体用法，也能通过观察和模仿完成某些任务。然而，使用单一模型进行高分辨率推理会影响在可以通过简单工具调用轻松处理的任务（如文档编辑或代码操作）上的准确性，而这些恰恰是基于工具的助手所擅长的领域。

即使是Claude-3.7-Sonnet和o3这样的高级模型也存在执行层面的问题。它们虽然能够将复杂问题分解为精确的、逐步的计划，但在执行时常常失败——错误定位GUI点击坐标（GPT-4o在ScreenSpot-Pro基准测试上的准确率仅为0.8%）或在文件编辑期间选择错误的行号。相反，专门的视觉模块（如视觉定位模型）虽然在定位准确度上表现出色，但推理能力有限，上下文窗口受限，无法可靠地推断后续动作。

要同时确保高任务级别准确性和广泛通用性，需要一种混合代理范式，将基于工具和纯视觉方法统一起来。这就是InfantAgent-Next的核心创新点。

二、InfantAgent-Next：一种全新的多模态助手方案

InfantAgent-Next采用了一种全新的方法来解决上述问题。它不是选择单一方法，而是对代理工作流、工具选择和工具执行进行了详细的模块化处理，支持了一个统一对话上下文的模块化架构。

想象InfantAgent-Next就像是一个由专家组成的团队，每个专家都有自己的专长。当一个任务来临时，团队负责人（规划模型）会分析任务性质，然后将子任务分配给最合适的专家：推理模型处理逻辑推理，视觉定位模型负责定位UI元素，音频分析模型解释声音，等等。每个专家完成自己的部分后，他们的输出被无缝合并回对话历史中，形成一个连贯的解决方案。

这种设计使InfantAgent-Next能够真正实现与计算机界面的多模态交互，而不仅仅局限于格式化的HTML、可访问性树操作或纯视觉控制。举几个例子：它可以帮你保存网页到书签栏，分析Excel文件中的数据，甚至听懂录音内容并执行相关指令。

三、InfantAgent-Next的架构设计

InfantAgent-Next的架构设计可以分为三个主要部分：参数配置、代理初始化和代理工作流。

在参数配置阶段，用户可以自定义并为不同任务分配不同的模型。这包括三个负责规划、工具选择和任务执行的工作流模型，以及三个专门处理图像、音频和视频的模态特定工具模型。就像是你可以根据项目需要自由组建你的专家团队。

在代理初始化阶段，我们为每个模型分配特定角色，并配备量身定制的提示模板。例如，某些工具与特定工具模型及其提示模板相关联，然后被打包成统一的多模态工具包。在这个阶段，代理的记忆缓存被初始化，用户的请求被存储为第一个条目。这就像是项目启动会议，每个团队成员都明确了自己的职责和工作方式。

代理工作流是整个系统的核心运作机制。初始化的多模态工具包，连同一套预定义的实用功能，被组织成一个综合工具集。这套工具，加上交互环境、所有模型和代理的记忆缓存，被整合到代理的工作流中。用户的初始请求作为输入，触发以下迭代循环：

首先，规划模型分析请求和当前状态，生成一个任务，该任务被解析并存储在记忆中。这就像是团队负责人分析客户需求并制定项目计划。

接着，代理使用工具选择的提示模板重构记忆。工具选择模型从工具集中选择最合适的工具。被选中的工具在这次迭代中被注册并激活，而其他工具保持闲置状态。这就像是根据任务性质选择合适的专业人员来执行具体工作。

然后，执行模型调用工具并从环境中收集反馈以完成任务。就像是选定的专家开始工作，并根据实时情况调整自己的操作。

最后，如果我们成功解决了任务，循环终止；否则，过程进入下一次迭代。这就像是项目完成后的验收环节，确认是否达到了客户的要求。

四、核心组件的详细设计

InfantAgent-Next的强大功能离不开其精心设计的核心组件。让我们深入了解一下记忆机制、工具集和关键功能的实现。

记忆机制是InfantAgent-Next的基础。由于代理必须执行三种不同类型的任务——规划、工具选择和执行，仅仅记录原始对话历史是不够的。相反，每个模型生成的响应都使用特殊标签进行解析，并按顺序存储在代理的记忆缓存中。例如，代理的推理过程被包含在`...`标签中；任务分配由`...`标记；选定的工具包由`...`指示；工具执行由`...`或`...`表示。

当代理转换到新任务时，从记忆缓存中提取一个子集，并重构为对话，方法是连接相关的记忆属性。任务特定的标签被激活，以防止LLM生成不相关的内容。最后，重构的对话与预定义的提示模板结合，形成该任务的对话历史。

工具集是InfantAgent-Next的另一个关键组件。为了调用工具，代理将其文档和使用示例预置到对话历史中。然而，随着工具集的扩大，这种策略带来了两个挑战：推理开销因文本量而膨胀，模型识别正确工具的难度增加。为了缓解这些问题，InfantAgent-Next对工具进行分类，并在每个工具选择步骤中动态选择相关子集。具体来说，定义了七个工具包：文件读取、文件搜索、文件编辑、网络浏览、计算机使用、代码执行和高级工具。计算机使用工具包包括所有键盘和鼠标操作以及多模态工具，而高级工具包提供各种复合命令。每个工具包都配有使用示例，使模型能更容易理解如何正确使用这些工具。

最后，InfantAgent-Next针对鼠标点击和文件编辑等关键功能进行了特殊优化。对于鼠标点击操作，模型需要输出两个参数：目标元素的名称（如Google Chrome或VS Code图标）和其位置与形状的详细描述。系统采用迭代区域裁剪方法来提高精度：首先验证代理的最近动作是否为鼠标点击；然后从内存中检索相关描述，将全屏截图作为初始搜索区域；接着进入长度为n的迭代循环，每次迭代将当前区域和描述传递给视觉定位模型以获取候选坐标，然后调用CropScreen以提取更小的区域；完成n次迭代后，将最终区域再次传递给视觉定位模型，预测精确的点击位置。通过逐步缩小搜索区域，这种方法提高了视觉定位精度，减少了来自不相关像素的干扰。

对于文件编辑，InfantAgent-Next支持两种主要格式：SWE-Agent使用的三参数格式（指定文件路径、要替换的确切字符串和替换内容）和OpenHands使用的四参数格式（指定文件路径、起始和结束行号以及替换字符串）。为确保代理能够准确执行文件编辑，系统采用了一套复杂的逻辑：首先验证代理的最近内存条目是否为文件编辑类型；然后从内存中提取编辑请求并调用GenerateEditPlan，该函数返回建议的起始和结束行号以及这些行的预期内容；接着检查实际行内容是否与预期匹配，如果匹配则直接应用编辑并终止；如果边界检查失败，则切换到回退策略，保存原始行内容，模糊化预期片段，并调用FindBestMatch在文件中定位最相似的跨度，然后更新编辑请求并重复该过程。

五、实验评估与结果分析

为了全面评估InfantAgent-Next的性能，研究团队在多个主流基准测试上进行了实验。

首先，团队使用OSWorld基准测试评估了InfantAgent-Next的视觉推理能力。OSWorld提供了一个包含369个开放式桌面任务的可扩展、真实的计算机环境。每项任务都有完整的机器状态初始化，包括高分辨率截图、活动应用程序窗口和文件系统上下文，并配有自然语言指令和可执行的评估脚本。这些任务涵盖多种领域，如网页浏览、文件操作、代码编辑、图像处理和多应用程序工作流，挑战代理将自然语言指令转化为GUI元素的能力。

在OSWorld测试中，InfantAgent-Next使用Claude-3.7-Sonnet进行推理，UI-TARS-1.5-7B进行视觉定位，最大步数设置为50。结果表明，InfantAgent-Next达到了35.3%的准确率，优于OpenAI CUA(32.6%)和Claude Computer Use(26.0%)，显示了其增强的视觉推理能力。

其次，团队使用SWE-Bench数据集评估了InfantAgent-Next的逻辑推理能力。SWE-Bench-Lite是一个包含300个问题的子集，挑战代理解释真实的GitHub错误报告，识别Python代码库中的缺陷，提出补丁，并通过执行提供的测试套件验证修复。这种设置强调多步逻辑规划而非GUI熟练度。团队还在完整的SWE-Bench-Verified套件（500个案例）上评估了性能，为了管理API相关成本，均匀采样了50个案例进行评估。

在SWE-Bench-Verified基准测试（50个案例）上，InfantAgent-Next达到了66%的领先准确率，优于许多专有代理。特别值得注意的是，几个闭源代理如Amazon Q Developer Agent和Emergent E1的表现更差，凸显了InfantAgent-Next架构和集成的有效性。在SWE-Bench-Lite基准测试上，InfantAgent-Next保持了31.67%的竞争性能，位列顶级开源代理之中，展示了其鲁棒性和适应性。

最后，团队在GAIA基准测试上评估了InfantAgent-Next的通用任务性能。GAIA旨在评估通用AI助手，包括跨三个难度层级的开放式真实问题：基础（Level 1）、中级（Level 2）和高级（Level 3）。这些任务需要整合核心能力，包括推理、多模态理解、网络导航和工具使用，以产生单一的、可验证的答案。

在GAIA基准测试上，虽然闭源代理保持了性能优势，但InfantAgent-Next在开源代理中排名第二，仅次于OWL，并在Level 2难度问题上达到了62.79%的最佳结果。

此外，团队还在ScreenSpot-Pro上进行了视觉定位设计的消融研究。ScreenSpot-Pro提供了高分辨率专业场景来压力测试视觉定位能力，包含来自23个应用程序的1,581个带注释的截图，跨越五个行业领域和三个操作系统。实验表明，固定宽度并改变高度的设置产生了最高精度，是确定裁剪大小的首选策略。精度在第三次迭代时趋于收敛，使用两次迭代在性能和推理成本之间提供了有利的权衡。

关于文件编辑能力，团队使用SWE-Bench-Verified数据集的随机抽样进行了评估，结果显示InfantAgent-Next在文件编辑任务上表现出色，总成功率达到90.4%，修复成功率为84.3%，整体修复率为51.4%。代理在修复行号偏差错误（30%已修复）、内容不匹配（13%已修复）和Python语法错误（6%已修复）方面表现出色，展示了强大的代码解释和修复能力。

六、InfantAgent-Next的意义与展望

InfantAgent-Next代表了计算机自动交互领域的重要进步。通过巧妙地整合基于工具和纯视觉的范式，它既保持了高任务级别的准确性，又实现了广泛的通用性。它的模块化、上下文感知架构允许将子任务路由到最合适的专家模型，克服了单一模型系统的局限性。

从实际应用角度看，InfantAgent-Next能够处理从网页保存到数据分析，再到音频内容理解的各种任务，展示了其作为真正多模态代理的潜力。它不仅仅是一个演示系统，而是一个实用的工具，可以帮助用户自动化各种计算机交互任务。

从研究角度看，InfantAgent-Next的开源特性为社区提供了宝贵的资源。它的代码、模型和评估工具的发布将支持未来在多模态代理设计领域的研究。

展望未来，研究团队指出当前工作主要集中在推理阶段。为减轻过度提示工程的影响，他们计划进一步训练模型，使其能够自动调用适当的工具，而不是依赖手动添加的提示。这将进一步提高系统的自主性和灵活性。

总的来说，InfantAgent-Next展示了一种令人振奋的方向，朝着创建能够无缝理解和操作多种模态信息的真正通用AI助手迈进。它不仅解决了当前AI助手面临的核心挑战，还为未来的研究和应用开辟了新的可能性。

人工智能多模态代理计算机自动化交互

分享至