
这项由香港大学的陆俊杰、徐艺恒、王俊力等研究者领导,联合阿里巴巴Qwen团队的黄斌源、林俊洋等专家共同完成的研究发表于2025年10月,论文编号为arXiv:2510.19488v1。这是一项关于如何让人工智能学会使用电脑的突破性研究,有兴趣深入了解的读者可以通过该编号查询完整论文。
当我们看到一个孩子第一次学习使用电脑时,通常是通过观察大人的操作,然后模仿点击、打字、滚动等动作。现在,研究人员想让人工智能也能通过这种方式学习,但遇到了一个巨大的挑战:虽然网上有数百万个电脑操作教程视频,但这些视频就像是无声电影一样,我们能看到鼠标在移动、按钮被点击,却无法直接知道具体点击的坐标或者输入的文字内容。
香港大学的研究团队提出了一个创新的解决方案,他们称之为VideoAgentTrek。这个系统就像是一个非常聪明的"视频翻译官",能够自动观看YouTube上的电脑教程视频,然后把这些隐含的操作信息翻译成AI能够理解和学习的具体指令。
研究团队开发了一个叫做Video2Action的关键技术模块,它的工作原理可以比作一个经验丰富的电脑老师在观看学生操作录像。这个"老师"有两项特殊技能:首先,它能精确识别视频中什么时候发生了操作,比如在第3.5秒到5.5秒之间用户进行了打字操作;其次,它能准确推断出这些操作的具体内容,比如鼠标点击的确切坐标是(350, 200),或者用户输入的文字是"hello world"。
为了获得训练数据,研究团队像是在进行一场大规模的"视频考古"工作。他们从YouTube收集了55000个教程视频,总时长约10000小时,涵盖从Excel表格操作到软件安装的各种电脑使用场景。为了确保视频质量,他们还开发了一个叫做ScreenFilter的筛选工具,这个工具就像是一个专门的"质检员",能够自动识别哪些视频片段包含真正的电脑界面操作,过滤掉那些只是讲解PPT或者纯粹聊天的内容。
经过ScreenFilter的筛选,最终保留了约7377小时的高质量GUI交互视频。这些视频按照内容类型进行了分类:操作系统相关的占35.7%,专业软件使用占18.9%,日常办公应用占17.6%,工作流程演示占16.2%,其余为7.1%。这种分布确保了训练数据的广泛覆盖性。
Video2Action模块的工作过程可以分为三个步骤,就像一个熟练的秘书在整理会议记录。第一步是"动作事件检测",系统会仔细观看视频,标记出每个操作动作的精确时间段,比如"在1.5到2.0秒之间发生了点击动作"。第二步是"动作参数化",系统会分析这些时间段内的具体操作内容,推断出点击的坐标、输入的文字等详细参数。第三步是"内心独白生成",系统会为每个操作生成一段解释性的文字,说明为什么要进行这个操作,就像是操作者的内心想法。
研究团队使用了Qwen2.5-VL-7B作为基础模型进行训练。对于动作事件检测,他们使用了154小时的标注数据进行训练,这些数据来自OpenCUA项目,包含了77万多个精确标注的GUI事件。检测模型在测试中表现出色,整体精确率达到88%,召回率为70%。其中,点击和滚动等基于鼠标指针的操作识别效果最好,而按键操作由于视觉线索较少,识别难度相对较大。
对于动作参数化任务,研究团队训练了512000个视频片段。他们采用了动态帧率策略来平衡效率和准确性:对于短暂的操作(如点击),使用较高的帧率确保捕捉细节;对于较长的操作(如打字),则使用较低的帧率节省计算资源。在实际测试中,该模块在500个样本的人工评估中表现良好,点击操作的准确率达到71.3%,滚动操作达到73.5%。
通过Video2Action处理39000个YouTube视频后,研究团队最终获得了152万个交互步骤的训练数据,相当于约260亿个训练词汇。这个数据规模远超之前的人工标注数据集,而且覆盖了Windows、macOS、Web平台上数百种应用程序的操作模式。
在模型训练方面,研究团队采用了两阶段策略。第一阶段是"继续预训练",让模型在大规模的视频挖掘数据上学习基础的GUI交互模式,就像让学生先大量阅读各种操作手册。第二阶段是"监督微调",使用高质量的人工标注数据进行精细调整,就像让学生在老师指导下练习具体操作。
实验结果令人印象深刻。在OSWorld-Verified基准测试中,仅使用监督微调的基准模型任务成功率为9.3%,而加入VideoAgentTrek预训练后,成功率提升到15.8%,相对提升幅度达到70%。在AgentNetBench测试中,步骤准确率从64.1%提升到69.3%。特别值得注意的是,经过视频预训练的模型在给定更多操作步骤时表现出更好的"测试时扩展"能力,任务成功率从20步预算的14.13%提升到50步预算的15.78%,而未经视频预训练的模型在增加步骤后性能没有提升。
研究团队进一步分析了数据规模的影响。他们发现,随着视频预训练数据量的增加,模型性能呈现稳定的提升趋势。使用50%的数据时,AgentNetBench步骤成功率为68.1%,OSWorld-Verified任务成功率为13.3%;使用100%数据时,性能进一步提升至69.3%和15.7%。这表明更大规模的视频数据能够带来更好的性能。
VideoAgentTrek的一个重要优势是能够提供更长的操作轨迹。传统的人工标注数据集平均轨迹长度通常在5-18步之间,而VideoAgentTrek数据集的平均轨迹长度达到39.25步,其中42.1%的轨迹超过20步,14.5%包含50步或更多。这种长轨迹训练对于复杂任务的处理至关重要,它让AI模型学会了如何将复杂任务分解为子目标,在中间失败时持续尝试,并有效利用额外的计算预算进行探索和错误修正。
在技术细节方面,ScreenFilter使用YOLOv8x模型进行光标检测,在15000个合成图像上训练,F1分数达到89.58%。该工具以1-2帧每秒的速度处理视频,保留至少80%帧包含光标且持续6秒以上的片段,能够以每GPU日约840小时的效率进行大规模过滤。
Video2Action的动作事件检测模块支持多种操作类型,包括点击、拖拽、按键、滚动、打字等。在训练数据中,点击操作占主导地位(67.1%),其次是打字(13.9%)和按键(9.4%)。模型能够处理各种时长的操作,从0.5秒的快速点击到5秒的长时间打字输入。
内心独白生成使用GPT-5 Medium模型,为每个操作步骤生成4-8句的第一人称解释。这些解释包含操作意图、本地计划、预期状态变化等信息,帮助模型更好地理解操作的上下文和目的。生成过程会参考操作前后的关键帧、操作类型和参数,以及操作前后各1分钟的语音转录内容。
研究团队还对不同领域的性能进行了详细分析。在OSWorld-Verified的各个应用类别中,Chrome浏览器相关任务的改善最为显著,解决任务数从8个增加到15个;工作流程类任务从5个增加到8个;操作系统类任务也有稳定提升。这表明视频预训练在各种应用场景中都能带来实质性的性能提升。
VideoAgentTrek方法的创新之处在于首次实现了从无标注视频到结构化训练数据的自动转换。传统方法要么依赖昂贵的人工标注,要么局限于有限的模拟环境,而VideoAgentTrek能够利用互联网上丰富的教程视频资源,为计算机使用代理的训练提供了一种可扩展的替代方案。
这项研究的意义不仅在于技术突破,更在于为AI助手的实用化铺平了道路。未来,我们可能会看到更智能的AI助手,它们能够通过观看在线教程学习新的软件操作,然后帮助用户完成复杂的计算机任务。这种能力将极大地降低普通用户使用复杂软件的门槛,让更多人能够享受到数字化工具带来的便利。
说到底,VideoAgentTrek展示了一种全新的AI学习范式:通过模仿人类的学习方式,让AI从观察中学习,而不是仅仅依赖预先标注的数据。这种方法不仅更接近人类的学习过程,也为AI技术的发展开辟了更广阔的可能性。正如人类通过观察和模仿学会使用工具一样,AI也可以通过这种方式不断扩展自己的能力边界。对于普通用户而言,这意味着未来的AI助手将更加智能和实用,能够真正成为我们数字生活中的得力伙伴。
Q&A
Q1:VideoAgentTrek是什么?
A:VideoAgentTrek是香港大学和阿里巴巴团队开发的AI训练系统,它能自动从YouTube教程视频中提取电脑操作信息,让AI学会使用电脑,就像人类通过看视频学习一样。
Q2:这个系统相比传统方法有什么优势?
A:传统方法需要大量人工标注数据,成本高且规模有限。VideoAgentTrek能直接利用网上现成的教程视频,成本低廉且数据规模庞大,从39000个视频中自动提取了152万个操作步骤。
Q3:VideoAgentTrek训练的AI表现如何?
A:在标准测试中,使用VideoAgentTrek训练的AI任务成功率从9.3%提升到15.8%,步骤准确率从64.1%提升到69.3%,并且在复杂长任务上表现更加出色。
好文章,需要你的鼓励
这项由Snowflake AI Research发表的研究挑战了传统语言学对大型语言模型的批评,通过引入波兰语言学家Mańczak的理论框架,论证了LLM的成功实际上验证了"频率驱动语言"的观点。研究认为语言本质上是文本总和而非抽象系统,频率是其核心驱动力,为重新理解AI语言能力提供了新视角。
freephdlabor是耶鲁大学团队开发的开源多智能体科研自动化框架,通过创建专业化AI研究团队替代传统单一AI助手的固化工作模式。该框架实现了动态工作流程调整、无损信息传递的工作空间机制,以及人机协作的质量控制系统,能够自主完成从研究构思到论文发表的全流程科研工作,为科研民主化和效率提升提供了革命性解决方案。
德国马普智能系统研究所团队开发出专家混合模型的"即时重新布线"技术,让AI能在使用过程中动态调整专家选择策略。这种方法无需外部数据,仅通过自我分析就能优化性能,在代码生成等任务上提升显著。该技术具有即插即用特性,计算效率高,适应性强,为AI的自我进化能力提供了新思路。
Algoverse AI研究团队提出ERGO系统,通过监测AI对话时的熵值变化来检测模型困惑程度,当不确定性突然升高时自动重置对话内容。该方法在五种主流AI模型的测试中平均性能提升56.6%,显著改善了多轮对话中AI容易"迷路"的问题,为构建更可靠的AI助手提供了新思路。