微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 微软Phi-Ground:让AI助手真正看懂电脑屏幕的突破性技术

微软Phi-Ground:让AI助手真正看懂电脑屏幕的突破性技术

2025-08-06 11:12
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-06 11:12 科技行者

这项由微软研究院的张苗森、徐子强、朱家良等十一位研究者团队完成的突破性研究发表于2025年1月31日,论文标题为《Phi-Ground Tech Report: Advancing Perception in GUI Grounding》。有兴趣深入了解的读者可以通过arXiv:2507.23779v1访问完整论文。这项研究解决了一个看似简单但实际极其复杂的问题:如何让AI助手像人类一样准确地在电脑屏幕上找到并点击正确的按钮。

想象一下,你有一个非常聪明的朋友,他能理解你说的每一句话,也知道该如何完成各种电脑任务,但有一个致命缺陷——他是个"色盲",看不清屏幕上密密麻麻的按钮到底哪个是哪个。这正是当前AI助手面临的核心问题。虽然它们在理解人类指令方面已经相当出色,但在"看懂"电脑界面这件事上,表现却差强人意。

研究团队发现,目前最先进的AI模型在一些具有挑战性的测试中,准确率还不到65%。这意味着每三次操作就有一次以上会出错,这样的错误率显然无法满足日常使用需求。更糟糕的是,AI的错误往往不是随机的胡乱点击,而是会精确地点击到一些看起来"合理"但实际错误的地方,这可能导致更严重的后果,比如误删重要文件或关闭未保存的工作。

为了解决这个问题,微软团队深入研究了AI"视觉定位"的方方面面。他们没有简单地训练一个"万能"模型,而是采用了一种类似"专业分工"的策略。就像一个高效的工厂流水线,他们将复杂的任务分解为两个专门的环节:首先让一个"规划师"AI负责理解用户意图并生成详细的操作描述,然后让另一个专门的"定位师"AI根据这些描述在屏幕上找到准确的点击位置。

这种分工策略带来了显著的效果提升。在他们最严格的测试中,新模型在ScreenSpot-pro基准测试上达到了55.0分的准确率,在UI-Vision测试中达到了36.2分,这些成绩都创下了同类模型的最佳记录。更重要的是,这些改进不仅仅是数字上的提升,而是实实在在地让AI助手在日常使用中变得更加可靠。

研究团队还发现了许多有趣的技术细节。比如,他们意外地发现,给AI输入信息的顺序竟然会显著影响其表现。当他们先给AI看文字指令,再给它看屏幕图像时,AI的表现明显优于相反的顺序。这就像人类阅读理解一样,当我们先知道要找什么,再去看图片时,往往能更快更准确地找到目标。

另一个重要发现是关于训练数据的分布。团队发现,不同来源的数据有着截然不同的"习惯"。网页抓取的数据几乎没有右侧按钮,因为网页设计通常把重要功能放在左侧;而桌面应用的数据分布则更加均匀。这种差异如果不加处理,会让AI产生偏见,在某些场景下表现不佳。为了解决这个问题,研究团队开发了专门的数据重新采样算法,确保AI能在各种界面布局下都保持稳定的表现。

在训练过程中,团队尝试了许多看似合理但实际效果有限的技术。例如,他们原本以为将坐标表示为特殊的数字符号会更精确,就像给每个位置一个专门的"地址编码"。但实验结果显示,这种做法反而会让模型训练变得不稳定。最终,他们发现最简单直接的方法——用普通文字描述坐标位置——反而效果最好。这个发现提醒我们,在AI技术发展中,复杂并不总是意味着更好。

团队还深入研究了数据增强技术的效果。在传统的计算机视觉任务中,随机裁剪和缩放图像是常用的提升模型性能的手段。但在GUI定位这个特殊场景中,这些技术的效果并不明显,只有在处理高分辨率屏幕时才显示出一些优势。这说明GUI定位任务有其独特性,不能简单套用其他视觉任务的经验。

在模型规模和计算效率的平衡方面,研究团队提出了一个重要观点:在比较不同模型时,不应该只看参数数量,还要考虑实际推理时的计算成本。他们发现,图像分辨率对模型性能有重要影响,但也会显著增加计算量。通过综合考虑性能和效率,他们为不同应用场景找到了最优的模型配置方案。

为了验证模型的实际效果,研究团队在五个不同的测试集上进行了全面评估。这些测试集涵盖了手机应用、桌面软件、网页等各种场景,确保模型在真实使用环境中的可靠性。结果显示,Phi-Ground模型在所有测试中都达到了业界领先水平,特别是在需要专业软件操作的高难度场景中表现尤为出色。

在错误分析方面,团队进行了详细的案例研究。他们发现,当前模型的错误主要来自几个方面:缺乏空间推理能力、在复杂界面中容易混淆相似元素、以及在处理非英语界面时的局限性。通过分析这些错误模式,团队为未来的改进指明了方向。

这项研究的意义远超技术本身。随着AI助手越来越多地进入我们的日常生活,它们能否准确理解和操作我们的数字界面,直接关系到用户体验和工作效率。微软的这项突破为构建真正实用的AI助手奠定了重要基础,让我们离拥有一个能够熟练操作电脑的AI伙伴又近了一步。

当然,这项技术的发展也带来了一些需要思考的问题。研究团队坦诚地指出,AI助手在操作电脑时可能会执行一些不可逆的危险操作,如删除重要文件。此外,为了实现精确操作,AI助手可能需要截取用户的屏幕内容,这涉及隐私保护问题。这些挑战需要在技术进步的同时得到妥善解决。

展望未来,这项研究不仅推动了GUI定位技术的发展,也为其他多模态感知任务提供了宝贵经验。随着技术的不断完善,我们有理由期待更加智能、可靠的AI助手将真正融入我们的数字生活,成为提升工作和生活效率的得力助手。

Q&A

Q1:Phi-Ground模型是什么?它解决了什么问题?

A:Phi-Ground是微软开发的一个AI模型,专门解决让AI助手准确在电脑屏幕上找到并点击正确按钮的问题。目前的AI助手虽然能理解指令,但在"看懂"电脑界面方面表现不佳,准确率不到65%,Phi-Ground通过专门的训练大幅提升了这一能力。

Q2:这个技术是如何工作的?

A:Phi-Ground采用两阶段策略:先用一个"规划师"AI理解用户意图并生成详细操作描述,再用专门的"定位师"AI根据描述在屏幕上找到准确位置。这种分工协作的方式比单一模型处理所有任务更加高效准确。

Q3:这项技术什么时候能在日常生活中使用?

A:虽然Phi-Ground在测试中表现出色,但研究团队指出仍需解决一些挑战,包括防止AI执行危险操作和保护用户隐私等问题。目前这项技术更多还是为未来更智能的AI助手奠定基础,距离大规模日常应用还需要一定时间。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-