近日,一项由斯坦福大学Omar Shaikh、Shardul Sapkota、Joon Sung Park、Diyi Yang和Michael S. Bernstein,微软研究院Eric Horvitz,以及独立研究者Shan Rizvi共同完成的研究在计算机人机交互领域引起了广泛关注。这项研究名为"Creating General User Models from Computer Use"(从计算机使用中创建通用用户模型),发表于2025年5月的arXiv预印本(arXiv:2505.10831v2),提出了一种全新的人机交互方式,让计算机能够通过观察用户的日常使用行为,逐渐学习并理解用户的习惯、偏好和需求。
人机交互领域长期以来都有一个美好的愿景:让技术真正理解我们是谁、我们在做什么,以及什么对我们有帮助。早在1991年,马克·韦瑟(Mark Weiser)在他著名的论文《21世纪的计算机》中描绘了一个能够感知用户即将醒来并主动提供咖啡的闹钟。同样,苹果公司1987年展示的"知识导航员"(Knowledge Navigator)概念视频中,计算机能够在用户思考问题时查找有用的支持信息,并在用户专注工作时阻挡不必要的电话。这些愿景描绘了一种了解用户足够多、能够在恰当时机做出恰当事情的技术。
然而,尽管在用户建模、推荐系统和情境感知系统方面取得了进展,但这些愿景在今天仍然遥不可及。当前的用户模型过于狭窄,它们可能了解我们的音乐偏好,或者我们在单个应用程序内的工具使用情况,或者我们可能会观看的下一个电视节目。即使是跨多个应用程序整合数据的用户模型,整合也仅停留在表面层次;用户模型无法在新环境中推理或做出推断。
我们对技术的愿景需要广泛的用户模型,能够推理从我们的一般偏好到我们当前的信息需求的一切,并能够跨上下文应用这些见解,从工作相关任务到休闲活动。今天的应用程序之所以失败,是因为它们对用户的了解非常有限:韦瑟的无处不在计算愿景需要能够推理家庭、朋友和工作的模型——而不仅仅是一个应用程序,也不仅仅通过一维信号。
斯坦福大学的研究团队提出了通用用户模型(General User Model,简称GUM)的架构:这是一种计算模型,可以跨领域和时间尺度具象化有关用户的信息和推断。GUM允许用户通过将非结构化观察(例如,屏幕共享)输入到利用大型多模态模型(如视觉和语言模型,即VLM)的推理架构中,构建用户自己行为、知识、信念和偏好的私人计算表示。
这个架构贡献了三个主要元素:Propose(提议)模块将非结构化观察转化为关于用户偏好、上下文和意图的带有置信度权重的命题。Retrieve(检索)模块对这些命题进行索引和搜索,以返回给定查询的最相关子集。最后,使用Retrieve的结果,Revise(修订)模块会在新观察到来时重新评估和优化命题。团队还使用情境完整性(contextual integrity)的Audit(审计)模块对所有观察进行审计,以防止隐私侵犯。该模块利用GUM本身来估计和过滤掉用户预期不会记录到GUM中的信息。所有数据都安全地保存在用户的设备上,在具备条件的硬件上支持本地推理。
操作系统、应用程序或用户本身可以实时查询GUM,实现类似于人机交互基础研究中设想的广泛应用。作为GUM的一部分,研究团队引入了一个接口,使应用程序能够查询GUM的底层命题。GUM看到的任何非结构化观察都可以被调用来驱动交互式应用程序。无论互动如何,用户都能直接和本地控制GUM的底层命题,允许编辑、删除或添加。
在最简单的层面上,GUM可以插入信息以在应用程序和用户之间建立共同基础:例如,在提示像ChatGPT这样的语言模型时自动添加相关上下文。有了GUM,任何LLM现在都可以直接引用你几分钟前正在阅读的研究论文,当你询问其方法论时,无需你明确引用或总结论文内容。除了提示LLM外,任何应用程序都可以直接查询GUM来调整其体验,实现长期以来人机交互的愿景。例如,使用GUM增强的操作系统可以在会议期间只优先处理真正相关的通知——在抑制食谱邮件的同时显示迫在眉睫的会议注册截止日期。连接到GUM的电子邮件客户端可以根据观察到的用户优先级自动对消息进行排序,而无需额外的特定应用程序训练。
GUM还使能创建全新类别的主动交互系统。研究团队通过一个名为Gumbo的助手来展示这一点,该助手通过连续私密捕获用户计算机屏幕的截图来学习GUM。使用GUM,Gumbo不断发现根据用户的上下文,哪些建议会有所帮助。此外,Gumbo使用底层GUM来确定是否以及何时干预并执行建议可能有用。通过调用用户的上下文,Gumbo可以主动发现一系列有用的建议并适当过滤重要的建议。
对于本论文的第一作者,Gumbo在观察到他朋友的婚礼邀请后,主动找到了一个可以租西装的地方(考虑到作者的预算)。Gumbo还在开发过程中发现并提出了系统本身的漏洞修复方案;并根据与合作者的互动提出了对本论文的潜在修改建议。对于评估中的参与者,Gumbo构思了将新的理论框架整合到正在进行的研究中的方法,创建了针对跨国搬迁的高度个性化的搬家计划,并帮助组织来自分散通信的电子邮件存档——所有这些都是主动的,仅基于对用户的观察。
在技术评估中,研究团队首先关注验证GUM的准确性。他们在最近的电子邮件互动上训练GUM,将每封电子邮件(元数据、附件、链接和回复)按顺序输入到GUM中。18名参与者评判由GUM生成的命题总体上准确且校准良好:在不正确时不自信,在正确时自信。高置信度命题(置信度=10)被评为100%准确,而平均而言,所有命题(包括低置信度的命题)都相当准确(76.15%)。从消融研究来看,所有GUM组件对准确性都至关重要。然后,他们部署Gumbo与5名参与者一起使用了5天,系统观察参与者的屏幕。这种纵向评估重现了底层GUM的结果。此外,参与者确定了Gumbo完成的大量有用且执行良好的建议。五名参与者中有两名在研究结束后特别看重该系统,并要求继续在他们的计算机上运行。评估还突出了GUM和Gumbo的局限性和边界条件,包括隐私考虑和过于坦率的命题。
总结来说,这项研究贡献了通用用户模型(GUMs):用户行为、知识、信念和偏好的计算表示,从对用户的非结构化观察中构建。研究团队展示了GUM的实现,一个允许应用程序查询GUM的接口,一个名为Gumbo的示例助手应用程序,通过非结构化电子邮件互动进行的技术评估,通过非结构化屏幕捕获进行的纵向评估,以及对这类应用程序的规范和含义的反思。
这项研究向我们展示了一个令人兴奋的未来,在这个未来中,计算机系统可以通过观察我们的日常工作方式,真正理解我们是谁、我们在做什么以及什么对我们有帮助,从而提供无缝、智能的支持,实现人机交互领域长久以来的愿景。
好文章,需要你的鼓励
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。
浙江大学研究团队通过OmniEAR基准测试揭示了当前AI模型在物理世界推理方面的严重缺陷。测试显示,即使最先进的AI在明确指令下能达到85-96%成功率,但面对需要从物理约束推断行动的任务时,成功率骤降至56-85%。研究发现信息过载反而降低AI协作能力,监督学习虽能改善单体任务但对多智能体协作效果甚微,表明当前架构存在根本局限性。
纽约大学和Aimpoint Digital Labs的研究团队首次揭示了Transformer模型训练中"大规模激活"的完整发展轨迹。这些影响力比普通激活大千倍的"超级激活"遵循可预测的数学规律,研究者开发出五参数公式能以98.4%准确率预测其变化。更重要的是,通过调整模型架构参数如注意力密度、宽深比等,可以在训练前就预测和控制这些关键激活的行为,为设计更高效、量化友好的AI模型提供了全新工具。