近日,一项由斯坦福大学Omar Shaikh、Shardul Sapkota、Joon Sung Park、Diyi Yang和Michael S. Bernstein,微软研究院Eric Horvitz,以及独立研究者Shan Rizvi共同完成的研究在计算机人机交互领域引起了广泛关注。这项研究名为"Creating General User Models from Computer Use"(从计算机使用中创建通用用户模型),发表于2025年5月的arXiv预印本(arXiv:2505.10831v2),提出了一种全新的人机交互方式,让计算机能够通过观察用户的日常使用行为,逐渐学习并理解用户的习惯、偏好和需求。
人机交互领域长期以来都有一个美好的愿景:让技术真正理解我们是谁、我们在做什么,以及什么对我们有帮助。早在1991年,马克·韦瑟(Mark Weiser)在他著名的论文《21世纪的计算机》中描绘了一个能够感知用户即将醒来并主动提供咖啡的闹钟。同样,苹果公司1987年展示的"知识导航员"(Knowledge Navigator)概念视频中,计算机能够在用户思考问题时查找有用的支持信息,并在用户专注工作时阻挡不必要的电话。这些愿景描绘了一种了解用户足够多、能够在恰当时机做出恰当事情的技术。
然而,尽管在用户建模、推荐系统和情境感知系统方面取得了进展,但这些愿景在今天仍然遥不可及。当前的用户模型过于狭窄,它们可能了解我们的音乐偏好,或者我们在单个应用程序内的工具使用情况,或者我们可能会观看的下一个电视节目。即使是跨多个应用程序整合数据的用户模型,整合也仅停留在表面层次;用户模型无法在新环境中推理或做出推断。
我们对技术的愿景需要广泛的用户模型,能够推理从我们的一般偏好到我们当前的信息需求的一切,并能够跨上下文应用这些见解,从工作相关任务到休闲活动。今天的应用程序之所以失败,是因为它们对用户的了解非常有限:韦瑟的无处不在计算愿景需要能够推理家庭、朋友和工作的模型——而不仅仅是一个应用程序,也不仅仅通过一维信号。
斯坦福大学的研究团队提出了通用用户模型(General User Model,简称GUM)的架构:这是一种计算模型,可以跨领域和时间尺度具象化有关用户的信息和推断。GUM允许用户通过将非结构化观察(例如,屏幕共享)输入到利用大型多模态模型(如视觉和语言模型,即VLM)的推理架构中,构建用户自己行为、知识、信念和偏好的私人计算表示。
这个架构贡献了三个主要元素:Propose(提议)模块将非结构化观察转化为关于用户偏好、上下文和意图的带有置信度权重的命题。Retrieve(检索)模块对这些命题进行索引和搜索,以返回给定查询的最相关子集。最后,使用Retrieve的结果,Revise(修订)模块会在新观察到来时重新评估和优化命题。团队还使用情境完整性(contextual integrity)的Audit(审计)模块对所有观察进行审计,以防止隐私侵犯。该模块利用GUM本身来估计和过滤掉用户预期不会记录到GUM中的信息。所有数据都安全地保存在用户的设备上,在具备条件的硬件上支持本地推理。
操作系统、应用程序或用户本身可以实时查询GUM,实现类似于人机交互基础研究中设想的广泛应用。作为GUM的一部分,研究团队引入了一个接口,使应用程序能够查询GUM的底层命题。GUM看到的任何非结构化观察都可以被调用来驱动交互式应用程序。无论互动如何,用户都能直接和本地控制GUM的底层命题,允许编辑、删除或添加。
在最简单的层面上,GUM可以插入信息以在应用程序和用户之间建立共同基础:例如,在提示像ChatGPT这样的语言模型时自动添加相关上下文。有了GUM,任何LLM现在都可以直接引用你几分钟前正在阅读的研究论文,当你询问其方法论时,无需你明确引用或总结论文内容。除了提示LLM外,任何应用程序都可以直接查询GUM来调整其体验,实现长期以来人机交互的愿景。例如,使用GUM增强的操作系统可以在会议期间只优先处理真正相关的通知——在抑制食谱邮件的同时显示迫在眉睫的会议注册截止日期。连接到GUM的电子邮件客户端可以根据观察到的用户优先级自动对消息进行排序,而无需额外的特定应用程序训练。
GUM还使能创建全新类别的主动交互系统。研究团队通过一个名为Gumbo的助手来展示这一点,该助手通过连续私密捕获用户计算机屏幕的截图来学习GUM。使用GUM,Gumbo不断发现根据用户的上下文,哪些建议会有所帮助。此外,Gumbo使用底层GUM来确定是否以及何时干预并执行建议可能有用。通过调用用户的上下文,Gumbo可以主动发现一系列有用的建议并适当过滤重要的建议。
对于本论文的第一作者,Gumbo在观察到他朋友的婚礼邀请后,主动找到了一个可以租西装的地方(考虑到作者的预算)。Gumbo还在开发过程中发现并提出了系统本身的漏洞修复方案;并根据与合作者的互动提出了对本论文的潜在修改建议。对于评估中的参与者,Gumbo构思了将新的理论框架整合到正在进行的研究中的方法,创建了针对跨国搬迁的高度个性化的搬家计划,并帮助组织来自分散通信的电子邮件存档——所有这些都是主动的,仅基于对用户的观察。
在技术评估中,研究团队首先关注验证GUM的准确性。他们在最近的电子邮件互动上训练GUM,将每封电子邮件(元数据、附件、链接和回复)按顺序输入到GUM中。18名参与者评判由GUM生成的命题总体上准确且校准良好:在不正确时不自信,在正确时自信。高置信度命题(置信度=10)被评为100%准确,而平均而言,所有命题(包括低置信度的命题)都相当准确(76.15%)。从消融研究来看,所有GUM组件对准确性都至关重要。然后,他们部署Gumbo与5名参与者一起使用了5天,系统观察参与者的屏幕。这种纵向评估重现了底层GUM的结果。此外,参与者确定了Gumbo完成的大量有用且执行良好的建议。五名参与者中有两名在研究结束后特别看重该系统,并要求继续在他们的计算机上运行。评估还突出了GUM和Gumbo的局限性和边界条件,包括隐私考虑和过于坦率的命题。
总结来说,这项研究贡献了通用用户模型(GUMs):用户行为、知识、信念和偏好的计算表示,从对用户的非结构化观察中构建。研究团队展示了GUM的实现,一个允许应用程序查询GUM的接口,一个名为Gumbo的示例助手应用程序,通过非结构化电子邮件互动进行的技术评估,通过非结构化屏幕捕获进行的纵向评估,以及对这类应用程序的规范和含义的反思。
这项研究向我们展示了一个令人兴奋的未来,在这个未来中,计算机系统可以通过观察我们的日常工作方式,真正理解我们是谁、我们在做什么以及什么对我们有帮助,从而提供无缝、智能的支持,实现人机交互领域长久以来的愿景。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。