微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 具有记忆力的个性化助手:解析宜远大学团队如何让机器人真正理解你的喜好

具有记忆力的个性化助手:解析宜远大学团队如何让机器人真正理解你的喜好

2025-05-30 07:45
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-30 07:45 科技行者

研究背景与团队介绍

近日,由宜远大学的Taeyoon Kwon、Dongwook Choi等研究人员,以及德克萨斯A&M大学的Kuan-Hao Huang共同完成的一项研究《Embodied Agents Meet Personalization: Exploring Memory Utilization for Personalized Assistance》引发了广泛关注。这项研究于2025年5月22日发布于arXiv预印本平台(arXiv:2505.16348v1),并正在接受同行评审。感兴趣的读者可通过项目网站https://connoriginal.github.io/MEMENTO获取更多信息。

想象一下,你家里有一个机器人助手。某天早上,你随口说:"帮我准备我喜欢的早餐吧"。一个普通的机器人可能会一脸茫然(如果机器人有脸的话),因为它不知道"你喜欢的早餐"具体是什么。但如果这个机器人有"记忆力",能记住你之前提到过的"我最喜欢的早餐是全麦吐司配草莓酱和一杯拿铁",那它就能准确地完成这项任务,而不需要你每次都详细解释。

这正是宜远大学研究团队关注的问题:如何让具身智能体(也就是能在物理世界中行动的AI,比如机器人)通过记忆来提供个性化服务。虽然近年来大语言模型(LLM)驱动的机器人在执行物品重新排列任务上取得了显著进步,但这些任务通常只关注单次互动和简单指令的执行,并不能真正反映提供有意义个性化帮助的挑战。

个性化服务的挑战

现有的机器人研究大多关注的是如何准确理解和执行"把杯子放在桌子右侧"这样的明确指令。然而,在真实世界中,我们与助手的互动往往更加个性化和隐含。我们会说"用我最喜欢的杯子",而不是"用那个蓝色的杯子";我们会要求"准备我的轻食早餐",而不是详细列出每一种食物和它们的摆放位置。

要提供真正的个性化服务,机器人需要理解用户赋予物理世界的独特语义(比如哪个是"最喜欢的杯子")和行为模式(比如"早餐习惯"是什么),并能够利用之前的互动历史来解释当前的指令。简单来说,机器人需要"记住"与用户相关的个性化知识,就像人类助手会随着时间了解雇主的偏好一样。

然而,现有的研究很少系统性地评估机器人利用记忆提供个性化服务的能力。这正是研究团队提出MEMENTO框架的初衷。

MEMENTO:个性化机器人评估框架

MEMENTO是一个专门设计用来评估机器人记忆利用能力的框架,名字本身就暗示了"记忆"的重要性。这个框架的核心思想是通过两个阶段来量化记忆对任务执行的影响:

**记忆获取阶段**:机器人执行包含个性化知识的常规物品重排任务,同时积累互动历史。例如,用户可能会说:"请把我最喜欢的蓝色杯子(这是我的咖啡杯)放在桌子上。"机器人会执行这个任务,并"记住"蓝色杯子是用户最喜欢的咖啡杯。

**记忆利用阶段**:机器人执行与记忆获取阶段相同的任务,但指令被修改得更加隐晦,必须利用之前获取的个性化知识才能成功。例如,用户可能只说:"请把我最喜欢的杯子放在桌子上。"这时,机器人需要回忆起之前的互动,意识到"最喜欢的杯子"指的是那个蓝色杯子。

这种设计允许研究人员通过比较两个阶段的性能差异来系统性地量化记忆利用对任务表现的影响。此外,为了评估不同复杂度的记忆利用,MEMENTO还设计了两种记忆利用任务:

**单一记忆任务**:需要利用一个记忆片段中的信息。 **联合记忆任务**:需要综合利用两个不同记忆片段中的信息,难度更大。

个性化知识的分类

研究团队将个性化知识分为两大类,以分析机器人理解不同类型个性化知识的能力:

**物体语义**:用户赋予个别物体的个人意义,包括所有权("我的杯子")、偏好("我最喜欢的跑步装备")、历史("我奶奶送的毕业礼物")或分组引用("我的童年玩具收藏")。这类知识测试机器人是否能通过回忆物体的个人意义来识别目标物体。

**用户模式**:用户一贯执行的行动序列,包括个人日常习惯("我的远程工作设置")和排列偏好("我的舒适晚餐氛围")。这类知识评估机器人是否能通过利用之前观察到的行为模式来重建完整的目标(包括多个物体和位置)。

数据集构建

研究团队使用Habitat 3.0模拟器和模拟的Spot机器人构建了自定义数据集,涵盖12个场景,共438个任务情景,分布在不同阶段。记忆获取阶段和记忆利用阶段的单一记忆任务各有相同数量的情景,而联合记忆任务则数量较少。

数据集构建经过了四个主要步骤:

首先,研究团队使用PartNR测试集作为基础物品重排任务数据,这些任务需要在单个指令中完成多个物体-位置对,符合MEMENTO的评估设计。

其次,为了确保机器人需要理解个性化知识才能完成任务,团队在场景中放置了干扰物体。例如,如果目标物体是桌子上的"蓝杯子",他们会在旁边放置一个"红杯子"作为干扰。

第三,团队使用GPT-4o生成个性化知识,并将其应用于两个阶段的指令设计。记忆获取阶段的指令包含基础指令、物体视觉描述和个性化知识,确保目标可以直接从指令中推断出来。记忆利用阶段则生成隐式反映个性化知识的指令,需要机器人利用记忆才能理解。

最后,为确保数据质量,团队过滤了包含相似记忆的情景,并人工审核了GPT-4o无法成功完成的情景,剔除了包含不自然指令或生成指令与预期目标不匹配的情况。

实验设置与评估指标

研究团队使用了多种大语言模型驱动的具身智能体进行评估,包括专有模型(GPT-4o、Claude-3.5-Sonnet)和开源模型(Llama-3.1-70b/8b、Qwen-2.5-72b/7b)。

评估指标主要包括:完成百分比(PC,表示目标完成的比例)、成功率(SR,表示完全任务完成)、模拟步数(完成任务所需的步数)和规划周期(任务执行过程中LLM推理调用的次数)。为评估记忆利用,团队还报告了获取和利用阶段之间的性能下降,用ΔPC和ΔSR表示。

在实现上,团队采用了一种LLM驱动的具身智能体架构,其中LLM作为高级策略规划器,从预定义的技能库中选择适当的技能。此外,团队实现了一个top-5记忆检索设置,确保相应的记忆包含在检索结果中。

实验结果与分析

**LLM驱动的机器人在理解个性化知识方面存在明显局限**

研究结果显示,即使是最先进的GPT-4o在单一记忆任务中也比记忆获取阶段的成功率下降了约10%,而其他所有模型的下降幅度超过20%。在联合记忆任务中,情况更糟,即使是GPT-4o也出现了30.5%的成功率下降,凸显了这些任务的增加难度。这一显著性能下降表明,即使是前沿模型也难以准确引用个性化知识,并在长期任务规划中一致地应用这些知识。

**联合记忆任务中机器人表现出更多的探索行为**

在联合记忆任务中,规划周期和模拟步数显著增加,这表明机器人无法正确解释指令,导致任务执行过程中过度探索。此外,完成百分比与成功率之间的差距比单一记忆任务更大,这表明机器人经常错过成功完成任务所需的部分信息。

**机器人能记住物体但难以理解行动序列**

深入分析显示,所有模型在需要理解用户模式的任务中表现出更大的性能下降,相比于物体语义任务。物体语义任务的性能下降较小,表明LLM相对有效地直接回忆相关记忆来识别目标物体。相比之下,涉及用户模式的任务带来更大挑战,因为它们需要整合和推理事件序列。

**不相关记忆对机器人产生干扰**

研究发现,随着检索记忆数量(k值)的增加,所有模型在两种任务类型上都表现出持续的性能下降,这突显了从越来越多的检索记忆中识别确切信息的难度。与之前的发现一致,这种性能下降在需要理解用户模式的任务中尤为明显,表明此类任务在回忆和执行基于隐含的个性化知识的多步骤程序时特别容易受到噪音影响。

成功与失败案例分析

为了更好地理解LLM驱动的机器人如何利用来自情景记忆的个性化知识进行任务规划,研究团队进行了定性案例研究,分析了成功和失败的情景。

**物体语义任务的成功与失败:**

成功案例中,机器人能够有效地引用来自情景记忆的个性化物体属性,正确识别并应用完成任务所需的特定信息。

然而,在失败案例中,研究团队观察到三种明显的错误模式: - 错过个性化线索:机器人未能识别需要访问个性化知识的需求 - 幻觉:机器人凭空捏造不存在的属性 - 记忆回忆失败:尽管相关信息存在于提供的上下文中,机器人仍无法定位到它

**用户模式任务的成功与失败:**

对于用户模式任务,机器人采用了两种不同的策略: - 常识推理:将记忆视为逐步推理的例子 - 直接引用:对"我常用的早餐"等独特模式进行直接引用

然而,这两种方法都引入了特定的脆弱点,导致两种常见的失败模式: - 常识推理失败:机器人尝试应用基于推理的方法但遇到无法弥补的空白,导致它们用看似合理但与已建立的个性化常规相矛盾的常识知识来代替 - 不准确回忆:机器人认识到需要个性化知识但从记忆中检索到不精确或不完整的信息

这些方法的顺序性质使其特别容易出错,因为中间步骤的错误会传播到后续动作中,解释了用户模式任务在所有模型中一致较高的失败率。

额外实验与讨论

研究团队还进行了两项额外实验,探索影响个性化具身智能体性能的因素。

**情景记忆中轨迹的影响**

MEMENTO的设计在情景记忆中包含完整的动作-观察轨迹,这引发了一个问题:机器人是否应该参考这些详细轨迹,而不仅仅依赖于用户指令。为研究这一点,团队进行了比较实验,评估了三种不同情况下的模型性能: - 完整的动作-观察轨迹(包含用户指令) - 高级计划摘要 - 仅用户指令

结果显示,虽然较大模型(GPT-4o、Qwen-2.5-72b)在只有高级计划的情况下表现良好,但较小模型(Llama-3.1-8b、Qwen-2.5-7b)需要完整轨迹中的程序细节才能成功。最显著的是,所有模型在只给予用户指令的情况下都表现出显著性能下降,这表明动作轨迹包含理解个性化知识所需的基本程序线索,无论模型容量如何。

**用户模糊指令下的机器人行为**

虽然MEMENTO专注于评估带有对先前互动明确引用的个性化知识基础,但现实世界中的人机沟通通常涉及模糊或间接的引用。为探索这一挑战,团队进行了概念验证实验,评估当前模型是否能解释间接引用先前遇到的个性化知识的模糊指令。

团队创建了一组任务,使用上下文线索、同义词或因果引用来引用个性化知识(例如,"你能设置我的下午茶时间常规吗?"→"我要享用下午茶了。你能按我喜欢的方式设置一下吗?")。

结果显示性能显著下降,表明处理模糊查询仍然是未来个性化具身智能体的关键挑战。研究团队将这视为未来工作的一个有前途的方向。

结论与未来展望

这项研究首次系统性地评估了大语言模型驱动的具身智能体利用记忆提供个性化服务的能力。研究结果揭示了即使是最先进的模型在有效利用个性化知识方面也存在显著局限,特别是在整合多个记忆和解释用户模式时。

对于普通人来说,这项研究的意义在于,它让我们更清楚地认识到当前智能助手的局限性,以及未来个性化服务的发展方向。随着技术进步,我们可以期待未来的智能助手能更好地"记住"我们的偏好和习惯,提供真正个性化的帮助,而不需要我们不断重复相同的指令。

研究团队希望MEMENTO能作为未来研究的基石,推动更有效的个性化具身智能体的发展。最终目标是创造能够真正理解和适应个人用户需求的智能助手,使人机交互更加自然和高效。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-