微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 个性化AI助手如何像了解老朋友一样读懂你的需求?延世大学团队揭开搜索增强型语言模型的个性化秘密

个性化AI助手如何像了解老朋友一样读懂你的需求?延世大学团队揭开搜索增强型语言模型的个性化秘密

2025-10-17 10:58
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-17 10:58 科技行者

这项由延世大学的金铉瑞、李相岩、徐光旭和李东河团队完成的研究发表于2025年9月,论文编号为arXiv:2509.21106v1,有兴趣深入了解的读者可以通过这个编号查询完整论文。

想象一下,两个人同时问AI助手"电动汽车和混合动力汽车有什么区别",一个是环保主义者,另一个是汽车性能爱好者。虽然问的是同一个问题,但他们真正想了解的内容其实完全不同。环保主义者可能更关心环境影响,而性能爱好者则更在意动力表现。可现在的AI助手往往给出千篇一律的标准答案,就像一个不了解你的陌生人在机械地回答问题。

这就是延世大学研究团队想要解决的核心问题:如何让AI助手像一个了解你很久的老朋友一样,能够根据你的背景、兴趣和偏好来定制回答。他们开发了一个名为BESPOKE的全新评估基准,这个名字本身就很有意思,BESPOKE在英文中意味着"量身定制",正如高级裁缝为每位客户量身订做西装一样。

传统的搜索增强型大语言模型虽然能够通过检索相关信息来生成回答,大大减轻了用户筛选信息的负担,但它们仍然无法真正理解不同用户背后的真实需求。就像一个优秀的医生不仅要知道病症,还要了解患者的生活习惯、工作环境和个人偏好一样,一个真正智能的AI助手也需要理解用户的个人背景和偏好。

为了创建这个评估基准,研究团队采用了一种前所未有的方法:他们请30位来自不同行业背景的志愿者在三周时间里正常使用谷歌搜索和Gemini聊天功能,就像平常生活一样。这些志愿者涵盖了各行各业,从科研人员到媒体制作人,从学生到企业员工,确保了样本的多样性。这种做法就像是在观察一群不同的人如何在日常生活中与信息互动,而不是在实验室里创造人工场景。

在这三周里,研究团队收集了2870个真实的用户历史会话,包括2153个搜索会话和717个聊天会话。每个用户平均贡献了95.67个会话,这些数据就像是每个人的数字足迹,记录着他们的兴趣、偏好和思维方式。更重要的是,研究团队还让这些志愿者针对自己的查询撰写详细的信息需求说明,并对AI生成的回答进行评分和反馈。

一、个性化AI助手面临的现实挑战

当前的AI助手面临着一个根本性问题:它们缺乏对用户个性化需求的深度理解。就像一个刚入职的客服代表,虽然掌握了标准的回答模板,但无法根据不同客户的具体情况调整服务方式。

考虑这样一个场景:一位AI研究员和一位媒体制作人都问了同一个问题"社交媒体如何影响人们的生活"。AI研究员可能更关心算法机制、推荐系统的技术细节以及人工智能在其中的作用,而媒体制作人则更想了解社会文化现象、家庭关系变化以及新兴职业的出现。然而,现有的AI系统往往会给出同样的通用回答,无法捕捉到这种细微但重要的差别。

这种问题的根源在于现有系统缺乏对用户历史行为的深度分析能力。虽然ChatGPT和Gemini等系统已经开始尝试利用用户的聊天和搜索历史来个性化回答,但缺乏系统性的评估方法来衡量这种个性化的效果如何,更不用说诊断具体哪些方面做得好,哪些方面还需要改进。

研究团队发现,真正的个性化需要解决两个层面的问题。第一个层面是内容理解,也就是AI助手需要准确识别用户查询背后的真实意图。第二个层面是表达适配,也就是AI助手需要用符合用户偏好的方式来组织和呈现信息。比如,有些人喜欢详细的技术解释,有些人偏爱简洁的要点总结,有些人希望看到具体的数据支撑,而有些人更喜欢生动的案例说明。

二、BESPOKE评估基准的创新设计

BESPOKE评估基准的设计理念就像是为AI助手设计一套全面的个性化能力测试。与传统的评估方法不同,BESPOKE不是在实验室环境中创造人工测试场景,而是基于真实用户的真实行为数据。

整个数据收集过程可以分为三个阶段。第一阶段是历史收集阶段,30位志愿者在三周时间里自然地使用谷歌搜索和Gemini进行日常的信息查询和对话。这个过程就像是让每个人正常生活,而研究团队在后台静静地记录他们的数字行为模式。

第二阶段是查询标注阶段,每位志愿者需要基于自己的历史行为提出5个测试查询,涵盖分析、指导、推荐和解释四种不同的任务类型。更关键的是,他们需要为每个查询撰写详细的"黄金信息需求"说明,明确描述自己真正想要了解的内容、背景和期望的回答方式。这就像是给AI助手写一份详细的需求说明书。

第三阶段是评估标注阶段,志愿者需要对AI系统生成的回答进行详细评估。这种评估不仅仅是简单的好坏评分,而是从四个维度进行精细化评估:需求对齐度、内容深度、语调风格和解释方式。每个维度都使用1到5分的评分标准,同时还要提供详细的文字反馈说明。

这种设计的巧妙之处在于它创造了一个完整的个性化评估闭环。从用户的真实历史行为到具体的信息需求,再到对回答质量的详细反馈,每一个环节都是基于真实的用户体验,而不是研究人员的主观假设。

三、四个维度的个性化评估体系

BESPOKE的评估体系就像是一个全方位的体检系统,从四个不同的角度来诊断AI助手的个性化能力。这四个维度分别对应了个性化服务的不同层面。

需求对齐度评估的是AI助手是否真正理解了用户查询背后的真实意图。这就像是一个好的医生不仅要听懂患者说的症状,还要理解患者真正担心的问题。比如,当用户问"数字素养的重要性"时,一个教育工作者可能想要了解如何在课堂中培养学生的数字技能,而一个企业管理者可能更关心员工数字技能对企业竞争力的影响。

内容深度评估的是AI助手提供的信息是否符合用户的知识水平和详细程度需求。有些用户喜欢深入的技术细节,有些用户只需要概括性的要点,有些用户希望看到具体的操作步骤,而有些用户更喜欢理论框架的解释。这就像是一个优秀的老师能够根据学生的水平调整授课深度。

语调风格评估的是AI助手的表达方式是否符合用户的偏好。有些用户喜欢正式的学术语调,有些用户偏爱轻松友好的对话风格,有些用户希望简洁直接,而有些用户喜欢详细的论述。这就像是一个好的销售人员能够根据客户的性格调整沟通方式。

解释方式评估的是AI助手组织和呈现信息的结构是否符合用户的学习习惯。有些用户喜欢条理清晰的要点列表,有些用户偏爱故事化的叙述,有些用户希望看到图表和数据,而有些用户更喜欢类比和例子。这就像是一个好的培训师能够用最适合学员的方式来传授知识。

每个维度的评分不仅有数字分数,更重要的是有详细的文字反馈。这些反馈就像是一面镜子,能够清晰地告诉AI系统哪些地方做得好,哪些地方需要改进,以及具体应该如何改进。

四、用户历史信息的智能利用

在BESPOKE的研究中,如何有效利用用户的历史信息成为了个性化效果的关键因素。研究团队发现,不是所有的历史信息都对个性化有帮助,关键在于如何智能地筛选和组织这些信息。

用户历史信息包括两个主要部分:搜索历史和聊天历史。搜索历史反映了用户主动寻找信息的偏好和兴趣方向,而聊天历史则展现了用户与AI系统交互的风格和深度偏好。就像是一个好朋友既知道你平时关注什么话题,也了解你喜欢什么样的交流方式。

研究团队测试了四种不同的历史信息利用方式。第一种是完全不使用历史信息,AI助手就像一个完全陌生的人回答问题。第二种是使用固定的用户画像,AI助手基于用户的整体历史行为形成一个静态的用户印象。第三种是查询感知的动态画像,AI助手会根据当前查询的主题来筛选相关的历史信息。第四种是进一步的智能筛选,不仅考虑主题相关性,还会评估历史信息的质量和时效性。

实验结果显示,最有效的方式是查询感知的智能筛选方法。这就像是一个经验丰富的顾问,不仅知道客户的整体偏好,还能根据当前的具体需求调取最相关的背景信息。比如,当用户询问工作相关的问题时,系统会优先考虑用户的职业背景和专业兴趣,而当用户询问生活相关的问题时,系统会更多地参考用户的个人兴趣和生活方式。

另一个重要发现是用户上下文的表现形式也很关键。简单地将历史信息原样提供给AI系统效果并不好,就像是给医生一堆杂乱的病历记录。更好的方式是将历史信息整理成结构化的用户画像,明确标示出用户的兴趣偏好、专业背景、表达习惯等关键特征。

五、实验结果揭示的个性化现状

研究团队对六个主流的搜索增强型AI系统进行了全面测试,包括GPT-4o、o3、Gemini-2.5-Flash、Gemini-2.5-Pro、Perplexity-sonar和Perplexity-sonar-reasoning。测试结果就像是给这些AI助手进行了一次全面的个性化能力体检。

最直观的发现是,所有测试的AI系统在个性化方面都还有很大的提升空间,即使是表现最好的系统,平均得分也只有60多分(满分100分)。这就像是一个学习成绩中等的学生,有进步的基础,但距离优秀还有不小的差距。

在四个评估维度中,语调风格的得分相对较高,大多数系统都能达到75-85分的水平。这说明当前的AI系统在保持中性、友好的交流语调方面做得比较好。然而,在需求对齐度和内容深度方面,所有系统的表现都比较一般,得分大多在45-60分之间。这意味着AI系统在理解用户真实需求和提供恰当深度的内容方面还需要大幅改进。

更有趣的发现是关于用户历史信息的利用效果。当AI系统能够访问和利用用户历史信息时,个性化效果确实有显著提升,但提升幅度因系统而异。具有推理能力的AI系统(如o3-search和Perplexity-sonar-reasoning)在利用历史信息方面表现更好,这就像是聪明的学生能够更好地从过往经验中学习。

研究团队还发现了一个重要的限制因素:网络搜索质量对个性化效果有很大影响。当研究人员用高质量的预设信息替换AI系统自己搜索的结果时,个性化效果有了明显提升。这说明当前AI系统的个性化能力不仅受限于对用户需求的理解,也受限于获取相关信息的能力。

六、诊断性反馈的价值与应用

BESPOKE最独特的贡献之一是提供了详细的诊断性反馈,这就像是给AI系统配备了一位经验丰富的私人教练,不仅能指出问题所在,还能提供具体的改进建议。

传统的评估方法通常只给出简单的好坏评分,就像考试只告诉你得了多少分,但不告诉你哪道题错了,为什么错了。而BESPOKE的诊断反馈系统会详细说明AI回答的优点和不足,以及具体的改进方向。

比如,在一个关于平衡饮食的查询中,当AI系统提供了过于宽泛的营养建议时,诊断反馈会指出:"回答过于关注宏量营养素而缺乏具体的食物建议,没有考虑到用户的健身背景,建议提供更多实际的食谱和时间安排建议。"这种反馈不仅指出了问题,还提供了改进的具体方向。

这种诊断性反馈在实际应用中显示出了巨大价值。研究团队通过对比分析发现,使用诊断反馈的评估系统与人类评估者的一致性达到了85%以上,远高于不使用反馈的传统评估方法。这说明详细的反馈信息确实能够帮助更准确地评估个性化质量。

更重要的是,这种反馈还可以用来训练更好的个性化AI系统。就像是一个学生通过详细的错题分析来改进学习方法一样,AI系统也可以通过这些反馈来调整自己的回答策略。研究团队发现,那些能够有效利用反馈信息的AI系统在后续的个性化任务中表现明显更好。

七、历史信息检索的技术挑战

在个性化AI助手的实现过程中,如何从大量的用户历史信息中快速准确地找到相关内容是一个重要的技术挑战。这就像是在一个巨大的图书馆中,如何快速找到与当前问题最相关的书籍。

传统的检索方法主要依赖于表面的词汇匹配,这种方法在处理个性化需求时显得力不从心。比如,当用户询问"游戏推荐"时,系统可能无法理解用户之前搜索"GeForce Now"、"云游戏"或"Mac游戏"等内容其实都与当前查询相关,因为这些搜索反映了用户的设备限制和游戏平台偏好。

研究团队提出了两种改进的检索策略。第一种是思维链扩展,让AI系统先分析当前查询可能涉及的各个方面,然后基于这种分析来搜索相关的历史信息。第二种是伪历史扩展,让AI系统生成一些可能出现在用户历史中的相关查询,然后用这些虚拟查询来改进检索效果。

实验结果显示,这两种方法都能显著提升历史信息检索的准确性。使用思维链扩展的方法,检索准确性从8.2%提升到了38.1%,这是一个巨大的改进。这种提升就像是给图书管理员配备了更好的索引系统,能够更快地找到读者需要的资料。

这个发现对于实际的AI系统开发有重要意义。它表明,仅仅收集用户历史信息是不够的,如何智能地利用这些信息才是关键。未来的个性化AI系统需要更复杂的信息理解和关联能力,才能真正发挥历史信息的价值。

八、网络搜索质量对个性化的影响

研究团队的一个重要发现是网络搜索质量对个性化效果的显著影响。这个发现揭示了当前个性化AI系统面临的一个根本性挑战:即使完美理解了用户需求,如果无法获得高质量的相关信息,个性化效果仍然会大打折扣。

为了验证这个假设,研究团队设计了一个对比实验。他们用预先准备的高质量信息替换了AI系统通过网络搜索获得的信息,然后比较个性化效果的变化。结果显示,当使用高质量信息时,所有AI系统的个性化表现都有了显著提升,特别是在需求对齐度和内容深度这两个维度上。

这种提升的幅度因AI系统的类型而有所不同。具有强推理能力的系统(如o3-search)能够更好地利用高质量信息来生成个性化回答,提升幅度更大。而一些较为基础的系统虽然也有改进,但提升幅度相对有限。这就像是给不同水平的厨师提供同样的优质食材,技艺高超的厨师能够做出更美味的菜肴。

这个发现对AI系统的设计有重要启示。它表明,个性化能力的提升不仅需要更好的用户理解算法,也需要更强的信息获取和处理能力。一个真正优秀的个性化AI助手需要在多个层面都表现出色:理解用户需求、获取相关信息、整合信息内容,以及用合适的方式表达。

同时,这个发现也解释了为什么当前的个性化AI系统普遍表现不够理想。在真实的网络环境中,AI系统经常会遇到信息质量参差不齐、相关性不高或者过于分散的问题。如何在这种复杂环境中维持高质量的个性化服务,仍然是一个需要持续解决的技术挑战。

研究团队通过BESPOKE这个全新的评估基准,不仅揭示了当前个性化AI系统的现状和问题,更重要的是为这个领域的发展提供了一个科学的评估工具和改进方向。就像医学诊断工具的发展推动了医疗技术的进步一样,BESPOKE也有望推动个性化AI技术的快速发展。

说到底,这项研究告诉我们,创造真正理解用户的AI助手不仅仅是一个技术问题,更是一个需要深度理解人类行为和需求的复杂挑战。虽然当前的技术还有很多不足,但通过像BESPOKE这样系统性的研究和改进,我们正在向更智能、更贴心的AI助手目标稳步前进。未来的AI助手或许真的能够像一个了解你很久的老朋友一样,不仅知道你问的是什么,更明白你真正想要的是什么,并且用你最喜欢的方式来回答你的问题。

Q&A

Q1:BESPOKE评估基准与传统AI评估方法有什么不同?

A:BESPOKE最大的不同在于它基于真实用户的真实行为数据,而不是人工创造的测试场景。研究团队让30位志愿者在三周时间里正常使用搜索和聊天功能,收集了2870个真实会话,然后让用户自己评估AI回答的个性化程度。传统方法通常只关注回答的准确性,而BESPOKE从需求对齐度、内容深度、语调风格和解释方式四个维度全面评估个性化效果。

Q2:当前主流AI系统的个性化能力表现如何?

A:研究结果显示所有测试的AI系统在个性化方面都还有很大提升空间,即使表现最好的系统平均得分也只有60多分。在语调风格方面表现相对较好,能达到75-85分,但在理解用户真实需求和提供恰当深度内容方面普遍较弱,得分多在45-60分之间。这说明当前AI系统虽然能保持友好的交流方式,但在真正理解和满足个性化需求方面仍需大幅改进。

Q3:如何提升AI助手的个性化效果?

A:研究发现最有效的方法是智能利用用户历史信息,特别是采用查询感知的动态筛选方式,根据当前问题的主题来选择最相关的历史信息,而不是简单使用所有历史数据。同时,将历史信息整理成结构化的用户画像比直接提供原始数据效果更好。此外,提升网络搜索质量也很关键,因为即使完美理解用户需求,如果获取的信息质量不高,个性化效果仍会大打折扣。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-