微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 数字精灵的情感考验:腾讯研究团队如何用"有感情的评委"测试AI的社交智能

数字精灵的情感考验:腾讯研究团队如何用"有感情的评委"测试AI的社交智能

2025-05-12 12:13
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-12 12:13 科技行者

在我们日常生活中越来越依赖人工智能的今天,你是否曾好奇:当你向AI倾诉烦恼时,它是真的理解了你的感受,还是只是在按照程序做出看似体贴的回应?2025年5月,腾讯公司旗下的"混元智能数字人类"(Hunyuan AI Digital Human)团队发表了一项开创性研究,为回答这个问题提供了全新视角。这篇题为《有感知代理作为评判者:评估大型语言模型中的高阶社交认知》的论文,由Bang Zhang、Ruotian Ma等13位研究者共同完成,并已在arXiv预印本平台发布(arXiv:2505.02847v2)。有兴趣深入了解的读者可以通过https://github.com/Tencent/DigitalHuman/tree/main/SAGE访问相关代码和数据。

一、为什么AI的"懂你"能力需要全新的测量方式?

想象一下,你有两个朋友:一个朋友每次你诉说烦恼时都会给你一大堆实用建议,但你总觉得他并没有真正理解你的感受;另一个朋友也许不会提供太多具体解决方案,但每次交谈后你都感到被理解、被支持,情绪也变得更加积极。在人际交往中,后者往往能给人带来更多心理慰藉。当今的人工智能系统也面临类似的评价难题:如何判断AI不仅能回答问题,还能真正"懂"人的情感需求?

传统的AI评测方式主要关注任务完成度、事实准确性或通用有用性,就像只看厨师能不能按食谱做出一道菜,而不管食客吃完后的感受如何。腾讯研究团队指出,这些评测方式存在两个重大缺陷:一方面,像Arena这样的主流排行榜专注于任务导向的实用性或事实准确性,忽视了关系质量;另一方面,现有的"LLM作为评判者"的评测协议通常使用静态提示,无法适应展开中的对话,也无法追踪用户不断变化的情绪状态。

"现有的评测方法就像是品酒会上只测量酒精度数和pH值,却忽略了品尝者实际感受的品酒比赛,"如果用一个比喻来形容的话。正是为了弥补这一空白,研究团队提出了一个名为SAGE(Sentient Agent as a Judge,即"有感知代理作为评判者")的全新评测框架。

二、什么是"有感知代理"?它如何判断AI的社交智能?

SAGE评测框架的核心理念非常直观:要评测AI是否真正理解并回应人类的情感需求,最好的方法就是让它面对一个能够像真人一样产生情绪变化的"评委"。这个"评委"不是真人,而是另一个经过精心设计的AI代理,它能够模拟人类在对话过程中的情绪变化和内心活动。

这就像是为AI准备了一场特殊的演技考试:AI需要面对一位会真实情绪反应的"考官",而不是照本宣科的面试官。这位"考官"会根据AI的回应实时调整自己的情绪状态,并记录下整个情绪变化的轨迹,最终给出评分。

具体来说,每个"有感知代理"由四个关键元素组成:

首先是"角色设定",就像电影中的角色有自己的性格特点、习惯和说话方式。研究团队为每个代理创建了详细的个性档案,包括名字、年龄、职业、生活习惯、兴趣爱好和交流风格等。

其次是"对话背景",这相当于给角色设定了一个特定的生活场景和故事背景,比如最近经历的事件、面临的困境或需要解决的问题。

第三是"明确对话目标",代理在对话中想要达成的公开目标,比如寻求建议、倾诉烦恼或分享喜悦。

最后是"隐藏意图",这是代理内心真正希望从对话中获得的东西,可能是希望被倾听、被理解、得到肯定,或是获取具体的解决方案。这就像现实生活中,人们说话时往往有表面和深层的需求。

在每一轮对话中,代理会执行两个关键步骤:首先,它会评估AI的回应如何影响自己的情绪(这个过程称为femo);然后,它会根据自己的角色设定、当前情绪状态和对话目标,生成一个合理的回应(这个过程称为freply)。

整个对话结束后,代理最终的情绪分数作为评价指标,反映了被测试AI的社交认知能力。分数越高,说明AI越能让对话对象感到被理解、被支持和情绪积极。同时,代理在每一轮对话中的"内心独白"也提供了可解释的评价理由,让我们能够理解为什么某些回应能引起积极反应,而其他回应则可能适得其反。

三、"有感知代理"评测的可靠性如何?

你可能会问:既然是一个AI去评判另一个AI,这种评测结果有多可靠呢?研究团队通过一系列实验证明了SAGE评测框架的有效性和稳定性。

首先,研究团队检验了Sentient情感分数与心理学上广泛使用的Barrett-Lennard关系量表(BLRI)评分的相关性。BLRI是一种用于评估人际关系质量的心理学工具,特别适用于咨询情境,主要评估四个维度:共情理解、关注程度、真诚度和无条件关注的一致性。

想象一下,BLRI就像是一个专业心理咨询师用来评估咨询效果的量表,而Sentient情感分数则像是来访者直接的情绪反馈。研究发现,这两者之间存在很强的相关性(Pearson相关系数r = 0.82),这意味着Sentient代理的情绪反应与专业心理评估工具的判断高度一致。

其次,研究团队还检验了Sentient情感分数与话语级别共情指标的相关性。话语级别共情指标关注对话的自然流畅性、专注度和连接深度等方面。结果显示,Sentient情感分数与这些指标也存在强相关性(r = 0.79)。

最后,为了验证评测框架的稳健性,研究团队使用了四个不同的Sentient代理(基于DeepSeek-V3、GPT-4o、Gemini2.5和Gemini2.5-Think)来评测同一组模型。尽管不同代理给出的绝对分数有所不同,但它们对各模型的相对排名却高度一致(Spearman等级相关系数≥0.84)。这就像四位不同性格的评委对同一组歌手的评价——尽管严厉的评委总体打分较低,宽松的评委打分较高,但他们对哪位歌手表现最好的判断是一致的。

这些实验结果共同证明,SAGE框架提供的评测结果既符合专业心理学标准,又具有很强的稳定性,可以作为评估AI社交认知能力的可靠工具。

四、顶尖AI的社交智能测试结果如何?有什么意外发现?

研究团队使用SAGE框架评测了18个代表性的大型语言模型,包括GPT-4o-Latest、Gemini2.5-Pro、Claude3.7等商业模型和DeepSeek-V3、Llama3.3-70B等开源模型。测试结果揭示了几个令人惊讶的发现。

首先,SAGE排行榜与传统的Arena排行榜显示出明显不同的结果。在Arena排行榜上名列前茅的模型,在社交认知能力方面并不一定表现突出。例如,Gemini2.5-Pro在Arena排名第一,但在Sentient排行榜上仅排第四;而GPT-4.1在Arena上排名第九,却在Sentient排行榜上位居第二。这就像一个人可能是出色的知识百科,但不一定是良好的倾听者和情感支持者。

其次,研究发现前沿模型与早期或较小模型之间存在巨大差距。GPT-4o-Latest以79.9的高分位居榜首,而最早的GPT-4o只得到31.8分,排名第16位。这种4倍左右的差距在传统排行榜上并不明显,说明最新模型在社交智能方面取得了巨大进步,而这种进步并未被传统评测充分捕捉。

第三,研究团队还分析了模型的token效率——即模型使用多少tokens(词元,AI处理文本的基本单位)来实现其社交认知表现。有趣的是,GPT-4o-Latest不仅得分最高,而且token效率也最高,每次对话平均只使用3.3K tokens就达到了最佳效果。相比之下,o3模型虽然排名第五,但每次对话平均消耗13.3K tokens,效率明显较低。这表明高水平的社交认知能力并不一定以冗长为代价,就像一个真正懂你的朋友往往几句话就能说到你心坎里,而不需要滔滔不绝。

最后,研究团队创建了一个二维"社交认知坐标"来评估各模型的互动风格,横轴表示从结构化到创造性的互动方式,纵轴表示从解决方案导向到共情导向的侧重点。分析显示,大多数表现良好的模型(如GPT-4o-Latest系列和Gemini2.5系列)偏好结构化、共情式对话,就像那种会耐心倾听、有条理地提供情感支持的朋友。而DeepSeek系列模型则倾向于通过创造性、不那么可预测的互动方式提供解决方案,有点像那种思维跳跃但洞察力独特的朋友。

有趣的是,研究发现创造性和高度共情这两种特质的结合目前仍是AI的"盲区"——目前没有模型能同时具备高度创造性和深度共情能力。这就像在现实生活中,很少有人既是天马行空的创意大师,又是极具感染力的情感疗愈师。

五、这些研究成果对AI发展和日常使用有何启示?

腾讯研究团队的这项工作不仅是一项学术创新,也为我们理解和使用AI提供了新的视角和工具。

首先,这项研究向我们展示了评估AI能力的多元维度。就像我们不会仅凭一次智力测试就判断一个人的全部能力,评估AI也不应只关注其解决问题的能力,还应考虑其社交智能、情感理解和交流能力。SAGE框架为这种多维度评估提供了可行的方法。

其次,研究结果表明,最新一代AI模型在社交认知方面已取得显著进步。这意味着当你与最新的AI助手交流时,它更可能真正理解你的情感需求,而不只是给出表面上合适的回应。这对于AI在心理支持、情感陪伴等领域的应用具有重要意义。

第三,社交认知坐标为我们选择合适的AI助手提供了新的参考维度。需要结构化、共情式支持的人可能更适合使用GPT-4o-Latest或Gemini2.5-Pro,而喜欢创新思路和不那么常规解决方案的人则可能更喜欢DeepSeek系列模型。这就像人们在现实生活中会根据不同需求选择不同类型的朋友交流一样。

最后,研究也揭示了当前AI发展的一个重要空白:能够同时具备高度创造性和深度共情能力的模型仍然缺乏。这指明了未来AI研发的一个重要方向——如何培养AI同时具备这两种看似矛盾的能力,就像那些既有创造力又有情感智慧的人类天才一样。

六、未来展望:AI的社交智能将走向何方?

随着SAGE这样的评测框架的出现,我们有理由相信AI的社交智能将迎来更快速的发展。就像有了准确的测量工具才能指导有效的训练一样,SAGE为AI社交能力的评估和提升提供了可靠的标尺。

未来,我们可能会看到更多专门针对社交智能的AI训练方法,这些方法不仅关注AI回答问题的准确性,还关注其理解和回应人类情感需求的能力。研究团队也提到,他们计划扩展场景库,覆盖谈判、欺骗检测和跨文化情境等更多场景,并研究直接优化Sentient反馈的训练课程。

对于普通用户来说,这意味着未来的AI助手可能会成为更好的倾听者和情感支持者,不仅能够解决实际问题,还能提供真正的情感共鸣和心理支持。就像一位既懂技术又懂人心的全能助手,既能帮你制定精确的工作计划,又能在你情绪低落时提供温暖的安慰。

腾讯"混元智能数字人类"团队的这项研究,为我们打开了评估和理解AI社交智能的新窗口。正如研究团队所希望的那样,SAGE框架将成为推动构建不仅连贯和知识丰富,而且真正以人为本的语言代理的严格标尺和催化剂。

当我们下次与AI助手交流时,也许可以用不同的眼光来看待它:它不仅是一个回答问题的工具,也是一个正在学习理解人类情感、提供真正支持的数字伙伴。而这样的AI,将为人类的数字生活带来更多温度和理解。

想深入了解这项研究的读者,可以通过https://github.com/Tencent/DigitalHuman/tree/main/SAGE访问完整论文和相关代码。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • ReplaceMe:通过线性变换给大语言模型"瘦身"的突破性方法
    2025-05-07 10:33

    ReplaceMe:通过线性变换给大语言模型"瘦身"的突破性方法

    现代大语言模型就像一栋拥有数百个房间的豪华大厦,每个房间(或称为"层")都执行特定的功能,共同协作完成复杂的语言理解和生成任务。然而,这些模型的规模已经变得如此庞大,以至于只有拥有高端计算资源的机构才能负担得起它们的运行成本。这就像一辆耗油量极大的豪华跑车,普通人负担不起它的燃料费用。

  • FormalMATH:人工智能形式化数学推理的新标杆
    2025-05-07 10:32

    FormalMATH:人工智能形式化数学推理的新标杆

    想象一下,当你在解答一道复杂的数学题时,你不仅需要给出答案,还需要详细解释每一步推导的理由,不能有任何逻辑跳跃或假设——这就是形式化数学推理的严格要求。

  • Voila:开创真实自主交互与声音角色扮演新时代的声音-语言基础模型
    2025-05-07 10:29

    Voila:开创真实自主交互与声音角色扮演新时代的声音-语言基础模型

    想象一下日常生活中我们使用的语音助手,比如Siri或ChatGPT。它们通常是这样工作的:你问一个问题,它回答,然后安静地等待你的下一个指令。这就像是一个只会被动回应的服务员,永远等待你的呼唤。而Voila团队认为,真正高级的AI助手应该更像一个时刻准备着的好朋友或队友,能够自然地融入你的生活节奏中。

  • RM-R1:让AI评估变得更明智——将奖励模型转变为推理工具
    2025-05-07 10:27

    RM-R1:让AI评估变得更明智——将奖励模型转变为推理工具

    想象一下,你正在参加一场料理比赛,有两位评委。第一位评委只给你一个分数,而第二位评委会详细解释你的菜品在口感、创意和技巧上的表现如何,然后才给出最终评价。显然,第二位评委的反馈对于你改进厨艺更有帮助。伊利诺伊大学研究团队正是秉持这一理念,开发了能像第二位评委那样工作的AI评估系统。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-