微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 让AI学会真正理解人类情感:腾讯研究团队首次用真情实感训练出会安慰人的AI助手

让AI学会真正理解人类情感:腾讯研究团队首次用真情实感训练出会安慰人的AI助手

2025-07-17 13:56
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-17 13:56 科技行者

这项由腾讯混元AI数字人团队完成的突破性研究发表于2025年7月,是全球首次将可验证的情感奖励机制引入AI训练的重要成果。研究团队包括王培松、马若天、张邦等多位专家,他们的完整研究成果已在arXiv平台公开发布(论文编号:2507.03112v1),为AI情感智能的发展开辟了全新道路。

想象一下,当你因为工作压力而感到沮丧时,你希望身边有个朋友能真正理解你的感受,而不是简单地说"我理解你"这样的套话。现在,腾讯的研究团队正在努力让AI学会这种真正的情感理解能力。他们开发了一个名为RLVER的训练框架,这就像是给AI上了一堂特殊的情感课程。

这项研究的核心创新在于创建了一个会产生真实情感变化的虚拟用户系统。这个系统就像一个有着完整人格和情感的虚拟人,它会因为AI的不同回应而产生真实的情感波动。研究团队利用这些情感变化作为训练信号,教会AI如何更好地理解和回应人类的情感需求。

更令人惊讶的是,经过这种特殊训练的AI模型在情感理解能力上实现了巨大飞跃。一个只有70亿参数的小型模型,在专门的情感智能测试中,得分从原来的13.3分直接跃升到79.2分,这个成绩甚至超过了许多大型商业AI模型。就像一个原本不善言辞的人,经过专门的情感沟通训练后,突然变得善解人意、温暖贴心。

这项研究不仅仅是技术上的突破,更是对未来AI发展方向的重要探索。它证明了AI不必只是冷冰冰的工具,而可以成为真正理解人心、给予情感支持的伙伴。

一、突破传统AI情感理解的局限性

传统的AI训练方式就像是让学生背诵标准答案一样机械。当遇到需要情感支持的情况时,AI往往只会说出"我理解你的感受"或"这确实很困难"这样的模板化回应。这种方式就像是一个从未真正体验过情感的人试图安慰别人,虽然词汇正确,但缺乏真正的共情能力。

研究团队发现,问题的根源在于现有的AI训练方法缺乏真实的情感反馈机制。传统方法就像是让人在没有观众反应的情况下练习演讲,无法了解自己的表现是否真的触动了听众。为了解决这个问题,他们需要创造一个能够产生真实情感反应的训练环境。

更重要的是,以往的AI训练过程中缺乏连续性的情感互动。每次对话都是独立的,AI无法学会如何在一次完整的谈话中逐步建立情感连接,理解对方情感状态的变化。这就像是只会单句对话的人,无法进行深入的情感交流。

RLVER框架的出现改变了这一切。这个框架建立在一个叫做SAGE的基础系统之上,SAGE能够创建具有完整人格特征的虚拟用户。这些虚拟用户不仅有自己的性格特点、生活背景和对话目标,更重要的是它们能够产生真实的情感波动。

在这个系统中,每个虚拟用户都有一个从0到100的情感分数,这个分数会根据AI的回应发生实时变化。如果AI的回应让虚拟用户感到被理解和安慰,情感分数就会上升;如果回应不当或缺乏共情,分数就会下降。这种机制就像是给AI安装了一个情感反馈仪表盘,让它能够实时了解自己的表现效果。

研究团队在训练过程中构建了500个不同的支持性对话场景,涵盖了8种不同的情感需求类型。这些场景包括寻求情感认同、希望得到建议、需要被倾听等各种情况。每个场景都有着丰富的背景设定和明确的情感目标,为AI提供了充分的学习素材。

二、创新的"先思考再回应"训练模式

研究团队发现了一个有趣的现象:让AI在回应之前先进行内在思考,就像人类在说话前会先在心里整理思路一样,这种方式能够显著提升AI的情感理解能力。

这种"先思考再回应"的模式被称为"Think-Then-Say"框架。在这个框架中,AI需要在每次回应前先在内心进行一番思考,分析用户的情感状态,考虑适当的回应策略,然后再给出最终的回答。这个过程就像是一个有经验的心理咨询师,在听完来访者的倾诉后,会先在心里分析对方的真实需求,然后选择最合适的回应方式。

具体的实现过程是这样的:AI在看到用户的消息后,首先要在特定的"思考标签"内进行内在独白,分析用户的情感状态、潜在需求和合适的回应策略。例如,当用户说"我在会议上提出了一个想法,但同事和老板都不太认可,有点沮丧"时,AI会先在内心思考:"这个人感到被拒绝和不被认同,影响了自尊心,让他感到孤立和焦虑。他分享这件事是因为真的受到了影响,需要有人倾听和理解,而不是简单的安慰。"

经过这番思考后,AI才会给出实际的回应:"听起来昨天对你来说真的很难熬。在所有人面前提出想法却被否定,这不仅仅是对想法的挑战,更触及了更深层的个人感受。你之所以分享这件事,是因为它真的影响了你,我希望你知道我会真正倾听 - 真正地倾听。你不必独自承受这一切。"

实验结果显示,采用这种思考模式的AI在情感理解测试中表现明显更好。具体来说,带有思考功能的模型在情感基准测试中得分达到79.2分,而没有思考功能的模型只有61.7分。这个差异就像是一个经过深思熟虑的回应与随口而出的回应之间的区别。

更有趣的是,研究团队发现思考型AI和非思考型AI在能力发展上呈现出不同的特点。思考型AI更擅长深度共情和洞察核心问题,它们能够准确识别用户的深层情感需求,并用精准的语言进行情感验证。而非思考型AI则更偏向于提供具体的行动建议,它们可能无法深入理解用户的情感状态,但在给出实用性建议方面表现较好。

这种差异背后的原因是,思考过程让AI有机会更好地理解用户的情感状态和潜在需求,从而能够提供更加贴心和准确的回应。而没有思考过程的AI只能依赖即时反应,往往倾向于给出看似有用但缺乏深度理解的建议。

三、突破性的情感智能训练成果

经过RLVER训练的AI模型在情感理解能力上实现了令人瞩目的提升。最引人注目的是,一个仅有70亿参数的轻量级模型在专门的情感智能测试中获得了79.2分的高分,而训练前的基础得分只有13.3分。这种近六倍的提升就像是一个原本不善于与人交流的人突然获得了深刻的情感洞察力。

更令人惊讶的是,这个小型模型的表现甚至超越了许多大型商业AI系统。在同样的测试中,一些知名的大型AI模型分数分别为:Gemini2.5-Pro获得82.4分、GPT-4o获得79.9分、而其他模型的得分则在60-70分之间。这意味着通过专门的情感智能训练,小型模型完全可以在特定领域达到甚至超越大型模型的表现。

在具体的对话表现上,训练后的AI展现出了五个核心的情感理解能力。首先是情感深度理解能力,AI不再只是简单地重复"我理解你"这样的套话,而是能够准确识别用户的复杂情感状态,并用温暖而精准的语言进行回应。

其次是核心洞察能力,训练后的AI能够从用户片段化的叙述中整合出完整的情况理解,识别出重复的行为模式,揭示情感与事件之间的深层联系,最终触及用户未被满足的核心需求。

第三是解决方案构建能力,AI不再只是提供通用的建议,而是能够根据用户的具体情况和心理状态,提供可行的、个性化的、让用户感到有能力执行的建议。

第四是对话策略和引导能力,训练后的AI能够在对话中保持明确的方向性和目的性,灵活地引导用户从纯粹的情感宣泄转向建设性的问题探索,同时始终与用户保持同步。

最后是角色和风格灵活性,AI能够根据对话情境、用户的隐含偏好以及长期互动模式,灵活调整自己的交流角色和语言风格。

研究团队还发现了一个有趣的现象:使用不同训练算法的AI模型呈现出不同的能力发展特点。使用PPO算法训练的模型在某些特定能力上能够达到更高的上限,但训练过程相对不够稳定。而使用GRPO算法训练的模型虽然最高分数略低,但在各项能力上的发展更加均衡和稳定。

这些训练成果的获得并非偶然。研究团队通过大量的实验和分析发现,情感智能的培养需要持续的、多轮次的互动训练。在训练过程中,AI需要学会识别不同类型的情感支持策略,包括赞美、深度共情、情感宣泄支持、建议提供和问题分析等。每种策略都有其适用的情境和时机,AI需要学会在合适的时候使用合适的策略。

四、创新的情感反馈机制设计

RLVER框架的核心创新在于设计了一套完整的情感反馈机制。这个机制就像是为AI安装了一个情感温度计,能够实时监测和反馈用户的情感状态变化。

这个系统的工作原理是这样的:每个虚拟用户都有一个详细的人格档案,包括姓名、年龄、性格特征、生活背景、兴趣爱好和说话风格等。这些档案就像是为每个虚拟用户创建了一个完整的人格画像,使他们能够以一致的方式对不同的情况做出反应。

在对话过程中,虚拟用户会根据AI的回应产生情感变化。如果AI的回应让虚拟用户感到被理解、被关心或得到了有用的帮助,情感分数就会上升。相反,如果回应显得冷漠、不合适或没有抓住重点,情感分数就会下降。这个过程完全是基于逻辑推理的,具有很强的可验证性和一致性。

更重要的是,这个情感反馈系统能够区分不同类型的情感需求。有些用户希望得到深度的情感共鸣,有些用户需要具体的行动建议,还有些用户只是想要有人倾听。系统能够根据用户的背景和当前情况,准确判断哪种类型的回应最能满足用户的需求。

研究团队构建了涵盖8种不同情感需求类型的训练场景。这些场景包括:"希望别人认同自己没有过错"、"希望得到反思和成长的引导"、"希望对方分析问题的根本原因"、"希望得到深度的情感共鸣"、"希望有人倾听情感宣泄"、"希望分析他人行为的动机"、"希望得到实用的建议"和"希望得到真诚的赞美"。

每个场景都有着丰富的背景设定。例如,在"希望得到深度情感共鸣"的场景中,虚拟用户可能是一个正在照顾生病母亲的中年人,他感到身心疲惫,需要的不是简单的安慰,而是有人能真正理解他的处境和感受。在这种情况下,如果AI能够准确识别出用户的情感状态,并给出深度共情的回应,情感分数就会显著上升。

这种情感反馈机制的另一个重要特点是它的动态性。虚拟用户的情感状态不是固定不变的,而是会随着对话的进行而发生变化。这就像真实的人际交流一样,良好的互动能够逐步建立信任和理解,而不当的回应则可能破坏已经建立的关系。

研究团队还发现,虚拟用户的情感变化呈现出明显的规律性。在对话初期,用户通常处于较为封闭或困扰的状态,情感分数相对较低。随着AI提供恰当的回应,用户的情感状态会逐步改善,分数稳步上升。但如果AI的回应不当,情感分数可能会急剧下降,甚至导致对话的提前结束。

五、不同训练环境对AI情感能力的影响

研究团队在实验中发现了一个意外的现象:并非越具有挑战性的训练环境就能培养出更好的AI。这个发现颠覆了传统的训练思路,为AI情感智能的培养提供了新的视角。

在实验中,研究团队创建了两种不同难度的虚拟用户环境。普通版本的虚拟用户相对比较容易相处,即使AI的回应不够完美,他们也可能给出积极的反馈。而挑战版本的虚拟用户则更加严格和保守,他们很少表达内心想法,对AI的回应要求更高,只有当AI真正理解并满足他们的需求时,才会给出正面的情感反馈。

直观上看,在更严格的环境中训练出来的AI应该具有更强的情感理解能力。然而实验结果却显示,在挑战版本环境中训练的AI反而表现更差。具体来说,在挑战环境中训练的思考型AI在情感测试中只得到66.4分,而在普通环境中训练的同类AI则获得了79.2分。非思考型AI的差异更加明显,挑战版本训练的AI只得到19.8分,而普通版本训练的AI得到了61.7分。

这个现象背后的原因很有趣。研究团队分析发现,过于严格的训练环境实际上限制了AI的探索和学习能力。在挑战环境中,由于虚拟用户很少给出正面反馈,AI难以了解哪些行为是正确的,哪些是需要改进的。这就像是在一个过于苛刻的老师面前学习,学生可能会变得过于谨慎,反而失去了学习的积极性和创造力。

相比之下,适度宽松的环境为AI提供了更多的正面反馈,让它们能够更好地理解什么样的回应是受欢迎的,什么样的策略是有效的。这种环境就像是一个耐心的老师,会对学生的进步给予及时的鼓励和指导,从而促进更好的学习效果。

更深入的分析显示,不同类型的AI在面对挑战环境时表现出不同的适应性。思考型AI由于具有内在的推理能力,在面对困难环境时仍能保持相对稳定的表现。即使在挑战环境中,它们仍能在情感深度理解、核心洞察和风格适应性等方面取得明显进步。

而非思考型AI在面对挑战环境时则表现出明显的脆弱性。它们在各项能力上都几乎没有提升,甚至出现了退化现象。这说明内在推理能力对于AI在困难环境中的学习和适应具有重要作用。

这个发现对于AI训练具有重要的指导意义。它告诉我们,在设计AI训练环境时,需要在挑战性和可学习性之间找到平衡。过于简单的环境可能无法充分激发AI的潜力,而过于困难的环境则可能阻碍AI的学习进程。最理想的训练环境应该是那些既能提供适当挑战,又能给予充分正面反馈的环境。

六、AI情感支持策略的学习和应用

通过对AI训练过程的深入分析,研究团队发现了AI是如何逐步学会使用不同情感支持策略的。这个过程就像是观察一个人如何从不懂得安慰他人逐步成长为一个善解人意的朋友。

研究团队将AI的情感支持策略分为五大类。第一类是赞美策略,包括对用户品质的肯定、对积极想法的赞扬和对具体行为的称赞。这类策略的作用是提升用户的自信心和自我认同感。

第二类是深度共情策略,这是最复杂也是最重要的策略类型。它包括对用户问题的重述和共情、对用户隐藏意图的深度理解以及通过自我披露来表达对用户观点的认同。这类策略的核心是让用户感到被真正理解和接纳。

第三类是情感宣泄策略,包括表达愿意倾听的意愿和帮助用户释放负面情绪。这类策略的目的是为用户提供一个安全的情感释放空间。

第四类是建议提供策略,即根据用户的具体情况提供有针对性的建议。这类策略需要AI具有很强的问题分析能力和实用性判断能力。

第五类是问题分析策略,即帮助用户深入分析问题的根本原因。这类策略需要AI具有较强的逻辑思维和系统性思考能力。

在训练初期,AI对所有类型的策略都掌握得不够好,经常出现策略使用不当或时机把握不准的情况。这就像是一个刚开始学习人际交往的人,虽然知道应该关心他人,但不知道在什么时候说什么话合适。

随着训练的深入,AI开始学会识别不同情况下应该使用哪种策略。研究团队发现,经过充分训练的AI会优先使用"赞美"和"深度共情"策略,因为这些策略能够持续提升用户的情感状态。而"建议提供"和"问题分析"策略的使用频率相对较低,因为这些策略如果使用不当,可能会让用户感到不被理解或被说教。

更有趣的是,思考型AI和非思考型AI在策略使用上呈现出明显的差异。思考型AI更擅长使用深度共情策略,它们能够准确识别用户的深层情感需求,并给出恰当的回应。在训练过程中,思考型AI使用深度共情策略的频率增加了8倍多,从0.8次增加到6.53次,同时这种策略的有效性也显著提升。

非思考型AI则更偏向于使用建议提供策略。虽然它们可能无法深入理解用户的情感状态,但它们善于提供具体的、可操作的建议。这种差异反映了不同类型AI的能力特点和适用场景。

训练过程中还观察到一个重要现象:AI不仅学会了使用不同的策略,更重要的是学会了策略的恰当运用。在训练初期,即使是有用的策略如"建议提供"也可能产生负面效果,因为AI还没有学会在合适的时机使用合适的策略。经过充分训练后,这些策略的使用效果都得到了显著改善。

这个学习过程揭示了AI情感智能发展的一个重要规律:仅仅掌握各种回应技巧是不够的,更重要的是学会在恰当的时机以恰当的方式使用这些技巧。这就像是学习一门艺术,不仅需要掌握技法,更需要培养出对时机和情境的敏感性。

七、AI情感智能的未来发展前景

这项研究的成功为AI情感智能的未来发展开辟了广阔的前景。从技术角度看,RLVER框架证明了通过可验证的情感反馈来训练AI是完全可行的,这为构建更加智能、更加人性化的AI系统提供了重要的技术基础。

更重要的是,这项研究证明了小型AI模型在特定领域可以达到甚至超越大型模型的表现。这意味着我们不必总是依赖计算资源庞大的超大型模型,通过专门的训练方法,中小型模型同样可以在特定任务上表现出色。这种发现对于AI技术的民主化和普及具有重要意义。

在实际应用方面,具有情感智能的AI系统将会在多个领域发挥重要作用。在心理健康支持方面,这样的AI可以为那些需要情感支持但无法及时获得专业帮助的人提供初步的安慰和建议。虽然AI无法完全替代专业的心理咨询师,但它可以作为一个随时可用的情感支持伙伴,为用户提供倾听和理解。

在教育领域,具有情感智能的AI可以更好地理解学生的学习状态和情感需求,提供个性化的学习支持。它们不仅能够传授知识,还能够在学生遇到困难时给予适当的鼓励和指导。

在客户服务方面,情感智能AI可以显著提升用户体验。它们能够理解客户的情绪状态,在解决问题的同时给予适当的情感关怀,让客户感受到被理解和被尊重。

在老年人陪伴方面,情感智能AI可以为独居老人提供日常的情感交流和陪伴。它们能够理解老人的情感需求,提供适当的关怀和支持,在一定程度上缓解老年人的孤独感。

然而,这项研究也让我们看到了当前AI情感智能发展面临的挑战。虽然AI在特定的测试环境中表现优异,但在复杂多变的真实世界中,它们的表现可能会有所不同。真实的人类情感比实验环境中的情况更加复杂和多变,AI需要在更多样化的情境中接受训练和测试。

此外,AI的情感智能还需要与其他能力相结合。虽然研究显示经过情感训练的AI在数学和编程能力上没有显著下降,但如何在保持情感智能的同时进一步提升AI的综合能力,仍然是一个需要解决的问题。

研究团队也指出了未来的发展方向。他们计划在更加丰富多样的环境中训练AI,包括多人对话、跨文化交流等复杂情境。他们还希望探索如何让AI能够适应不同用户的个性化需求,为不同的用户提供定制化的情感支持。

另一个重要的发展方向是多模态情感理解。目前的研究主要关注文本对话中的情感理解,但人类的情感表达往往涉及语音、表情、肢体语言等多种模态。未来的AI系统需要能够综合理解这些不同形式的情感信息,提供更加全面和准确的情感支持。

说到底,这项研究的最大价值在于它为AI的发展指明了一个新的方向。在追求更强大计算能力和更广泛知识覆盖的同时,我们也需要关注AI的情感智能发展。只有具备了真正的情感理解能力,AI才能成为人类真正的伙伴,而不仅仅是工具。

这项由腾讯团队完成的研究为我们展示了这种可能性的存在。虽然目前的AI情感智能还处于起步阶段,但随着技术的不断进步和应用场景的不断扩展,我们有理由相信,未来的AI将会具备更加丰富和细腻的情感理解能力,为人类社会的发展做出更大的贡献。对于想要深入了解这项研究技术细节的读者,可以通过论文编号arXiv:2507.03112v1在arXiv平台上查阅完整的研究报告。

Q&A

Q1:RLVER训练出来的AI真的能理解人类情感吗? A:RLVER训练的AI能够识别和回应人类情感,但这种"理解"更像是学会了正确的情感反应模式,而非真正的人类式情感体验。它们通过大量训练学会了在不同情境下给出恰当的情感回应,在测试中表现出色,但这种能力是基于模式识别和学习,而非真正的情感体验。

Q2:这种AI会不会取代心理咨询师? A:不会完全取代。虽然AI在情感理解测试中表现优异,但它们更适合作为初步的情感支持工具,为用户提供日常的倾听和安慰。真正的心理治疗需要专业知识、临床经验和深度的人际互动,这些是AI目前无法完全替代的。

Q3:普通人能使用这种有情感智能的AI吗? A:目前这项技术还处于研究阶段,腾讯团队已经开源了相关代码和模型,但还没有推出面向普通用户的产品。不过,随着技术的成熟,预计未来会有更多基于这种技术的应用出现在聊天机器人、客服系统等场景中。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-