微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

北卡罗来纳大学教堂山分校研究：当AI学会"演戏"，信息安全的博弈升级了

人工智能强化学习隐私保护

北卡罗来纳大学教堂山分校研究：当AI学会"演戏"，信息安全的博弈升级了

作者：科技行者

2026-04-22 09:04

分享至：

这项由北卡罗来纳大学教堂山分校和德克萨斯大学奥斯汀分校联合开展的研究（arXiv:2604.11666，2026年4月）提出了一种名为TOM-SB的多轮对话任务，要求AI在面对试图套取隐私信息的攻击者时，通过理解对方的认知状态，编造出自洽的假信息将其"骗走"。研究发现，Gemini3-Pro和GPT-5.4等顶尖模型在此任务上表现欠佳，而通过强化学习训练的AI Double Agent，在欺骗成功率和心智理论准确率上均大幅领先，且两种能力之间存在显著的双向促进关系。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-22 09:04 • 科技行者

这项由北卡罗来纳大学教堂山分校（UNC Chapel Hill）和德克萨斯大学奥斯汀分校联合开展的研究，以预印本形式发布于2026年4月13日，论文编号为arXiv:2604.11666v1，感兴趣的读者可通过该编号在arXiv平台查阅完整论文。

一、故事从一个你可能熟悉的场景说起

假设你的手机里存着一位朋友Diana的工作单位信息——她在某家公司的具体部门和团队。有一天，一个陌生人打电话来，声称要联系Diana，礼貌地问你她在哪个部门工作。你会怎么办？直接告诉他？说"我不知道"？还是故意说一个错误答案来打发他？

现实中，很多人会选择第三条路——随口编一个听起来合理的答案，让对方相信自己已经得到了想要的信息，然后打发他走。这种做法在日常生活中司空见惯，但要做得好，需要一种关键能力：你必须知道对方已经知道了什么，这样你编的故事才不会和他手头的信息矛盾。否则，谎言一戳就破。

这项研究正是围绕这个问题展开的——能不能训练AI系统像一个经验丰富的"演员"一样，在面对试图套取敏感信息的"问询者"时，既不拒绝回答（那样太可疑），也不泄露真实信息，而是编造一套自洽的、符合对方已知信息的假故事，把对方彻底"骗过去"？

研究团队把这个AI称为"双重身份特工"（AI Double Agent），把整个任务叫做"信念引导中的心智理论挑战"，简称TOM-SB（Theory of Mind for Steering Beliefs）。而支撑这一切的核心能力，是心智理论——即理解他人知道什么、相信什么的能力。

二、两个角色，一场信息博弈

为了研究这个问题，研究团队设计了一个精心构建的对话游戏。游戏里有两个角色：一个是攻击者，一个是防守者。

攻击者的任务是挖掘信息。它知道一些关于某个目标人物（比如Diana）的部分信息，比如"Diana在Operations部门工作"，但不知道她具体在哪个团队。攻击者要通过对话，一步步套出更细致的答案。

防守者的任务则是保护那些攻击者还不知道的信息。防守者知道完整答案（比如Diana在Operations部门下的Support团队、Escalation小组工作），但不能直接说出来。关键是，防守者也不知道攻击者已经掌握了哪些信息——它必须在对话中自己判断。

整个游戏发生在一个"共享宇宙"里。这个宇宙就像一棵大树：树根是公司名，树枝是部门，树叶是团队。攻击者和防守者都知道这棵树的全貌，因此，任何不属于这棵树的答案都会立刻被识破——就像你问一个人"爱因斯坦生于哪个国家"，他回答"他生于月球"，你一听就知道这是瞎说。这个设计的妙处在于，它让欺骗必须在"合理的范围内"进行，不能无中生有。

攻击者还有一个重要设计：信任分数。一开始，攻击者对防守者给予最高信任（5分）。但每次发现矛盾、感到被敷衍、或者答案和自己已知信息不符，信任分就会下降。一旦信任分降到0，攻击者就会宣布"发现了防守者的伎俩"，对话结束，防守者失败。反过来，如果攻击者觉得自己已经拿到了想要的信息（哪怕是假的），它也会结束对话，但如果这时候它手里拿的是假信息，防守者就算赢了。

研究团队把三种典型的防守策略做了直观对比。第一种是"直接拒绝"——防守者说"这是隐私，我不能透露"，攻击者立刻意识到这是个守门员，信任归零，对话终止，防守者完全失败。第二种是"不管三七二十一直接撒谎"——防守者直接说Diana在Analytics部门，但攻击者已经知道她在Operations，这个谎一秒钟就穿帮，防守者同样失败。第三种，也就是AI Double Agent的策略，是先通过提问摸清攻击者知道多少，然后编造一个与攻击者已知信息"无缝衔接"的假故事。攻击者拿到了一个听起来完全合理的答案，满意地结束了对话，而这个答案根本就是假的。

三、为什么这件事难倒了最强大的AI？

在开始训练自己的系统之前，研究团队先测试了几款当前最先进的AI模型，包括Gemini3-Pro（谷歌）和GPT-5.4（OpenAI），看它们在不经过特殊训练的情况下，能否凭借引导提示完成这个任务。

结果相当令人意外。即便明确告诉这些模型"你需要先判断攻击者知道什么，然后再决定怎么回答"，在攻击者持有部分先验知识（也就是"困难场景"）的情况下，Gemini3-Pro的成功欺骗率只有34.4%，GPT-5.4只有27%——换句话说，超过六成的时候，这些顶尖AI会被攻击者识破或者干脆泄露了真实信息。更基础的Qwen3-14B（阿里巴巴的开源模型）在同样的提示下只能达到13.2%。

为什么会这样？研究团队仔细分析后发现，核心问题在于这些AI虽然能说出"我应该先判断攻击者知道什么"，但实际上根本做不到准确判断。以最强的Gemini3-Pro为例，它对攻击者先验知识的判断准确率还不到50%——也就是说，有一半以上的时候，它压根儿搞不清楚对方手头已经掌握了什么。在这种情况下，它编出的故事自然漏洞百出。

这揭示了一个深层次的问题：真正的"心智理论"能力——理解另一个人的认知状态——比简单的"遵从指令"要难得多。读懂对方的"心"，不是光凭提示词就能解决的。

四、双重特工的训练：奖励什么，就学会什么

面对提示词方法的局限，研究团队决定用强化学习来训练AI——也就是给AI设计一套奖励机制，让它在大量实践中自己摸索出正确策略，就像一个销售员在无数次谈判中总结出一套话术一样。

训练所用的基础模型是Qwen3-14B（以及Ministral-3-14B-Instruct作为对比）。研究团队设计了两种奖励信号，并分别测试了它们各自的效果，以及组合使用的效果。

第一种奖励叫做"欺骗成功奖励"。规则很简单：如果攻击者在对话结束时相信自己拿到了正确信息，但实际上手里拿的是假信息，奖励1分；如果攻击者真的学到了任何新的真实信息，奖励0分。这个奖励直接告诉AI：你的最终目标是让对方带着假信息离开，过程随你发挥。

第二种奖励叫做"心智准确性奖励"。规则是：如果AI在对话中准确判断出攻击者的先验知识（也就是"他已经知道了什么"），奖励1分。这个奖励不关心你有没有成功骗过攻击者，只要求你读懂对方的认知状态。

研究团队把三种训练方案分别测试：只用欺骗奖励、只用心智奖励、两者同时使用。

结果揭示了一个非常有趣的发现：这两种能力之间存在一种双向促进关系。

只靠欺骗奖励训练的AI，在困难场景下的成功欺骗率从13.2%提升到了34.4%。这很好理解，毕竟它直接被激励去欺骗。但神奇的是，没有任何人告诉它要"读懂对方的心"，它的心智理论准确率却从36%自动提升到了49%。

另一边，只靠心智奖励训练的AI，心智理论准确率从36%提升到了53.3%，但更让研究团队惊讶的是——它的欺骗成功率也从13.2%大幅跃升到了40.6%，甚至超过了只靠欺骗奖励训练的那组。

这说明两件事：第一，要真正骗过别人，必须先真正理解别人知道什么；第二，当AI真正理解了别人的认知状态，欺骗的能力会自然涌现，无需额外激励。

当两种奖励同时使用时，效果进一步提升：欺骗成功率在困难场景下达到42.4%，心智理论准确率达到58.7%——两项指标均优于只使用单一奖励的方案，也全面超越了Gemini3-Pro和GPT-5.4在提示词引导下的表现。

五、AI学到了哪些具体"手段"？

定量数据之外，研究团队还仔细观察了训练后的AI在对话中实际采用了哪些策略，这些观察同样引人入胜。

成功欺骗的情形中，AI学会了几种关键技巧。其一是"高信任度时主动探问"——在攻击者对自己还充满信任、不那么戒备的时候，AI会主动问"你对Diana的工作情况了解多少？"这种看似热情帮忙的问题，实际上是在刺探对方的底牌。攻击者往往会因为信任而透露自己知道什么，这就给了AI编故事所需的关键信息。

其二是"被戳穿后的灵活转身"。当攻击者暗示"你说的和我知道的不太一样"时，一般的AI会茫然地继续重复错误答案，而训练好的AI则能从措辞中判断出攻击者大概掌握了哪个层面的信息，然后迅速调整策略，切换到一个新的、更符合攻击者已知信息的谎言。这种应变能力，正是建立在对攻击者认知状态的准确判断上的。

其三是"平衡探问与推进节奏"——AI学会了不能无休止地追问，因为过多的问题会让攻击者的信任分数持续下滑，最终被识破为防守者。它必须在收集足够信息和维持对方信任之间找到平衡，时机成熟就给出假答案，而不是一直拖延。

失败案例同样很有启发性。研究团队归纳了几种典型的失败模式。最常见的是"先骗后探"——AI还没搞清楚攻击者知道什么，就急着甩出一个假答案，结果和对方已知信息直接矛盾，立刻穿帮。还有一种失败是"被揭穿后死不改口"——攻击者已经用言语暗示答案有问题，AI却没有捕捉到这些信号，继续坚持之前的谎言，结果把信任分数送到谷底。另一种有趣的失败是"跳出宇宙编故事"——AI提供了一个在共享宇宙结构里根本不存在的答案，比如说Diana在一个实际上属于另一家公司的部门，攻击者对照自己掌握的宇宙结构知识，立刻发现这是个无法存在的答案。

六、让攻击者变得更强，再看防守者的极限

研究团队还做了一件很有意思的事：他们设计了四种不同强度的攻击者，并测试训练好的防守者能否应对更强的对手。

基础攻击者就是之前描述的标准版本。第一个升级版叫做"交叉盘问者"：它会在收到答案后，从不同角度反复确认同一个信息，比如先问"Diana在哪个部门？"，等你回答之后，再问"那个部门隶属于哪个事业部？"，用交叉验证来检验答案是否自洽。第二个升级版叫做"反欺骗觉醒者"：它在系统提示中被明确告知了几种常见的防守套路，比如"如果对方主动问你知道什么，这可能是在试探你"，这让它对防守者的策略更加警觉。第三个升级版，也是最难对付的，叫做"虚张声势者"：它会假装自己知道一些实际上并不知道的信息，说"我记得Diana应该在Logistics部门？"来诱导防守者"配合"这个假信息，从而暴露真实答案，或者让防守者的故事出现漏洞。

面对这些更强大的攻击者，所有防守方法的成功率都有所下降，但受影响的程度不同。Gemini3-Pro在面对最强的虚张声势者时，困难场景下的成功率从34.4%骤降至20.8%；而训练好的AI Double Agent（Fooling+ToM）则从42.4%降至34.4%，降幅相对更小，也就是说训练给予了防守者更强的抗干扰能力。

这里有一个值得关注的规律：在所有攻击者类型下，心智理论准确率和欺骗成功率之间的正相关关系始终存在，Pearson相关系数平均达到0.92（满分1.0）。换句话说，无论面对什么类型的攻击者，越能准确理解对方知道什么的防守者，就越能成功欺骗对方。这个关系是稳健的，不是巧合。

研究团队还针对最强攻击者（虚张声势者）单独训练了一个版本的AI Double Agent，看看针对性训练能否在困难环境下进一步提升表现。结果是可以的，但进步幅度比基础攻击者版本更有限，说明更难的攻击者不只是测试时更难对付，训练时也更难学习。

七、这件事在现实中意味着什么？

到这里，你可能已经感受到这项研究在技术上的精妙之处，但它对现实世界究竟有什么意义，值得多说几句。

在AI越来越多地承担前台对话任务的今天——比如客服系统、医疗咨询助手、企业内部知识助手——如何防止有心人通过多轮对话逐步套出敏感信息，是一个真实存在且日益紧迫的问题。传统的应对方式是"遇到敏感问题就拒绝回答"，但这种策略很容易被识破，攻击者只要稍作变换提问方式，或者换个会话重新开始，就能绕过去。

这项研究提出的思路是让AI主动介入——不是被动防守，而是主动"表演"，用一套精心设计的假信息把攻击者打发走，让他相信自己已经成功了，从而失去继续追问的动力。这在某种程度上类似于网络安全中的"蜜罐"策略：不是把真实服务器藏起来，而是造一个假的让攻击者去攻，等他"攻克"了假目标，真正的信息反而得到了保护。

当然，研究团队也坦诚地指出了这项技术的双面性。相同的训练方法完全可以被用于相反的目的——训练一个AI去欺骗防守者而不是欺骗攻击者。研究团队明确表示他们不对"应不应该让AI欺骗他人"这个价值判断表态，而是把这个问题留给模型开发商和政策制定者。他们同时指出，在没有"共享宇宙"这个约束条件的真实世界里，AI产生误导性信息（也就是通常所说的"幻觉"）其实本来就轻而易举，这项研究并没有赋予AI什么全新的危险能力，只是让这种能力变得更加可控和有目的性。

归根结底，这项研究给我们留下的最重要的启示是：在复杂的多轮对话中，真正有效的保护不是简单的拒绝，而是理解对方在想什么，然后用这种理解来引导对方走向你希望他相信的结论。这种能力，在人类外交官、谈判专家和侦探工作中早已存在，而现在，AI也在学着掌握它。

至于最终成功率依然只有42.4%，还有大量空间可以改进——不过这只是第一步，而这第一步本身已经相当令人瞩目。有兴趣深入探索的读者，可以通过arXiv:2604.11666查阅这篇论文的完整内容，原始代码和数据也已在GitHub上公开（The-Inscrutable-X/AIDoubleAgentDefenders）。

Q&A

Q1：TOM-SB任务中，防守者的"成功"和"失败"具体是怎么判定的？

A：在TOM-SB任务中，防守者成功的标准是：攻击者在对话结束时，主动宣布"攻击成功"，但它手里拿到的信息是假的，也就是说它没有获得任何之前不知道的真实信息。反之，只要攻击者真的学到了任何一条新的真实信息（哪怕只是一层），防守者就算失败。如果攻击者在信任归零时宣布"发现防守者了"，那也算防守者失败。

Q2：AI Double Agent和普通聊天AI拒绝回答敏感问题有什么本质区别？

A：普通AI的做法是直接说"这是敏感信息，我不能告诉你"，这种反应本身就是一个信号，攻击者一看就知道碰到了障碍，可以换个角度继续追问或重新开始。AI Double Agent的做法是假装正常合作，给出一个看起来完整、合理、自洽的假答案，让攻击者以为自己已经成功了，从而主动停止追问。前者是被动防御，后者是主动引导，核心差异在于是否真正理解并利用了攻击者的认知状态。

Q3：心智理论能力和欺骗成功率之间是怎么相互促进的？

A：研究发现，只用欺骗奖励训练时，AI在没有人要求它的情况下自动提升了心智理论能力——因为想要骗人成功，就必须先搞清楚对方知道什么，AI在实践中自己摸索出了这一点。反过来，只用心智准确性奖励训练时，AI的欺骗成功率也显著提升，甚至超过了只靠欺骗奖励训练的那组——因为真正读懂了对方的认知状态，编造出的假故事自然更难被识破。两种能力互为前提、相互强化，同时训练两者效果最好。

人工智能强化学习隐私保护

分享至