微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

约翰斯·霍普金斯大学与北京大学联手，让AI读懂人心：无需任何标注数据的"心智零"系统

人工智能强化学习心智理论推断

约翰斯·霍普金斯大学与北京大学联手，让AI读懂人心：无需任何标注数据的"心智零"系统

作者：科技行者

2026-06-08 16:46

分享至：

MindZero是约翰斯·霍普金斯大学与北京大学联合开发的AI系统，无需标注数据，通过自我监督强化学习训练小型语言模型实时推断人类意图，在协助任务中超越多数大型专有模型。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-08 16:46 • 科技行者

这项由约翰斯·霍普金斯大学与北京大学联合开展的研究，发表于2026年第43届国际机器学习大会（ICML 2026），会议地点为韩国首尔，论文编号为arXiv:2606.00240。感兴趣的读者可通过该编号在学术数据库中检索完整论文。

你有没有想过，当你走进厨房，拿出一只碗、打开冰箱取出鸡蛋，你的家人看到这一系列动作，几乎不需要你开口，就已经猜到你接下来要做煎蛋——甚至悄悄帮你把平底锅放到炉子上了？这种靠观察行为来推断他人意图的能力，心理学家称之为"心智理论"（Theory of Mind，ToM），是人类社交智慧的核心之一。而这项研究正是要让AI具备类似的能力：通过观察人类的一系列行为动作，实时推断出人的目标与意图，并在恰当的时机主动提供帮助。

研究团队将这套系统命名为**MindZero**，中文可以理解为"心智零"——"零"代表的是它完全不需要人工为训练数据打标签（即无需告诉系统"这个人此刻的目标是X"），系统完全依靠自我驱动的学习机制来掌握推断他人心理状态的能力。这在AI领域是一个颇具挑战性的突破口，因为长期以来，训练AI理解人类意图要么需要海量的人工标注，要么依赖计算代价极高的推理方法。

---

一、为什么读懂人心对AI这么难？

要理解这项研究解决的是什么问题，先来聊一个生活场景。

假设你是一位刚入职的助理，你的老板性格内敛，很少直接说"我想要什么"。你必须通过观察他的行为——他先翻出了哪份文件、他走向了哪个会议室、他在白板上画了什么——来猜测他接下来最可能的目标，并在他开口之前提前把需要的材料准备好。你不能只靠某一个瞬间的动作来判断，而要把所有的行为串联成一条时间线，实时更新你的猜测，同时也要考虑到"我猜的可能是错的"这种不确定性。

这正是AI系统在智能助理领域面临的核心挑战。心理状态是看不见摸不着的，它隐藏在行为背后，而且会随着时间动态变化。对于真实世界中的应用场景——比如家庭服务机器人、网页操作助理——要收集大规模且有可靠标注的人类心理状态数据，几乎是不可能完成的任务。人类很难精确描述自己在每一个时刻究竟"在想什么目标"，更不用说为AI训练提供这样的标签了。

研究人员梳理了现有的三类主流方法，并分别指出了它们的局限性。第一类是基于提示词的方法，也就是给大语言模型（LLM）设计精巧的提问方式，引导它推断人的意图。这类方法虽然灵活，但在复杂情境下经常出错，在需要跨越长时间轴来理解行为的任务上表现尤其不稳定。第二类是基于贝叶斯逆向规划（Bayesian Inverse Planning，BIP）的模型驱动方法，这类方法在推理逻辑上更扎实，但每次做推断都需要大量计算——系统需要模拟"如果对方的目标是X，那么他接下来最可能做什么"，然后用观察到的真实行为来反推最可能的目标，这个过程极其耗时，无法用于需要实时响应的实际场景。第三类是学习型方法，训练神经网络来直接输出心理状态推断，但这类方法依赖于昂贵且难以获得的人工标注数据。

MindZero的目标，就是同时解决这三类方法各自的短板：不需要标注数据、推断速度快、推理结果稳健可靠。

---

二、像侦探一样训练自己：自我监督强化学习的核心思路

MindZero的核心训练机制，可以用"培训侦探"来理解。

一个好的侦探，不需要有人告诉他"凶手是谁"才能学习破案——他通过观察现场的线索（行为证据），提出各种可能的假设（嫌疑人），然后用"如果这个假设是真的，那么现场应该出现什么迹象？"来反过来验证假设是否合理。假设与证据越吻合，该假设的可信度就越高。这个过程完全是自我驱动的：侦探不需要一个权威声音告诉他"你猜对了"，只需要不断地用新证据来检验假设，就能越来越接近真相。

MindZero的训练逻辑与此如出一辙。系统在训练时，接受的输入是一段人类行为序列（比如：张三先走向冰箱、打开冰箱、取出一块三文鱼、走向灶台），然后需要输出若干个对人类目标的假设（比如：假设1：他想做三文鱼意面；假设2：他想做三文鱼沙拉），以及每个假设的概率权重。

系统如何判断这些假设的质量好不好？关键在于一个自我监督的奖励信号：如果系统提出的假设是正确的，那么基于这个假设，人类接下来的行为应该是"最合理的行动"，即行为发生的概率应该很高。反之，如果假设是错误的，那么观察到的实际行为在这个假设下看起来就会很"奇怪"——概率很低。系统就靠这个信号来训练自己：让你提出的假设，能最大化解释你实际观察到的行为。

研究团队将这套机制称为"自我监督强化学习"（Self-Supervised Reinforcement Learning，SSRL）。与传统的强化学习不同，这里的奖励信号完全来自系统自身的观察和推断，而不需要外部的正确答案标签。这就好比侦探在没有警方结案报告的情况下，靠自己的推理逻辑不断优化破案能力。

---

三、奖励的设计：三个要素缺一不可

要让"侦探培训"真正有效，奖励信号的设计至关重要。研究团队将奖励函数拆解为三个相互配合的组成部分。

第一个部分是"行动似然度"，也就是评估"如果人的目标真的是这个假设，那么他做出这一系列行为的可能性有多大"。这个评估可以通过两种方式实现：在结构较简单的网格世界（GridWorld）环境中，使用一个基于规则的规划器来精确计算；在更复杂的家庭环境中，则使用另一个预训练的大语言模型来估算。

第二个部分是"心理状态先验"，也就是对假设本身合理性的基础评分。并非所有假设生来平等——"他想把苹果放进洗碗机"这个假设，不管行动序列怎么看，都应该被赋予极低的基础分，因为这不符合常识。在家庭场景中，大语言模型会直接输出每个假设的常识合理性分数，充当过滤器，防止系统产生荒谬的猜测。

第三个部分是"熵奖励"，这是一个防止系统"过于自信"的安全机制。在推断早期，证据有限，任何单一假设都不应该被赋予100%的确定性。熵奖励鼓励系统保持多元化的假设集合，不要过早地把所有赌注押在某一个猜测上。这就好比一个经验丰富的侦探在案件初期总是保留多条侦查线索，而不会在第一个嫌疑人出现时就关闭其他调查方向。

这三个部分共同作用，最终的奖励就是：系统提出的所有假设按概率加权后，对观察到行为的解释能力（行动似然度乘以先验）的总和，再减去一个鼓励多样性的熵惩罚项。训练过程中，系统（一个多模态大语言模型）不断调整自己提出假设的方式和分配概率的方式，使得这个奖励最大化。

训练完成后，系统就内化了这套贝叶斯推理逻辑。在实际使用时，它不再需要进行耗时的外部规划搜索，而是在单次前向推断（single forward pass）中就能直接输出假设及其概率分布，速度大幅提升。

---

四、测试场地：两个截然不同的考验

为了全面评估MindZero的能力，研究团队设计了四个实验场景，涵盖两个截然不同的环境。

第一个环境是"网格世界"（GridWorld），一个10×10的二维方格地图，里面散布着障碍物和8个有不同颜色与形状的物体。一个虚拟的人类角色在地图上移动，目标是把两个特定颜色的方块拼放到一起。这个环境的好处是规则清晰、计算可控，适合精确测试推理能力，同时加入了视觉理解的挑战——AI需要同时看懂图像和文字描述。

在这个环境中，研究团队设计了两类任务。一类是问答测试：给系统看一段人类行动轨迹，然后问"他接下来最可能去取哪个方块"，考察系统对人类目标的单次推断能力。另一类是主动协助测试：系统扮演助手角色，需要实时跟踪人类的行动，在合适时机去拿另一个目标方块，以帮助人类更快完成任务，考察的是连续、动态的在线推断能力。

第二个环境是"家庭场景"（Household），基于VirtualHome模拟器构建，场景更接近真实生活——一个有卧室、厨房、客厅、浴室的公寓，里面有各种家具和物品。人类角色可能在执行"摆餐桌"、"把东西放进冰箱"、"准备食物"或"装满洗碗机"等任务，目标对象、数量和摆放位置都充满不确定性，而且人类只能观察到自己附近的区域（部分可见性），进一步增加了推断难度。

在这个环境中，同样包括问答（使用MMToM-QA多模态心智理论问答基准数据集）和主动协助（使用O-WAH在线观察与帮助基准数据集）两类任务。特别值得注意的是，协助任务中使用了与训练集完全不同的公寓布局，专门测试系统的泛化能力。

---

五、对手阵容：谁是MindZero的竞争对手？

为了公平评估，研究团队为MindZero设置了三类对手。

第一类是"基础模型"，即未经任何额外训练的预训练多模态大语言模型。在网格世界任务中，使用了Qwen3-VL-4B和Qwen3-VL-8B（数字代表模型参数量，越大通常越强）；在家庭场景中，使用了Llama-3.2-3B、Llama-3.1-8B和Qwen3-4B。这类对手代表了"直接用现成大模型来做心智推理"的基线水平。

第二类是"大型模型"，包括Qwen3-235B-A22B、GPT-5.2和Gemini-3等当时最顶尖的大语言模型。这类模型参数量远超基础模型，代表了"用最强的大脑来做这件事"的上限参考。

第三类是"测试时扩展方法"，包括ThoughtTracing和AutoToM两个系统。这类方法在推断时会花费大量计算资源来维护和更新多个假设，本质上就是把贝叶斯逆向规划嵌入到大模型的推断流程中。它们代表了"用时间和计算换精度"的高质量但低速度方案，也是最接近MindZero设计理念的竞争者。正因为推断太慢，这两类方法没有参与实时协助任务的测试。

---

六、问答任务：小模型逆袭大模型的惊人结果

在网格世界问答任务中，各方表现的差距令人印象深刻。

基础版的Qwen3-VL-4B只答对了37.7%的问题，Qwen3-VL-8B也只有43.3%，考虑到这是二选一的问题，随机猜测的正确率是50%，这意味着基础模型的表现甚至不如随机猜测。测试时扩展方法ThoughtTracing和AutoToM带来了一定改进，把准确率提升到50%到56%区间，但代价是计算量翻了数倍乃至数十倍。就连大型模型Gemini-3-Flash也只达到68%的准确率，GPT-5.2停在50.7%。

经过MindZero训练的Qwen3-VL-4B，准确率直接跳到95.0%；MindZero训练的Qwen3-VL-8B则达到92.3%。两者都实现了超过2倍的准确率提升，而推断计算量与基础模型几乎完全相同（因为只需要单次前向推断）。换句话说，一个经过MindZero训练的40亿参数小模型，在心智推理任务上远远甩开了当时最顶尖的大模型，且速度更快、成本更低。

在家庭场景问答任务中，这种逆袭同样清晰。MindZero训练的Llama-3.2-3B（只有30亿参数）达到77.8%的准确率，MindZero训练的Llama-3.1-8B达到76.2%，MindZero训练的Qwen3-4B达到72.7%。相比之下，基础版的Llama-3.2-3B只有34.8%，基础版Llama-3.1-8B只有41.3%，基础版Qwen3-4B只有42.8%。

更值得关注的对比是：使用ThoughtTracing或AutoToM加持下的Qwen3-235B-A22B（2350亿参数！），准确率分别为59.8%和67.5%，计算量高达MindZero的数百倍，却依然不如只有30亿参数的MindZero-Llama-3.2-3B。AutoToM加上Gemini-3-Flash虽然达到了80.2%的最高分，但那是使用了专有大模型且计算成本远高于MindZero的结果。

---

七、实时协助：当推断速度成为生死线

问答任务评估的是"在某一时刻做出正确推断的能力"，而实时协助任务则要严苛得多：AI必须在每一个时间步骤都实时更新对人类目标的推断，并据此决定自己的行动，而且一旦判断错误去帮错了方向，还会受到惩罚。评估指标是"加速度"——即有AI帮助时，人类完成任务所需的时间比没有帮助时缩短了多少百分比。

在网格世界协助任务中，MindZero训练的Qwen3-VL-4B实现了23.0%的加速，MindZero训练的Qwen3-VL-8B实现了24.5%的加速。而基础版的Qwen3-VL-4B只有1.4%的微弱加速，基础版Qwen3-VL-8B甚至出现了-0.1%（即帮了倒忙）。更戏剧性的是，GPT-5.2和Gemini-3-Flash的加速均为0.0%——原因是它们的目标预测频繁变动，导致助手机器人不断改变行进方向、无法完成取物动作，实际上什么忙都没帮上。

在家庭场景协助任务中，MindZero训练的Qwen3-4B实现了19.1%的加速，MindZero训练的Llama-3.1-8B实现了17.4%的加速。基础版的各个小模型只有约2%的加速。值得注意的是，大型模型Gemini-3-Flash在这里表现出17.7%的加速，GPT-5.2为9.4%，Qwen3-235B-A22B为12.3%——这说明家庭协助任务足够复杂，足以体现出大模型的语言理解优势，但MindZero在同等或更低计算成本下依然能与之媲美甚至超越。

研究团队还特别追踪了"在线目标推断准确率随任务进度的变化曲线"，结果非常直观：MindZero的准确率曲线随着人类完成的行动越来越多，呈现出稳定上升的趋势，最终达到很高水平；而基础模型和大型模型的曲线则在整个任务过程中大部分时间都维持在很低水平，只在任务接近尾声时才略有提升——此时的提升对于提供有效帮助来说已经太迟了。这说明MindZero具备真正意义上的"在线推断"能力：随着观察到更多行为，它能持续积累证据、不断修正自己的判断，而不是等到尘埃落定才"恍然大悟"。

---

八、拆解关键：哪些设计真正起了作用？

研究团队针对家庭协助任务，对MindZero的三个核心设计元素进行了逐一拆除实验，以确认每个元素是否真的不可或缺。

拆除"先验建模"（即取消对假设合理性的常识审查）后，加速率从19.1%下降到17.0%，下降了约2个百分点。这说明常识过滤虽然不是最关键的要素，但能防止系统产生荒谬假设并因此浪费概率权重，贡献是实质性的。

拆除"多假设维护"（即让系统只输出一个最可能的目标，而不是一组带概率的假设）后，加速率从19.1%跌至10.3%，降幅超过一半。这验证了"在不确定环境中保留多种可能性"的核心价值——任务初期证据有限时，贸然"押注"单一目标会导致大量错误帮助行为，即便后来修正了判断，前期浪费的步骤也已造成损失。

拆除"熵奖励"（即不再奖励保持假设多样性）后，加速率从19.1%骤降到5.2%，降幅最大。这说明熵奖励在训练过程中对防止模型过早"锁定"某一个错误假设起到了至关重要的作用。没有熵奖励，模型容易在训练中习得一种"总是快速确定并坚持某个假设"的策略，这在实际应用中极为脆弱。

---

九、真人实验：AI助手真的能帮上忙吗？

所有上述实验都是在模拟环境中进行的。为了验证MindZero能否真正帮助真实的人类用户，研究团队招募了12名约翰斯·霍普金斯大学的学生（含本科生、硕士生和博士生，5男7女），在IRB伦理委员会批准下开展了一项真人实验。

实验设置是让参与者在模拟公寓中扮演"主要行动者"，完成四项不同的家庭任务，每次完成任务时分别配备不同的AI助手：没有助手（纯人类操作，作为基准）、配备基础版Qwen3-4B的助手、配备MindZero训练版Qwen3-4B的助手，以及配备Gemini-3-Flash的助手。

结果显示，基础版Qwen3-4B助手只带来了2.6%的微弱加速，有时甚至帮了倒忙（在任务5和任务13上出现负加速）。MindZero训练版Qwen3-4B实现了平均19.7%的加速（标准误差6.3%），而Gemini-3-Flash实现了23.4%的加速（标准误差6.4%）。统计检验表明，MindZero与Gemini-3-Flash之间的差距并不具有统计显著性（p值为0.24），也就是说两者的表现实际上是在同一水平线上的。

这意味着：一个参数量仅为Gemini-3-Flash极小比例、可以在本地运行的开源小模型，经过MindZero训练后，在真实人类协助任务上能达到与顶级专有大模型相当的水平，同时部署成本和隐私安全性都大幅优于依赖云端调用的大型模型。

---

十、这项研究还没解决的问题

研究团队坦承，MindZero目前还存在两个主要局限。

第一，MindZero目前只考虑了单一的"被观察者"（即一个人类），没有建模多个智能体之间的递归心理推断（比如"我知道你知道我知道..."这类嵌套的心智状态推理）。在多人协作或博弈场景中，这种递归推理往往至关重要，也更贴近真实的社交情境。

第二，随着任务时间轴拉长，输入给模型的信息量（即行为历史序列的长度）会线性增长，这对模型的处理能力和推断速度构成压力。如何设计更高效的模型结构来应对超长输入，是下一步需要解决的工程挑战。

研究团队表示，后续工作将致力于把多智能体递归心理推断纳入训练框架，并探索更高效的模型架构以应对长序列输入问题。

---

说到底，MindZero做的事情，是把一种原本需要极高计算代价才能实现的推理能力——"通过观察别人的行为来推断他的内心目标"——内化到一个小型语言模型的参数权重里，让它在回答问题的瞬间就能完成原本需要反复规划搜索才能做到的事。这就好比一个经过大量案例训练的侦探，最终不需要每次都翻阅案卷、重新推演，而是凭借直觉就能锁定最可能的答案——但这个"直觉"不是玄学，而是数以千次推理练习后的肌肉记忆。

对于普通人来说，这项研究意味着未来的智能助理有望真正"读懂你的心"，在你还没开口之前就预判你的需要并采取行动，同时还能在本地设备上运行，不必把你的行为数据上传到云端。这对家庭服务机器人、个人数字助理、老人护理系统等领域都有深远的潜在影响。

当然，更强的"读心"能力也带来值得警惕的伦理问题：如果系统被滥用于未经授权地分析和预测用户行为，或者系统推断错误却自作主张地干预，都可能造成伤害。研究团队在论文中也明确呼吁：透明度、用户知情同意和严格的实际应用评估，是负责任部署此类系统的必要前提。

有兴趣深入探究这项研究的读者，可以通过arXiv编号2606.00240查阅完整论文，代码、数据集和模型均已在论文中提供的开源地址公开。

---

Q&A

Q1：MindZero为什么不需要人工标注训练数据？

A：MindZero使用"自我监督强化学习"机制：系统提出对人类目标的假设，然后用"如果这个假设是对的，观察到的行为发生概率有多高"来反向打分，高分假设得到奖励。整个过程只需要人类行为序列本身，不需要任何人告诉系统"这个人的目标是X"，所以完全不依赖人工标注。

Q2：MindZero在实时协助任务中为什么比GPT-5.2和Gemini-3表现更好？

A：大型模型在协助任务中的问题是目标预测不稳定，频繁改变猜测，导致助手机器人不断调转方向、无法有效执行任何帮助行为。MindZero通过维护多个带概率的假设并用熵奖励保持判断的稳健性，能够随时间积累证据、逐步收敛到正确目标，在整个任务过程中提供持续且方向一致的帮助。

Q3：MindZero的"熵奖励"机制具体起什么作用？

A：熵奖励惩罚系统过早对某一个假设过度自信。任务初期证据少，过早锁定单一目标风险极高。熵奖励鼓励系统在证据不足时保持多个假设并赋予相对均衡的概率，随着行为证据积累再逐步收敛，避免一旦押错宝就造成大量无效乃至有害的帮助行为。实验显示去掉熵奖励后协助加速率从19.1%骤降至5.2%，是三个消融组件中影响最大的一个。

人工智能强化学习心智理论推断

分享至