微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

当AI学会在"黑暗中摸索"：马克斯·普朗克智能系统研究所等机构提出无需"偷看答案"的世界模型学习方法

人工智能世界模型学习部分可观测马尔可夫决策过程

当AI学会在"黑暗中摸索"：马克斯·普朗克智能系统研究所等机构提出无需"偷看答案"的世界模型学习方法

作者：科技行者

2026-05-22 17:15

分享至：

这项研究提出Pinductor方法，让AI仅凭观测数据（无需访问隐藏状态）就能学习部分可观测环境的世界模型，性能媲美需要"偷看答案"的现有方法。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-22 17:15 • 科技行者

这项由马克斯·普朗克智能系统研究所、图宾根大学、牛津大学、加州大学圣巴巴拉分校及IRIIS等机构联合开展的研究，以预印本形式于2026年5月发布，论文编号为arXiv:2605.13740，有兴趣深入了解的读者可通过该编号查阅完整论文。

**一个被"遮住眼睛"的学习者**

设想你被空降到一座完全陌生的迷宫里。你看不到整张地图，只能透过一个小窗口窥见眼前极小的一块区域。你需要通过不断行动、观察周边变化，逐步拼凑出这座迷宫的运行规律，最终找到出口。这，就是人工智能在"部分可观测环境"中面临的困境——它永远看不到完整的世界，只能靠零散的线索推断背后的真相。

现实中的AI面临着大量类似的处境：机器人在杂乱的房间里导航，只有局部视野；棋手在不完全信息的游戏中博弈；甚至一辆自动驾驶汽车，也永远无法同时感知道路上所有角落发生的事情。为了应对这类问题，计算机科学家们早就发明了一套叫做"部分可观测马尔可夫决策过程"（POMDP）的数学框架——你可以把它理解成一套精密的"世界运作规则手册"，里面描述了世界如何从一个状态转移到另一个状态、智能体会观察到什么、以及做出不同行动会得到怎样的奖励。

然而，手动编写这本手册极为耗时费力，而让AI从自身的经历中自动学习这本手册，又需要海量的尝试与试错。更麻烦的是，过去几乎所有的AI学习方法在训练时都有一个"作弊"的前提：允许系统在学习阶段偷看"正确答案"，也就是获取那些在真实部署中根本无法得到的隐藏状态信息。就好比你在练习走迷宫时，教练全程拿着上帝视角的鸟瞰图给你指路——等到真正比赛时，你却只剩下那个小窗口，一切都不同了。

正是针对这个核心矛盾，这支来自多所世界顶尖研究机构的团队提出了一个名为**Pinductor**（POMDP-inductor，即"POMDP推导器"）的方法。它的目标只有一个：让AI在完全没有"偷看答案"机会的情况下，仅凭自己在黑暗中收集到的观测信息，学会一套可用于规划和决策的世界模型。

一、现有方法为什么总要"偷看答案"

在深入理解Pinductor之前，值得先弄清楚为什么这个"偷看答案"的问题如此难以绕开。

当AI学习一个部分可观测的世界时，它面临一个根本性的鸡生蛋问题。要评估一个世界模型好不好，你需要知道AI的行动是否产生了正确的状态转移——但状态本身是隐藏的。打个比方，假设你在教一个从未见过厨房的人学做菜，你只能告诉他每一步闻到了什么气味、看到了什么颜色变化，却永远不能直接告诉他"锅里现在是几成熟"。他必须从这些间接线索中自己判断。

传统的方法（比如表格式学习、谱方法、变分推断）虽然理论上可以处理这类问题，但它们要么需要大量数据，要么对模型结构有严格假设，要么计算开销极大，在实际应用中往往捉襟见肘。而近年来大语言模型（LLM）的崛起，带来了一个新思路：与其让AI从零开始摸索世界规律，不如让LLM凭借其储存的海量知识，直接猜测这个世界大概是怎么运作的，然后再用实际观测数据来纠正它的猜测。

这就好比你不再让那个厨房新手凭感觉乱试，而是先给他一本由资深大厨写的食谱——食谱里有对厨房运作规律的大体描述，哪怕不完全准确，也能让他少走弯路。然后，他再根据实际烹饪中观察到的结果，不断修正食谱里的细节。这种"LLM生成代码化世界模型"的范式已经在一些研究中取得了不错的成果，比如WorldCoder和GIF-MCTS，但它们几乎都默认了一个前提：环境是完全可观测的，或者训练时可以获取隐藏状态。

与Pinductor最接近的前身是一个叫做POMDP Coder的方法，它确实尝试将LLM引入部分可观测场景，但仍然留有一个"后门"：每轮学习结束后，系统会被告知那一轮里实际发生的隐藏状态序列。这就像厨房新手做完一道菜，虽然全程只能靠嗅觉和视觉判断，但事后教练会把整道菜的制作过程完整复盘给他看，包括他永远看不见的那些内部化学变化。这在机器人在人群中工作、AI玩不完全信息游戏等真实场景中根本不可能实现。

二、Pinductor的核心思路：用"气味"代替"偷看"

Pinductor最关键的创新，是设计了一种完全基于观测信息的模型评分方式，彻底绕开了对隐藏状态的依赖。

回到厨房比喻：Pinductor的评分逻辑是——一个好的世界模型，应该能够在脑子里模拟出一系列"可能的烹饪过程"，而这些模拟过程所预测的"气味变化"和"颜色变化"，应该与你实际观察到的一致。模型不需要精确知道锅里几成熟，但它模拟出来的结果，在可观测层面应该说得通。

具体来说，Pinductor的工作流程可以分为四个相互咬合的环节。

首先是"提案阶段"：大语言模型接收到对环境的自然语言描述，以及少量实际收集的观测-行动轨迹（在实验中是10条），然后直接生成一段Python代码，完整描述世界的初始状态分布、状态转移规则、观测生成规则和奖励函数。这段代码就是候选的"世界模型"。LLM在这里扮演的角色，是一位读过大量厨艺书的厨师顾问，他能根据简单的描述和几个菜品样本，给出一份初步的食谱猜测。

接下来是"评估阶段"：对于每个候选模型，Pinductor会用一种叫做"粒子滤波"的技术来评分。粒子滤波可以理解成在脑子里同时维护一大批"平行世界"——每个粒子代表一种对当前真实隐藏状态的猜测。随着AI采取行动并获得新观测，每个粒子会根据候选模型预测的下一个观测结果，与实际观测进行对比，越接近的粒子得到更高的权重，越偏离的粒子逐渐"消亡"。

这里有一个精妙的设计：由于LLM生成的观测模型通常是确定性的（预测"一定会看到X"），直接比较会导致任何一丁点偏差都让粒子权重归零。Pinductor为此引入了一个"软化核"机制，将预测观测与实际观测之间的距离转化为一个连续的相似度分数，而非非黑即白的匹配判断。针对迷宫类游戏（MiniGrid）的具体观测，这个距离函数综合考量了视野内的网格差异、朝向差异以及携带物品的差异，并用指数衰减将距离映射成权重。一个候选模型的总得分，就是它在所有轨迹、所有时间步上，用粒子信念分布加权得到的预期对数似然值。这个得分完全来自观测信息，不涉及任何隐藏状态的比较。

第三个环节是"反馈与修正阶段"：Pinductor会将评分结果连同详细的"失败案例分析"一起反馈给大语言模型，包括执行出错的代码片段、观测预测误差最大的轨迹片段、奖励和终止信号的不匹配情况，以及一个来自"模型委员会"的不确定性信号。这个委员会的工作原理是：把迄今为止生成的所有候选模型收集起来，对同一个状态-行动组合进行集体投票，看看不同模型的预测是否一致。如果大家意见分歧很大，说明这个情形的转移规则还不清楚，需要重点关注。这套反馈机制让大语言模型能做出有针对性的局部修改，而不是每次都推倒重来。

最后是"规划阶段"：选出的最佳世界模型会被用于实际的决策规划。在执行任务时，AI持续维护一个基于粒子滤波的"信念状态"，并通过一个A*风格的信念空间规划器做出行动决策。规划器包含一个"熵系数"，允许AI在追求奖励的同时，主动探索能减少自身不确定性的行动。每次执行完一段任务，新收集的轨迹会被加入数据集，触发新一轮的模型修正循环。

三、候选模型怎么筛选：引入"探索-利用"的智慧

每一轮修正过程中，Pinductor会生成多个候选模型，并积累成一个持续增长的候选池。选择哪个已有模型作为"父节点"进行下一轮修正，是一个需要平衡的问题——总选得分最高的模型可能会陷入局部最优，而完全随机选择则太低效。

Pinductor借鉴了博弈论中经典的UCB1策略来解决这个问题。UCB1的逻辑可以用这样的直觉来理解：假设你在一排老虎机前，你既想多拉那些历史上出钱多的机器，又不想错过那些还没被充分探索的机器。UCB1给每台机器打一个综合分，既包含它的历史平均表现，又加上一个随着被忽视时间增长而增大的"探索奖励"。Pinductor的候选模型池以同样的方式运作，形成一棵修正树而非单一的修正链。

最终选模型时，Pinductor也做了一个务实的处理：不是简单地选得分最高的那个，而是在得分落在"最高分减去一个标准差"范围内的所有候选中，按软最大值（softmax）随机采样。这样做的好处是避免对评分噪声过于敏感——两个得分非常接近的模型，在统计意义上几乎没有差异，强行选其中一个可能只是在追逐噪声。

四、在迷宫游戏中的实战检验

研究团队选取了MiniGrid这套模拟环境来验证Pinductor的能力。MiniGrid是一系列基于网格地图的部分可观测任务，AI智能体每次只能看到前方3×3格子范围内的内容。研究者选择了五个难度递进的场景进行测试。

最简单的EMPTY场景是一个10×10的空房间，目标随机放在四个角落之一。由于房间近乎对称，智能体面临严重的位置歧义问题，必须主动探索才能判断目标在哪个角落。CORNERS场景稍复杂一些，但整体结构类似。LAVA场景引入了危险元素：房间被一堵熔岩墙分成两半，墙上有且只有一个可通过的缺口，一旦踩上熔岩就会立刻结束游戏且得零分，模型必须正确学到熔岩的致命性语义。FOUR ROOMS场景是19×19的四室结构，每个房间通过一个窄小的门洞相连，目标随机放在某个房间某个位置，智能体必须进行长期规划和信念维护。最复杂的UNLOCK场景要求多步骤的复合推理：智能体必须先找到一把钥匙、捡起它、走到锁门前、打开门，才能到达目标——整个过程中必须追踪自己是否拿着钥匙、门的状态是否改变。

对比实验设置了四组基准：使用手工编写的精确模型（代表"理论上限"）、POMDP Coder（能偷看隐藏状态的LLM方法）、表格式基准（用频率统计估计转移和观测概率，但同样需要访问隐藏状态），以及随机乱走基准。两个LLM方法均使用相同的Qwen 3.6 Plus模型，在相同的10条演示轨迹和相同的随机种子下进行对比，每组条件运行10个随机种子，每个种子评估3个完整episode，95%置信区间通过自助法（bootstrap）计算。

结果相当出人意料。在五个场景中，Pinductor的平均回报和胜率与POMDP Coder高度接近，差距在统计误差范围内——这意味着移除隐藏状态监督并没有导致可测量的性能下降。同时，Pinductor大幅领先于表格式基准：后者尽管被允许访问隐藏状态，但从10条轨迹中仅能覆盖极少数状态-行动组合，面对大量未见过的情形时表现极差。两个LLM方法只需极少量演示轨迹就能接近性能饱和，这印证了LLM先验知识在快速缩小模型假设空间方面的强大作用。

另一项有意思的分析追踪了智能体在任务执行过程中的"信念质量"。随着episode推进和观测积累，粒子群越来越集中，其中代表真实隐藏状态的粒子所占权重稳步上升，MAP（最大后验概率）猜测命中真实状态的比例也持续提高。与POMDP Coder相比，Pinductor的信念熵下降曲线更为平滑——这是软化核机制带来的结果：即使预测观测与实际观测不完全吻合，粒子也能获得一个连续的权重而非直接归零，信念分布的退化因此被大幅延缓。

五、性能究竟来自LLM的"常识"还是数据本身

一个自然的疑问是：Pinductor的表现，到底有多少来自LLM对环境语义的先验理解，有多少来自观测数据的拟合？研究者设计了两组消融实验来拆解这个问题。

第一组实验系统地削减提供给LLM的自然语言描述。研究者定义了四个层级：L0是完全不提供任何描述，L1只给出网格尺寸，L2给出基本布局和目标位置信息，L3是完整的任务描述（包括随机化因素说明）。实验发现，性能对描述层级高度敏感，且这种敏感性因任务而异——简单的CORNERS场景在L0级别仍能从LLM先验和轨迹数据中恢复出相当性能，而复杂的FOUR ROOMS场景在提供完整描述（L3）之前性能几乎停滞。这说明LLM的语义理解能力和具体的任务描述信息，共同构成了方法奏效的条件。

第二组实验替换了环境中的语义标签，将"熔岩"、"钥匙"、"锁门"等有意义的名称替换为抽象标识符。结果显示，跨所有场景的平均性能均出现明显下降，部分场景（如LAVA的抽象版本）胜率直接降为零。这表明Pinductor确实依赖LLM对词语语义的理解来推断对象的物理属性和交互规则——"熔岩"的危险性、"钥匙"对"锁门"的适配关系，都是LLM无需从数据中学习就能直接调用的知识。

第三组实验比较了三种LLM能力水平：较弱的Qwen3 14B、较强的Qwen3.6 Plus，以及Anthropic的Claude Opus 4.7。在LAVA和UNLOCK两个场景上的结果呈现出一种阈值效应：Qwen3 14B在两个场景上的平均胜率均接近零；一旦模型能力突破某个门槛（Qwen3.6 Plus和Claude Opus 4.7），性能便跳跃到相近的较高水平，且两个强模型之间差异不大。这暗示在稀疏奖励的部分可观测场景中，LLM能力主要决定它能否成功合成一个"足够用"的世界模型，而非决定最终性能的精确高低。

六、在随机性更强的环境中还管用吗

现实世界远比实验室的确定性环境更混乱。研究者还在随机化程度更高的LAVA、UNLOCK和FOUR ROOMS变体上进行了测试——这些变体将更多的环境元素（如智能体起点、目标位置、障碍物布局）随机化，要求模型学到的是普适的规律，而非某个固定布局的特例。

结果显示，两个LLM方法在随机环境中的性能均有所下降，但Pinductor的下降幅度与POMDP Coder基本持平。换句话说，移除隐藏状态监督在随机环境中同样没有带来额外的性能损失。这在一定程度上说明，Pinductor的观测级评分信号尽管信息量少于状态级监督，但已经足够引导模型捕捉环境的结构规律，而非死记硬背某个特定布局。

归根结底，这项研究回答了一个在AI世界模型学习领域悬而未决的问题：当"偷看答案"的特权被剥夺时，凭借大语言模型提供的先验知识和精心设计的基于观测的评分机制，一个能用于真实规划的世界模型依然可以从少量轨迹中被有效诱导出来。研究者也坦诚地指出了当前方法的局限：实验只在MiniGrid这一类特定环境中进行，观测距离函数是人工设计的（而非自动学习的），演示轨迹是手动收集的，LLM API调用引入的随机性导致结果方差较高。未来的工作方向包括将方法迁移到更广泛的环境类型、让LLM同时优化观测距离函数和规划器本身，以及寻找更稳健的LLM调用策略来降低方差。

对于真正对这项工作感兴趣、希望深入了解方法细节、算法伪代码、完整实验数据以及提示词示例的读者，完整论文可通过arXiv编号2605.13740获取，代码已开源在GitHub的atomresearch/pinductor仓库。

---

Q&A

Q1：Pinductor为什么不需要访问隐藏状态，传统方法为什么需要？

A：传统方法评估世界模型时，需要将模型预测的状态转移与真实发生的状态转移做对比，而这要求知道真实隐藏状态。Pinductor的核心创新是改用粒子滤波，在模型自己维护的信念分布上计算观测预测误差来评分，完全绕开了对隐藏状态的依赖，整个训练过程只用到观测、行动和奖励信号。

Q2：粒子滤波在Pinductor中具体是怎么工作的？

A：粒子滤波在Pinductor里负责维护一批平行的"状态猜测"，每个猜测叫一个粒子。候选世界模型会预测每个粒子的下一个观测是什么，然后和真实观测用距离函数对比，预测越准的粒子得到越高的权重，并被更多地保留进下一步。所有粒子的加权预测对数概率加总，就是候选模型的得分。

Q3：Pinductor对大语言模型的能力要求高吗，普通规模的模型能用吗？

A：研究结果显示Pinductor的性能对LLM能力存在明显的阈值效应。以LAVA和UNLOCK场景为例，参数量较小的Qwen3 14B几乎无法合成有效模型，胜率接近零；而更强的Qwen3.6 Plus和Claude Opus 4.7则都能达到较高性能。所以对于有复杂结构的环境，需要能力足够强的大语言模型才能发挥这套方法的优势。

人工智能世界模型学习部分可观测马尔可夫决策过程

分享至