微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 世界模型的全新架构:卡内基梅隆大学团队提出PAN模型,让AI拥有"大脑中的虚拟世界"

世界模型的全新架构:卡内基梅隆大学团队提出PAN模型,让AI拥有"大脑中的虚拟世界"

2025-07-18 09:35
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-18 09:35 科技行者

想象一下,如果AI能够像人类一样在大脑中构建一个完整的虚拟世界,在这个世界里进行各种"思想实验",预测不同行为的后果,然后选择最佳方案——这听起来像科幻小说,但卡内基梅隆大学的研究团队正在将其变为现实。

这项由卡内基梅隆大学计算机科学学院的Eric Xing教授、Mingkai Deng、Jinyu Hou,以及加州大学圣地亚哥分校的Zhiting Hu教授联合完成的研究发表于2025年7月,论文标题为《Critiques of World Models》。研究团队不仅深入分析了当前世界模型的各种问题,更提出了一个名为PAN(Physical, Agentic, and Nested)的全新架构。有兴趣深入了解的读者可以通过arXiv:2507.05169v1访问完整论文。

研究团队从科幻经典《沙丘》中获得灵感。在这部小说中,预言者能够在脑海中模拟所有可能的未来,从而做出最优决策。正如小说中的预言者能够"看见"无数种可能的未来一样,研究团队希望让AI系统也能拥有类似的能力——在内部构建一个完整的世界模型,用来进行各种假设性思考和推理。

当前的AI系统面临一个根本性问题:它们缺乏对世界的整体理解。就像一个只会背书的学生,它们可以回答很多问题,但无法真正理解事物之间的关系,更无法预测自己的行为会产生什么后果。这就是为什么现在的AI虽然能写诗、能画画,但在需要长期规划或复杂决策的任务上表现并不理想。

研究团队发现,这个问题的核心在于现有的"世界模型"存在诸多局限。世界模型就像AI系统的"大脑地图",它应该帮助AI理解世界的运行规律,预测行为的后果。但现在大多数研究都过分专注于生成漂亮的视频画面,却忽略了模型的真正目的——为智能推理服务。

一、现有世界模型的根本缺陷

想象你正在学习驾驶,有两种不同的学习方式。第一种是只看驾驶教学视频,关注画面是否清晰、色彩是否鲜艳;第二种是真正理解交通规则、路况变化、以及不同驾驶行为可能带来的后果。显然,第二种方式才能培养出真正的驾驶技能。

然而,当前的世界模型研究大多采用了第一种方式。研究团队深入分析了现有的各类世界模型系统,发现它们都存在共同的问题:过分关注视觉效果,忽略了智能推理的本质需求。

以游戏世界模型为例,像Google DeepMind的Genie 2、微软的Muse以及Decart公司的Oasis等系统确实能生成看起来很逼真的游戏画面,甚至能持续1-2分钟的连续游戏内容。但这些系统的问题在于它们太过专门化——Genie 2只能处理特定类型的游戏控制输入,Oasis只适用于类似Minecraft的环境。更重要的是,它们的"记忆"很短暂,无法进行真正的长期规划。就像一个失忆症患者,它们只能记住最近几分钟发生的事情,无法制定需要几小时甚至几天才能完成的复杂策略。

另一类备受关注的3D场景世界模型,如World Labs的系统,虽然能生成视觉上令人印象深刻的三维场景,但本质上只是静态环境的展示。它们缺乏动态交互、物理因果关系,以及多智能体行为的模拟能力。这就像拥有一个精美的电影布景,看起来很真实,但里面的物体都是假的,无法进行真正的互动。

物理世界模型如Wayve的GAIA-2和NVIDIA的Cosmos在模拟低级物理控制方面表现出色,能够很好地处理自动驾驶、机器人操作等任务。但它们的问题在于过度专门化,只能在特定领域发挥作用,无法处理跨领域的复杂情况。

更有趣的是,那些被广泛关注的视频生成模型,如OpenAI的Sora和Google DeepMind的Veo,虽然能生成视觉上令人惊叹的视频,但从世界模型的角度来看,它们存在根本性缺陷。这些模型只是在生成固定的视频序列,无法根据不同的行为输入产生相应的反应。它们缺乏对状态、行动以及物体级别表示的明确概念,也无法进行反事实推理。用研究团队的话说,这些系统更像是"视频生成工具"而非真正的"决策系统组件"。

二、当前主流思路的五大误区

研究团队识别出了当前世界模型研究中的五个主要误区,就像诊断一个复杂疾病时需要找出所有症状一样。

第一个误区是对数据类型的错误认知。目前有一种观点认为,感官数据(如视频、音频)比文本数据更重要,因为"一个4岁儿童处理的视觉数据有1.1×10^14字节,而训练现代大语言模型的所有文本数据只有0.9×10^14字节"。这种观点看似有道理,但实际上犯了一个根本性错误:混淆了数据量和信息密度。

以一本厚厚的字典和一张高清照片为例。从数据量来看,高清照片可能占用更多存储空间,但字典包含的语义信息远比单张照片丰富。文本语言是人类经过数千年进化形成的经验压缩,它不仅包含物理现实,还包含心理、社会和反事实现象的丰富信息。正义、动机、后悔这样的概念在语言中有丰富的表达,但在纯视觉数据中却很难直接观察到。

更重要的是,语言提供了通向人类集体记忆的接口——包括历史记录、科学发现、工程经验等,这些信息几乎不可能仅从原始感知输入中获得。事实证明,基于文本训练的模型能够编写软件、解决奥林匹克级别的数学问题,而仅基于视觉和运动数据训练的模型主要适用于物理导航或操作任务。

第二个误区涉及表示方式的选择。有观点认为应该避免使用离散标记(tokens),而应该用连续嵌入来表示世界状态,以便进行基于梯度的优化。但这种观点忽略了人类认知的一个重要特点:我们通过将原始感知分类为离散概念来应对变化和噪声。

基于词汇的标记不是负担,而是优势。它们提供了稳定、可组合的媒介来表示各个抽象层次的概念。这些标记构成了当今语言AI系统的基础,让大语言模型能够模拟这个由自然语言形成的潜在空间中的内容。可以说,语言空间是人类通过进化和学习创造的,用来表示可感知和可描述宇宙的人工潜在空间。

研究团队通过严格的数学证明表明,离散表示能够保持任意精细的区分,只要我们适当地扩展它们。他们提出了两种策略:增加词汇量大小(纵向扩展)或增加序列长度(横向扩展)。理论分析显示,横向扩展(使用更长的表达)比纵向扩展(使用更大的词汇)更有效率。这意味着使用增强的大语言模型架构能够提供更灵活、更高效的路径来捕获数据中的复杂结构。

第三个误区是对自回归生成模型的误解。有些研究者认为应该避免使用自回归模型,因为它们"注定会犯错,无法建模结果的不确定性"。但这种观点忽略了一个关键事实:许多真实世界系统本质上就是混沌的,微小偏差会随时间指数级增长。

在这种情况下,精确预测是不可能的,无论使用什么模型类别。然而,结构良好的自回归模型仍能学习系统的有用抽象属性,这些属性往往具有惊人的稳定性和可预测性。这一见解基于遍历理论和统计力学的深刻洞察。

第四个误区关于训练目标的选择。目前流行的JEPA(Joint Embedding Predictive Architecture)框架主张放弃概率性数据重构目标,而采用基于能量的潜在重构目标,认为这样更易处理。但研究团队通过严格的数学分析证明,这种方法容易导致表示坍塌——模型可能通过将所有观察映射到常数向量来轻松最小化损失,从而学不到任何有用信息。

相比之下,生成重构损失通过引入解码器并直接监督预测的下一个观察,将学习目标锚定在可观察数据的结构上,从而避免了这种坍塌问题。研究团队进一步证明,潜在重构本质上只是生成重构的一个上界受限的代理,这意味着最小化潜在损失并不能保证与智能体在世界中实际观察到的内容保持一致。

第五个误区涉及模型的使用方式。有观点认为应该使用模型预测控制(MPC)而非强化学习(RL),理由是后者需要太多试验。但MPC存在实际限制:它需要在每个推理时间步重复进行潜在轨迹模拟,导致计算开销很大,难以在快速变化的环境中有效响应。

而RL是一种通用、灵活、可扩展的方法,不会限制决策方法或搜索范围。特别是,可以用世界模型替代真实环境进行探索和学习。这种方法将部分计算成本转移到训练阶段,而不是在决策时从头开始规划,能够训练出可重用的策略网络,实现快速行动选择。

三、PAN架构:一个全新的解决方案

基于对现有方法深入分析后,研究团队提出了PAN(Physical, Agentic, and Nested)世界模型架构。这个名字很好地概括了其核心特点:物理性(Physical)、智能体特性(Agentic)和嵌套性(Nested)。

为了更好地理解PAN的设计理念,研究团队选择了一个极具挑战性的应用场景——登山探险。这个选择很有深意,因为登山涉及了世界模型需要处理的几乎所有复杂性:多模态感官输入、多层次决策、长期规划、社交协调,以及各种不确定性。

在登山过程中,世界模型必须处理来自视觉、听觉、温度、运动甚至疼痛等多种感官信号。这些信号对不同任务的重要性各不相同,但它们共同构成了一个整体的现实体验。比如,在做路径规划时,地形的宏观特征比岩石表面的细节更重要;但在决定手脚放置位置时,表面的纹理和摩擦力又变得至关重要。

PAN的核心创新在于采用了混合表示和多尺度推理原则。它通过感官编码器处理多模态输入,同时使用离散和连续路径来捕获世界的互补方面。一方面,分词器将原始信号分层映射为基于PAN词汇的离散标记,这些标记跨越多个抽象层次,包括通过VQ-VAE风格方法学习的抽象标记,以及来自自然语言的具体词汇。另一方面,PAN也将低级细节编码为连续潜在嵌入,以在必要时捕获完整的细致感知体验。

这些标记和嵌入共同形成了世界状态的分层估计。与传统方法不同,这种表示可以包含灵活数量的标记,以紧凑地反映世界信息的深层结构:我在哪里?谁和我在一起?我有什么工具?我的情绪状态如何?正如研究团队在理论分析中所证明的,这种表示形式足以捕获相关信息,即使对于像视频这样的连续数据也是如此。

PAN的世界模型骨干采用了增强的大语言模型和基于扩散的下一个潜在嵌入预测器的组合。这个设计是对前面提到的生成潜在预测(GLP)架构的具体实现。大语言模型骨干能够对自然语言标记和学习的概念词汇进行推理,支持跨领域的广泛泛化。在训练和推理过程中,模型还可以通过引入新标记或合并现有标记来动态扩展其词汇,以最大化预测质量。

与此同时,基于扩散的嵌入预测器负责快速、低级别,通常是潜意识的推理,这些推理对于具身响应至关重要,但又难以用语言表达。这个模块模拟详细的感知体验,比如脚点是否稳固,或者在攀爬时身体如何调整重心。学习开关允许PAN通过自适应组合这些不同组件来分层预测下一个世界状态。

为了监督其预测并允许训练好的世界模型与可能使用其输出的外部智能体或人类进行交互,PAN使用多模态解码器重构下一个观察,并将其与实际观察进行比较。关键是,解码器的输出不限于视频,而是包括完整的感官体验,可能包括声音、温度、运动、疼痛以及其他具身信号,甚至文本。

这种生成监督将预测的世界状态锚定在感官现实中,确保表示保留所有可能的信息,同时允许解码器吸收剩余变异性。这种方法与在下一个表示预测上训练的模型形成鲜明对比,后者纯粹在潜在空间中监督世界模型,最多只是生成目标的松散代理,并且容易出现表示坍塌或不可识别性问题。

四、PAN的训练策略与实际应用

PAN的训练采用分而治之的策略,这种方法既实用又高效。首先通过自监督学习独立预训练各个模块——比如用文本数据预训练大语言模型,用视频数据预训练扩散模型。然后在后训练阶段使用多模态数据、级联嵌入和梯度传播来对齐或集成这些模块。

这种策略的一个关键优势是数据效率。由于采用了多尺度和分层的世界视图,PAN在处理高度复杂可能性时不需要依赖捕获所有复杂性的数据。在登山任务中,当进行导航和路径规划推理时,世界状态不需要包含像素级的雪或岩石表面细节;而在决定攀爬时手脚放置位置时,世界状态可以忽略地理背景。

因此,模拟高度复杂可能性的世界模型不需要依赖一次性捕获所有复杂性的数据,而是可以利用在不同层面提供信息的不同类型数据。比如,旅行书籍可以提供路径指南和地图阅读信息,室内视频可以提供攀岩和装备使用技巧。期望存在全面覆盖高山攀登所有方面的大型视频语料库是不现实的。许多通用能力(如社交推理、旅行规划、寒冷天气生存)可以从丰富的语言数据中学习。只有直接的具身技能(如脚步放置、攀岩技巧)需要视频或本体感觉等物理数据,这些可以在受控或模拟环境中获得。

PAN的预训练-对齐/集成策略使感官信息能够通过大语言模型在更高层次、更丰富的背景中得到基础,从而促进跨模态泛化。同时,嵌入在大语言模型中的抽象知识可以锚定到具体的具身体验,提高系统推理的精确性和现实感。结果是一个像人类一样从多样化经验中获得常识理解的世界模型。因此,它不需要为每个特定任务提供详尽的训练数据,而是可以从许多领域获得的概念知识中进行推理。

五、走向智能体推理的新范式

PAN不仅仅是一个技术架构,更代表了一种全新的智能体推理范式。传统的AI系统要么依赖反应式策略(像条件反射一样立即响应),要么依赖模型预测控制(在决策时进行昂贵的实时模拟)。PAN提出了第三种方式:预计算和缓存。

在这种新范式下,PAN智能体会预先计算并缓存各种可能的世界状态、这些状态中的合理行动,以及它们的模拟结果。在决策时,智能体不是仅仅依赖昂贵的实时模拟,而是咨询这个缓存,并根据当前信念和预期奖励选择行动。这种模拟与行动选择的解耦使智能体能够更深思熟虑地、适应性地、选择性地进行推理,避免了纯反应式策略的刚性和持续前向推演的计算负担。

这种方法更接近人类认知——我们会提前规划,应对不确定性,在想象的未来中进行选择。这样的智能体可能最终接近人类智能的适应性、韧性和自主性特征。

研究团队认为,随着世界模型越来越多地成为推理、想象和行动的基础,像PAN这样具有经验基础、多层抽象和实证可扩展性的框架,为开发稳健、通用的AI提供了令人信服的基础。

展望未来,PAN框架开启了几个有前途的方向:从单智能体扩展到多智能体模拟(如企业、社会的集体行为,公共健康的后果),跨时间尺度扩展(从毫秒到千年),提高跨模态的模拟保真度,以及使智能体直接通过想象经验进行学习。

说到底,这项研究不仅提供了一个技术解决方案,更重要的是它重新定义了我们对"智能"的理解。真正的智能不在于生成漂亮的图像或回答孤立的问题,而在于能够在复杂、动态的世界中进行深入的推理和规划。PAN架构向我们展示了一条通往这种真正智能的可能路径,虽然距离科幻小说中的场景还很遥远,但这种基于"思想实验"的智能范式可能真的是通向更强大AI的关键一步。

归根结底,我们正站在一个转折点上。过去几年,AI在语言和图像生成方面取得了惊人进展,但要实现真正的通用人工智能,我们需要的不仅仅是更好的内容生成器,而是能够像人类一样进行复杂推理和规划的系统。PAN提供的不仅是一个新的技术架构,更是一种全新的思维方式——把AI系统从"反应器"转变为真正的"思考者"。这种转变可能最终会让AI系统具备我们一直梦寐以求的那种深度智能和适应能力。

感兴趣的读者如果想深入了解这项研究的技术细节和数学证明,可以通过论文编号arXiv:2507.05169v1在相关学术数据库中查找完整论文。

Q&A

Q1:世界模型到底是什么?它和我们常见的AI有什么不同? A:世界模型就像AI的"大脑地图",它让AI能够在内部构建一个虚拟世界来进行"思想实验"。和现在的AI不同,世界模型不只是回答问题或生成内容,而是能够预测"如果我这样做会发生什么",就像人类在行动前会在脑海中预演可能的结果一样。

Q2:PAN模型会不会让AI变得过于强大而难以控制? A:目前PAN还在研究阶段,距离实际应用还有很长路要走。而且PAN的设计理念是让AI更好地理解世界规律和行为后果,这实际上可能让AI变得更可预测、更容易控制,因为它的决策过程更透明,更接近人类的推理方式。

Q3:普通人什么时候能用上基于PAN架构的AI系统? A:这项研究目前还处于理论框架阶段,研究团队承诺会在后续论文中提供具体实现细节和实验结果。考虑到技术开发和测试的复杂性,普通消费者可能需要等待数年才能体验到基于这种架构的AI产品。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-