微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

腾讯联合多校开发出会"看场合下命令"的AI游戏引擎，第一人称射击游戏终于有了真正懂玩家的世界模型

人工智能视频生成跨游戏泛化

腾讯联合多校开发出会"看场合下命令"的AI游戏引擎，第一人称射击游戏终于有了真正懂玩家的世界模型

作者：科技行者

2026-05-29 15:15

分享至：

SCOPE是腾讯等机构联合开发的FPS游戏AI世界模型，通过给每个像素独立配置操作接收器，解决了AI无法区分局部与全局操作效果的核心难题。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-29 15:15 • 科技行者

这项由腾讯、中国科学院大学-终点AI实验室、新加坡国立大学、香港科技大学（广州）、浙江大学、上海交通大学、滑铁卢大学、北京大学和中关村人工智能研究院联合完成的研究，以预印本形式于2026年5月22日发布在arXiv平台，论文编号为arXiv:2605.23345。有兴趣深入了解的读者可通过该编号查阅完整论文。

一、为什么"让AI玩射击游戏"比你以为的难得多

电子游戏世界里有一类玩家体验极度刺激的游戏类型——第一人称射击游戏，也就是常说的FPS（First-Person Shooter）。玩家视角始终处于角色的"眼睛"位置，右手持枪、画面随鼠标或摇杆移动而转动，同时还要跑动、跳跃、开镜瞄准、换弹、近身肉搏……这些动作往往在一两秒内叠加发生，操作频率极高。

近年来，人工智能研究者们有一个雄心勃勃的目标：训练一个能够"理解游戏世界"的AI模型，让它根据玩家的操作，实时生成接下来画面应该怎么变化。这类系统被称为"世界模型"——它不是在运行真正的游戏引擎，而是靠AI凭借过去学到的知识，直接"脑补"出每一帧画面应当呈现的样子。

这个想法听起来有点像训练一个特别厉害的"脑内剧场导演"：玩家按下开枪键，导演立刻在脑子里想象出枪口火光、弹壳飞出、敌人中弹的完整画面，并实时播放给玩家看。

然而，当前几乎所有的AI世界模型在面对FPS游戏时都会出现一个致命问题：它们理解操作的方式太过粗暴。具体来说，这些模型接收到玩家按下"开枪"的信号后，会把这个信号均匀地"广播"给画面上的每一个像素——这就好比导演收到"枪响了"的指令后，不只是让枪口冒烟，而是把整个舞台都震了一遍，远处的山、天上的云、脚下的地板全都跟着抖动起来。当玩家在一两秒内疯狂叠加开枪、移动、换弹、开镜等多个动作时，画面要么变成一锅乱炖，要么AI直接"躺平"，生成几乎静止不动的画面来规避错误。

正是为了解决这个问题，这支研究团队提出了名为SCOPE的解决方案，并配套构建了首个跨游戏FPS数据集CrossFPS。

二、一个关键发现：不同操作应该影响画面的不同区域

这项研究的出发点来自一个非常直觉化的观察，却被之前所有人忽视了。

在FPS游戏中，玩家的操作天然分为两类：一类是"离散型"操作，比如扣扳机开枪、按键换弹、切换武器、格挡近战——这些动作只会在画面的特定区域产生效果，主要集中在屏幕下方的武器区域以及武器与目标的交互区域，研究团队把这个区域称为"scope"（镜内区域，这也是论文名称的由来）；另一类是"连续型"操作，比如移动摇杆控制走动方向、转动右摇杆控制视角——这些动作会影响整个画面的"流动"，推动视角平滑地向左转、向右转、向上抬或向下压，对画面的影响是全局性但平稳的。

把这个发现翻译成日常语言：你可以把整个游戏画面想象成一个舞台。开枪换弹这类操作只影响舞台中央聚光灯照亮的那个小圈子，聚光灯外面的观众席、幕布、灯架都不应该动；而转动视角就像是整个舞台慢慢旋转，每个角落都会随之移动，但是这个旋转是平滑统一的，不会让聚光灯那个小圈子发生额外的混乱变化。

这两类操作的效果是截然不同的，不能用同一套"广播给全场"的方式处理。这正是之前所有模型失败的根本原因。

三、SCOPE是如何工作的——给每个像素配一个独立的"接收器"

SCOPE的设计思路可以用一个比喻来理解：假设你要向一个大型剧场的每个座位的观众单独传达消息，旧方法是用广播喇叭，全场所有人都听到同样的内容；而SCOPE的做法是给每个座位安装一个单独的耳机，每位观众根据自己座位的位置和视角，只接收与自己相关的那部分信息。

在技术层面，SCOPE是一个插入现有AI视频生成模型内部的"条件注入模块"。研究团队选用了Wan2.2-TI2V-5B这个已经具备强大视频生成能力的预训练模型作为基础，这个模型大约有50亿个参数，相当于一个经过大规模训练、已经"看过"海量视频的AI大脑。然后他们在这个大脑的每一个"思考层"（共30层变换器模块）里，都嵌入一个SCOPE模块。

每个SCOPE模块做的第一件事，是把所有图像特征按"像素位置"重新排列。原本AI处理的是一个混在一起的特征序列，经过这一步重排后，画面上每个空间位置都有了自己独立的"时间序列"——相当于把整张画面拆解成无数个小格子，每个格子独立思考"接下来这个位置应该怎么变"。

接下来，两类操作走向各自专属的处理通道。离散型操作（开枪、换弹等）会先经过一个小型神经网络被转换成"动作信号"，然后通过一种叫做"交叉注意力"的机制，让每个像素位置主动去"查询"这些动作信号：武器区域的像素会发现"开枪"信号高度相关，于是大幅响应；远处墙壁的像素发现这个信号跟自己关系不大，于是几乎不响应。这个过程完全自动学习，不需要研究人员手动标注"哪些像素属于武器区域"，AI自己会从训练数据中悟出来。连续型操作（视角移动、走动）则走另一条通道：这些操作信号先和每个像素位置的特征拼接在一起，再通过"时序自注意力"机制，让每个位置独立地感知视角是如何随时间流动的，从而生成平滑的全局运动效果。

两条通道各自产生的"调整量"最后叠加在一起，加回到原始特征上，然后这个像素才继续完成后续的生成计算。整个过程就像是：每个像素先看一眼整体动作信号表，只拿走自己需要的那份，再继续工作。

一个关键的工程细节值得一提：所有SCOPE模块在训练最开始时，输出都被初始化为零——这意味着模型一开始就像从未安装过SCOPE一样，完全依赖原有的视频生成能力。随着训练推进，SCOPE模块才逐渐学会在原有输出上做出有意义的调整。这样做的好处是训练极其稳定，不会因为突然引入大量新参数而让整个系统崩溃。

此外，研究团队还引入了一种叫做"动作引导推理"的技术。训练期间，大约10%的时候AI会假装没有收到任何操作信号；推理时，可以将"有操作信号的输出"和"无操作信号的输出"按比例混合，比例越高，操作对画面的影响就越明显，给了用户在生成时调节"操作响应强度"的旋钮。

四、CrossFPS数据集——首个真正跨游戏的FPS训练数据

一个再好的模型，没有合适的训练数据也无法发挥作用。这项研究的另一个重要贡献是构建了CrossFPS数据集，这是目前第一个专门为FPS世界模型设计的、跨多款游戏的视频-操作对齐数据集。

CrossFPS包含来自7款FPS游戏的69,000个5秒短视频片段，分辨率为480×832（接近竖版全高清），帧率为每秒20帧，总时长接近96小时。7款游戏涵盖了《光晕：无限》《Xonotic》《使命召唤：现代战争》《光晕》《使命召唤：战区》《使命召唤：现代战争III》以及经典版《使命召唤》。

每一个视频片段都配有精确对齐到每一帧的控制器信号数据，共10个维度：左摇杆的前后左右（4个连续信号）、右摇杆的上下左右视角（4个连续信号），以及开枪、瞄准、换弹、跳跃、格挡、切换武器这6个离散按键状态。数据集按95:3:2的比例分成训练集、验证集和测试集。

然而，直接收集游戏录像然后打上操作标签，并不足以训练出一个真正理解"动作如何影响画面"的AI。这是因为真实玩家的操作存在严重的"策略偏见"——熟练玩家总是在敌人出现时才开枪，总是在特定掩体后换弹，这导致AI可能只是学会了"什么时候玩家会做什么"，而不是"做这个动作画面会发生什么变化"。

为了彻底消除这种偏见，研究团队对数据进行了三重处理。第一步是动作分布均衡：FPS游戏中玩家大多数时间都在走路，开枪、跳跃等高强度动作是少数，直接训练会让AI只擅长模拟"走路"而对其他操作反应迟钝；因此研究团队刻意过采样高强度动作片段，将其占比提升到合理水平。第二步是视觉-动作去偏：通过计算画面视觉特征和操作序列之间的"互信息"来识别那些"操作和画面强相关"的片段——这些片段往往反映的是游戏策略，而非纯粹的物理因果——并刻意将那些"低互信息"片段（比如对着空气开枪、撞墙跑）也纳入训练，迫使AI学习"操作→画面变化"的物理因果，而不是"战术时机→画面内容"的策略关联。第三步是运动学归一化：不同游戏引擎对摇杆输入的"敏感度"差异极大，在《光晕》里把摇杆推到底转10度，在《使命召唤》里同样的操作却转30度；不同游戏数据混在一起训练会产生梯度冲突，导致AI无所适从。研究团队用光流分析（估算每一帧画面各像素的位移方向和速度）来测量每款游戏的"操作-画面位移"比率，然后对所有游戏的操作信号进行统一缩放，最终将各游戏之间的操作增益差异压缩到只有0.034的方差，几乎完全一致。

数据处理后，整个数据集的动作熵值达到了2.94比特（接近10维动作空间的理论最大值），远超普通人类玩家游戏录像的熵值（约1.85比特）。换句话说，这份数据集里的操作组合是极其多样化、随机化的，AI无法靠"猜测常见套路"来蒙混过关，必须真正学会每种操作对画面的因果效果。

五、实验验证：SCOPE在8项指标中的7项领先所有对比方法

研究团队将SCOPE与三个当前最先进的竞争对手进行了对比：Matrix-Game 3.0、LingBot-World（Act版）和HY-World 1.5。这三个方法都能接受某种形式的动作输入来生成游戏视频，但都使用全局注入机制。由于这三个方法本身接受的动作格式各不相同（文字描述、简化按键等），研究团队使用谷歌的Gemini大模型将原始的10维操作信号翻译成每个方法期望的输入格式，再进行测试。

评估指标分为三大类。动作响应性方面用动态度和光流分数衡量，前者评估视频整体有多"活"，后者测量帧间像素的平均位移量，两者越高说明AI越能对操作做出明显的画面响应。空间稳定性方面用光度平滑度和深度准确率衡量，前者越低说明"不该动的地方"越稳定，后者评估三维空间几何结构是否前后一致。视觉质量方面则用JEPA相似度、视频质量距离（FVD）、感知图像相似度（LPIPS）和运动平滑度四项指标衡量生成视频的整体自然度和真实感。

SCOPE在动态度上达到0.910，光流分数18.24，双双领先所有对比方法。相比之下，HY-World 1.5的动态度只有0.225，光流分数仅2.37——几乎生成的是静止画面；Matrix-Game 3.0虽然运动平滑度最高，但那是因为它几乎不响应动作，用"不动"换来的"稳定"，实质上是失去了可控性。LingBot-World的动态度0.868是对比方法中最强的，但仍明显低于SCOPE。

在空间稳定性上，SCOPE的光度平滑度0.198是LingBot-World的3.2倍优势（越低越好，LingBot为0.626），是HY-World 1.5的12.7倍优势（HY-World为2.523）。这意味着SCOPE的画面在"不该动的地方"比竞争对手稳定得多，而且这种稳定性是在AI自己学会区分"镜内区域"和"镜外区域"之后自动实现的，研究团队从未告诉AI哪里是武器、哪里是背景。

在视觉质量上，SCOPE的JEPA相似度0.806比LingBot-World（0.615）高出31%，FVD从LingBot的954.4降低到690.3（降低28%），LPIPS也是所有方法中最低的。唯一落后的指标是运动平滑度，Matrix-Game 3.0在这一项略占优势——但正如前面分析的，那是因为它基本不响应动作，用"静止"换来的"平滑"，是一种以牺牲控制能力为代价的虚假胜利。

六、消融实验：拆掉每个零件，看看哪个最重要

研究团队还系统地做了"拆件测试"——逐一去掉SCOPE的某个组成部分，看性能下降多少，以此验证每个设计选择的必要性。

去掉"空间选择性"（退化为全局注入模式）是损失最大的改变：光度平滑度从0.198恶化到0.745，动态度从0.910跌到0.521——这正是所有竞争对手都在经历的问题。去掉"时序自注意力"（负责处理连续运动的通道）后，光流分数从18.24骤降到11.60，说明视角平滑移动的效果严重受损。去掉"离散交叉注意力"（负责处理开枪换弹等操作的通道）后，动态度还维持在0.846，但光度平滑度从0.198升到0.234，说明开枪的效果开始"泄漏"到镜外不该受影响的区域。去掉"动作引导推理"后，动态度降到0.820，光流分数降到15.90，说明这个技术对于确保动作效果充分呈现是有必要的。

在训练策略上，研究团队比较了三种方案：只训练SCOPE模块而冻结底层模型（FVD 775.4）、两阶段训练先热身再联调（FVD 732.1）、以及从头全程端到端联合训练（FVD 690.3）。性能随着联合训练程度的加深单调提升，说明底层视频生成模型和SCOPE模块需要相互适应、深度协作，才能发挥最佳效果。

七、跨越游戏边界：在从未见过的游戏场景中依然管用

SCOPE最令人印象深刻的能力之一，是它的零样本迁移能力——即在完全未见过的游戏画面风格下，依然能正确响应操作。

研究团队用GPT-image-2（OpenAI的图像生成工具）生成了四种风格迥异的第一人称场景首帧图片：风格化开放世界、合作冒险、神话动作和科幻走廊。这四种风格在CrossFPS训练数据中完全没有出现过。

首先测试视觉质量：SCOPE在未见场景上的JEPA相似度为0.777（训练内场景为0.806），光度平滑度为0.231（训练内为0.198），下降幅度有限。与训练风格最接近的科幻走廊场景（FPS游戏本就有大量科幻场景）的指标几乎与训练内持平，而风格差异较大的场景也只有小幅下降。所有场景的光度平滑度均不超过0.251，说明"镜内镜外分离"这个核心能力在陌生场景中也能很好保留。

然后测试动作可控性，分三个难度级别：单一离散动作（比如单独开枪）、多动作组合（比如同时开镜+开枪、移动+开枪、切换武器+开枪）、以及动作-环境交互（包括对物体的影响、对环境的影响和对NPC的影响）。每种任务各生成50个视频，先由Gemini初步判断操作效果是否正确呈现，再由人工核验。

SCOPE的总体完成率为71.5%，是LingBot-World（38.3%）的近1.9倍。随着难度增加，差距越来越大：单一动作完成率SCOPE为92%，LingBot为78%；多动作组合SCOPE为75%，LingBot仅29%；动作-环境交互SCOPE为54%，LingBot仅21%。Matrix-Game 3.0和HY-World 1.5在未见场景上几乎完全失效，分别只有0.5%和8%的完成率，印证了全局注入机制在领域迁移时的根本性缺陷。

研究还发现，环境表面效果（火焰、烟雾、光影变化等）的响应（62%完成率）明显优于几何形变（物体变形、物理碰撞变形等，46%完成率）。这反映了底层视频扩散模型本身更擅长纹理和外观层面的变化，对三维几何结构的精确控制是未来需要进一步突破的方向。

八、数据规模与多样性的影响：更多游戏种类才是关键

研究团队还系统地测试了数据量和数据多样性对模型效果的影响，这个测试提供了一些很有意思的发现。

从单款游戏1000个片段开始，逐步扩展到两款同系列游戏5000个片段、三款跨系列游戏10000个片段、六款游戏30000个片段，最终到七款游戏65000个片段。一个出乎意料的结果是：10000个片段（3款游戏，2个系列）的表现反而不如5000个片段（2款同系列游戏）。原因在于，当引入来自不同系列的游戏数据时，画面风格差异较大的训练样本会产生"梯度冲突"，两个系列的数据互相干扰，导致模型性能下滑。然而随着数据量继续增加到30000和65000，多样性带来的自然正则化效果超过了梯度冲突的负面影响，模型性能单调上升，并且没有出现饱和的迹象。这意味着更多的游戏种类和更大的数据量还能进一步提升SCOPE的性能，当前结果远未触碰到上限。

同样有趣的是训练分辨率策略的选择。数据量小时直接在高分辨率上训练更有效；数据量到中等规模时（10K左右）先低分辨率热身再高分辨率微调（渐进式训练）更稳定；而数据量到最大时（65K），直接高分辨率训练又重新成为最优策略——这是因为足够多样的数据本身就提供了充足的正则化，不再需要额外的低分辨率热身阶段。

说到底，这项研究做的事情可以用一句话来概括：它让AI学会了"看场合做出反应"，而不是"不管三七二十一，把操作命令砸向所有人"。

对于普通玩家而言，这项研究的潜在意义在于：AI游戏世界模型终于有望在FPS这个操作最密集、最复杂的游戏类型上真正变得可用。这不只是画质或速度的提升，而是AI对游戏规则的理解发生了质的变化——从"听到指令就全场抖动"进化到了"明白枪声只该在枪的位置响起"。当然，该研究也坦承目前的局限性：复杂的多步武器操作（比如装填弹药夹的中间环节动画）、物理驱动的形变（打碎玻璃、爆炸掀飞物体）以及初始画面质量极差时的表现，都还需要进一步改善。研究团队也指出，未来希望将SCOPE从单个5秒片段的生成延伸到完整游戏流程的长时序连贯模拟——那才是真正意义上的"AI游戏引擎"。

有兴趣深入了解技术细节的读者，可以通过arXiv:2605.23345查阅完整论文。

Q&A

Q1：SCOPE模型和普通的AI视频生成有什么区别？

A：普通AI视频生成模型接收到操作指令后，会把这个指令均匀地影响画面所有像素，导致"开枪"这个命令把整个画面都弄乱。SCOPE的不同之处在于，它给画面上的每个像素位置都安装了独立的"接收器"，开枪等离散操作只影响武器所在的小区域，视角移动才平稳地影响全画面，从而实现精准的局部效果。

Q2：CrossFPS数据集为什么要专门去除玩家的策略偏见？

A：因为如果AI只学习真实玩家的录像，它会学到"敌人出现时才开枪"这种策略关联，而不是"扣下扳机画面会出现枪口火光"这种物理因果。去除策略偏见后，AI才真正理解操作本身对画面的影响，而不是靠猜测"此时玩家通常会做什么"来生成画面。

Q3：SCOPE能直接用在我现在玩的游戏上吗？

A：目前还不能直接作为消费级产品使用。SCOPE是一个研究阶段的世界模型，它生成的是视频片段，而不是真正的游戏引擎输出。不过它展示了AI在FPS游戏场景下的可控视频生成能力，是通往"AI游戏引擎"这个目标的重要一步。

人工智能视频生成跨游戏泛化

分享至