这项由腾讯、中国科学院大学-终点AI实验室、新加坡国立大学、香港科技大学(广州)、浙江大学、上海交通大学、滑铁卢大学、北京大学和中关村人工智能研究院联合完成的研究,以预印本形式于2026年5月22日发布在arXiv平台,论文编号为arXiv:2605.23345。有兴趣深入了解的读者可通过该编号查阅完整论文。
一、为什么"让AI玩射击游戏"比你以为的难得多
电子游戏世界里有一类玩家体验极度刺激的游戏类型——第一人称射击游戏,也就是常说的FPS(First-Person Shooter)。玩家视角始终处于角色的"眼睛"位置,右手持枪、画面随鼠标或摇杆移动而转动,同时还要跑动、跳跃、开镜瞄准、换弹、近身肉搏……这些动作往往在一两秒内叠加发生,操作频率极高。
近年来,人工智能研究者们有一个雄心勃勃的目标:训练一个能够"理解游戏世界"的AI模型,让它根据玩家的操作,实时生成接下来画面应该怎么变化。这类系统被称为"世界模型"——它不是在运行真正的游戏引擎,而是靠AI凭借过去学到的知识,直接"脑补"出每一帧画面应当呈现的样子。
这个想法听起来有点像训练一个特别厉害的"脑内剧场导演":玩家按下开枪键,导演立刻在脑子里想象出枪口火光、弹壳飞出、敌人中弹的完整画面,并实时播放给玩家看。
然而,当前几乎所有的AI世界模型在面对FPS游戏时都会出现一个致命问题:它们理解操作的方式太过粗暴。具体来说,这些模型接收到玩家按下"开枪"的信号后,会把这个信号均匀地"广播"给画面上的每一个像素——这就好比导演收到"枪响了"的指令后,不只是让枪口冒烟,而是把整个舞台都震了一遍,远处的山、天上的云、脚下的地板全都跟着抖动起来。当玩家在一两秒内疯狂叠加开枪、移动、换弹、开镜等多个动作时,画面要么变成一锅乱炖,要么AI直接"躺平",生成几乎静止不动的画面来规避错误。
正是为了解决这个问题,这支研究团队提出了名为SCOPE的解决方案,并配套构建了首个跨游戏FPS数据集CrossFPS。
二、一个关键发现:不同操作应该影响画面的不同区域
这项研究的出发点来自一个非常直觉化的观察,却被之前所有人忽视了。
在FPS游戏中,玩家的操作天然分为两类:一类是"离散型"操作,比如扣扳机开枪、按键换弹、切换武器、格挡近战——这些动作只会在画面的特定区域产生效果,主要集中在屏幕下方的武器区域以及武器与目标的交互区域,研究团队把这个区域称为"scope"(镜内区域,这也是论文名称的由来);另一类是"连续型"操作,比如移动摇杆控制走动方向、转动右摇杆控制视角——这些动作会影响整个画面的"流动",推动视角平滑地向左转、向右转、向上抬或向下压,对画面的影响是全局性但平稳的。
把这个发现翻译成日常语言:你可以把整个游戏画面想象成一个舞台。开枪换弹这类操作只影响舞台中央聚光灯照亮的那个小圈子,聚光灯外面的观众席、幕布、灯架都不应该动;而转动视角就像是整个舞台慢慢旋转,每个角落都会随之移动,但是这个旋转是平滑统一的,不会让聚光灯那个小圈子发生额外的混乱变化。
这两类操作的效果是截然不同的,不能用同一套"广播给全场"的方式处理。这正是之前所有模型失败的根本原因。
三、SCOPE是如何工作的——给每个像素配一个独立的"接收器"
SCOPE的设计思路可以用一个比喻来理解:假设你要向一个大型剧场的每个座位的观众单独传达消息,旧方法是用广播喇叭,全场所有人都听到同样的内容;而SCOPE的做法是给每个座位安装一个单独的耳机,每位观众根据自己座位的位置和视角,只接收与自己相关的那部分信息。
在技术层面,SCOPE是一个插入现有AI视频生成模型内部的"条件注入模块"。研究团队选用了Wan2.2-TI2V-5B这个已经具备强大视频生成能力的预训练模型作为基础,这个模型大约有50亿个参数,相当于一个经过大规模训练、已经"看过"海量视频的AI大脑。然后他们在这个大脑的每一个"思考层"(共30层变换器模块)里,都嵌入一个SCOPE模块。
每个SCOPE模块做的第一件事,是把所有图像特征按"像素位置"重新排列。原本AI处理的是一个混在一起的特征序列,经过这一步重排后,画面上每个空间位置都有了自己独立的"时间序列"——相当于把整张画面拆解成无数个小格子,每个格子独立思考"接下来这个位置应该怎么变"。
接下来,两类操作走向各自专属的处理通道。离散型操作(开枪、换弹等)会先经过一个小型神经网络被转换成"动作信号",然后通过一种叫做"交叉注意力"的机制,让每个像素位置主动去"查询"这些动作信号:武器区域的像素会发现"开枪"信号高度相关,于是大幅响应;远处墙壁的像素发现这个信号跟自己关系不大,于是几乎不响应。这个过程完全自动学习,不需要研究人员手动标注"哪些像素属于武器区域",AI自己会从训练数据中悟出来。连续型操作(视角移动、走动)则走另一条通道:这些操作信号先和每个像素位置的特征拼接在一起,再通过"时序自注意力"机制,让每个位置独立地感知视角是如何随时间流动的,从而生成平滑的全局运动效果。
两条通道各自产生的"调整量"最后叠加在一起,加回到原始特征上,然后这个像素才继续完成后续的生成计算。整个过程就像是:每个像素先看一眼整体动作信号表,只拿走自己需要的那份,再继续工作。
一个关键的工程细节值得一提:所有SCOPE模块在训练最开始时,输出都被初始化为零——这意味着模型一开始就像从未安装过SCOPE一样,完全依赖原有的视频生成能力。随着训练推进,SCOPE模块才逐渐学会在原有输出上做出有意义的调整。这样做的好处是训练极其稳定,不会因为突然引入大量新参数而让整个系统崩溃。
此外,研究团队还引入了一种叫做"动作引导推理"的技术。训练期间,大约10%的时候AI会假装没有收到任何操作信号;推理时,可以将"有操作信号的输出"和"无操作信号的输出"按比例混合,比例越高,操作对画面的影响就越明显,给了用户在生成时调节"操作响应强度"的旋钮。
四、CrossFPS数据集——首个真正跨游戏的FPS训练数据
一个再好的模型,没有合适的训练数据也无法发挥作用。这项研究的另一个重要贡献是构建了CrossFPS数据集,这是目前第一个专门为FPS世界模型设计的、跨多款游戏的视频-操作对齐数据集。
CrossFPS包含来自7款FPS游戏的69,000个5秒短视频片段,分辨率为480×832(接近竖版全高清),帧率为每秒20帧,总时长接近96小时。7款游戏涵盖了《光晕:无限》《Xonotic》《使命召唤:现代战争》《光晕》《使命召唤:战区》《使命召唤:现代战争III》以及经典版《使命召唤》。
每一个视频片段都配有精确对齐到每一帧的控制器信号数据,共10个维度:左摇杆的前后左右(4个连续信号)、右摇杆的上下左右视角(4个连续信号),以及开枪、瞄准、换弹、跳跃、格挡、切换武器这6个离散按键状态。数据集按95:3:2的比例分成训练集、验证集和测试集。
然而,直接收集游戏录像然后打上操作标签,并不足以训练出一个真正理解"动作如何影响画面"的AI。这是因为真实玩家的操作存在严重的"策略偏见"——熟练玩家总是在敌人出现时才开枪,总是在特定掩体后换弹,这导致AI可能只是学会了"什么时候玩家会做什么",而不是"做这个动作画面会发生什么变化"。
为了彻底消除这种偏见,研究团队对数据进行了三重处理。第一步是动作分布均衡:FPS游戏中玩家大多数时间都在走路,开枪、跳跃等高强度动作是少数,直接训练会让AI只擅长模拟"走路"而对其他操作反应迟钝;因此研究团队刻意过采样高强度动作片段,将其占比提升到合理水平。第二步是视觉-动作去偏:通过计算画面视觉特征和操作序列之间的"互信息"来识别那些"操作和画面强相关"的片段——这些片段往往反映的是游戏策略,而非纯粹的物理因果——并刻意将那些"低互信息"片段(比如对着空气开枪、撞墙跑)也纳入训练,迫使AI学习"操作→画面变化"的物理因果,而不是"战术时机→画面内容"的策略关联。第三步是运动学归一化:不同游戏引擎对摇杆输入的"敏感度"差异极大,在《光晕》里把摇杆推到底转10度,在《使命召唤》里同样的操作却转30度;不同游戏数据混在一起训练会产生梯度冲突,导致AI无所适从。研究团队用光流分析(估算每一帧画面各像素的位移方向和速度)来测量每款游戏的"操作-画面位移"比率,然后对所有游戏的操作信号进行统一缩放,最终将各游戏之间的操作增益差异压缩到只有0.034的方差,几乎完全一致。
数据处理后,整个数据集的动作熵值达到了2.94比特(接近10维动作空间的理论最大值),远超普通人类玩家游戏录像的熵值(约1.85比特)。换句话说,这份数据集里的操作组合是极其多样化、随机化的,AI无法靠"猜测常见套路"来蒙混过关,必须真正学会每种操作对画面的因果效果。
五、实验验证:SCOPE在8项指标中的7项领先所有对比方法
研究团队将SCOPE与三个当前最先进的竞争对手进行了对比:Matrix-Game 3.0、LingBot-World(Act版)和HY-World 1.5。这三个方法都能接受某种形式的动作输入来生成游戏视频,但都使用全局注入机制。由于这三个方法本身接受的动作格式各不相同(文字描述、简化按键等),研究团队使用谷歌的Gemini大模型将原始的10维操作信号翻译成每个方法期望的输入格式,再进行测试。
评估指标分为三大类。动作响应性方面用动态度和光流分数衡量,前者评估视频整体有多"活",后者测量帧间像素的平均位移量,两者越高说明AI越能对操作做出明显的画面响应。空间稳定性方面用光度平滑度和深度准确率衡量,前者越低说明"不该动的地方"越稳定,后者评估三维空间几何结构是否前后一致。视觉质量方面则用JEPA相似度、视频质量距离(FVD)、感知图像相似度(LPIPS)和运动平滑度四项指标衡量生成视频的整体自然度和真实感。
SCOPE在动态度上达到0.910,光流分数18.24,双双领先所有对比方法。相比之下,HY-World 1.5的动态度只有0.225,光流分数仅2.37——几乎生成的是静止画面;Matrix-Game 3.0虽然运动平滑度最高,但那是因为它几乎不响应动作,用"不动"换来的"稳定",实质上是失去了可控性。LingBot-World的动态度0.868是对比方法中最强的,但仍明显低于SCOPE。
在空间稳定性上,SCOPE的光度平滑度0.198是LingBot-World的3.2倍优势(越低越好,LingBot为0.626),是HY-World 1.5的12.7倍优势(HY-World为2.523)。这意味着SCOPE的画面在"不该动的地方"比竞争对手稳定得多,而且这种稳定性是在AI自己学会区分"镜内区域"和"镜外区域"之后自动实现的,研究团队从未告诉AI哪里是武器、哪里是背景。
在视觉质量上,SCOPE的JEPA相似度0.806比LingBot-World(0.615)高出31%,FVD从LingBot的954.4降低到690.3(降低28%),LPIPS也是所有方法中最低的。唯一落后的指标是运动平滑度,Matrix-Game 3.0在这一项略占优势——但正如前面分析的,那是因为它基本不响应动作,用"静止"换来的"平滑",是一种以牺牲控制能力为代价的虚假胜利。
六、消融实验:拆掉每个零件,看看哪个最重要
研究团队还系统地做了"拆件测试"——逐一去掉SCOPE的某个组成部分,看性能下降多少,以此验证每个设计选择的必要性。
去掉"空间选择性"(退化为全局注入模式)是损失最大的改变:光度平滑度从0.198恶化到0.745,动态度从0.910跌到0.521——这正是所有竞争对手都在经历的问题。去掉"时序自注意力"(负责处理连续运动的通道)后,光流分数从18.24骤降到11.60,说明视角平滑移动的效果严重受损。去掉"离散交叉注意力"(负责处理开枪换弹等操作的通道)后,动态度还维持在0.846,但光度平滑度从0.198升到0.234,说明开枪的效果开始"泄漏"到镜外不该受影响的区域。去掉"动作引导推理"后,动态度降到0.820,光流分数降到15.90,说明这个技术对于确保动作效果充分呈现是有必要的。
在训练策略上,研究团队比较了三种方案:只训练SCOPE模块而冻结底层模型(FVD 775.4)、两阶段训练先热身再联调(FVD 732.1)、以及从头全程端到端联合训练(FVD 690.3)。性能随着联合训练程度的加深单调提升,说明底层视频生成模型和SCOPE模块需要相互适应、深度协作,才能发挥最佳效果。
七、跨越游戏边界:在从未见过的游戏场景中依然管用
SCOPE最令人印象深刻的能力之一,是它的零样本迁移能力——即在完全未见过的游戏画面风格下,依然能正确响应操作。
研究团队用GPT-image-2(OpenAI的图像生成工具)生成了四种风格迥异的第一人称场景首帧图片:风格化开放世界、合作冒险、神话动作和科幻走廊。这四种风格在CrossFPS训练数据中完全没有出现过。
首先测试视觉质量:SCOPE在未见场景上的JEPA相似度为0.777(训练内场景为0.806),光度平滑度为0.231(训练内为0.198),下降幅度有限。与训练风格最接近的科幻走廊场景(FPS游戏本就有大量科幻场景)的指标几乎与训练内持平,而风格差异较大的场景也只有小幅下降。所有场景的光度平滑度均不超过0.251,说明"镜内镜外分离"这个核心能力在陌生场景中也能很好保留。
然后测试动作可控性,分三个难度级别:单一离散动作(比如单独开枪)、多动作组合(比如同时开镜+开枪、移动+开枪、切换武器+开枪)、以及动作-环境交互(包括对物体的影响、对环境的影响和对NPC的影响)。每种任务各生成50个视频,先由Gemini初步判断操作效果是否正确呈现,再由人工核验。
SCOPE的总体完成率为71.5%,是LingBot-World(38.3%)的近1.9倍。随着难度增加,差距越来越大:单一动作完成率SCOPE为92%,LingBot为78%;多动作组合SCOPE为75%,LingBot仅29%;动作-环境交互SCOPE为54%,LingBot仅21%。Matrix-Game 3.0和HY-World 1.5在未见场景上几乎完全失效,分别只有0.5%和8%的完成率,印证了全局注入机制在领域迁移时的根本性缺陷。
研究还发现,环境表面效果(火焰、烟雾、光影变化等)的响应(62%完成率)明显优于几何形变(物体变形、物理碰撞变形等,46%完成率)。这反映了底层视频扩散模型本身更擅长纹理和外观层面的变化,对三维几何结构的精确控制是未来需要进一步突破的方向。
八、数据规模与多样性的影响:更多游戏种类才是关键
研究团队还系统地测试了数据量和数据多样性对模型效果的影响,这个测试提供了一些很有意思的发现。
从单款游戏1000个片段开始,逐步扩展到两款同系列游戏5000个片段、三款跨系列游戏10000个片段、六款游戏30000个片段,最终到七款游戏65000个片段。一个出乎意料的结果是:10000个片段(3款游戏,2个系列)的表现反而不如5000个片段(2款同系列游戏)。原因在于,当引入来自不同系列的游戏数据时,画面风格差异较大的训练样本会产生"梯度冲突",两个系列的数据互相干扰,导致模型性能下滑。然而随着数据量继续增加到30000和65000,多样性带来的自然正则化效果超过了梯度冲突的负面影响,模型性能单调上升,并且没有出现饱和的迹象。这意味着更多的游戏种类和更大的数据量还能进一步提升SCOPE的性能,当前结果远未触碰到上限。
同样有趣的是训练分辨率策略的选择。数据量小时直接在高分辨率上训练更有效;数据量到中等规模时(10K左右)先低分辨率热身再高分辨率微调(渐进式训练)更稳定;而数据量到最大时(65K),直接高分辨率训练又重新成为最优策略——这是因为足够多样的数据本身就提供了充足的正则化,不再需要额外的低分辨率热身阶段。
说到底,这项研究做的事情可以用一句话来概括:它让AI学会了"看场合做出反应",而不是"不管三七二十一,把操作命令砸向所有人"。
对于普通玩家而言,这项研究的潜在意义在于:AI游戏世界模型终于有望在FPS这个操作最密集、最复杂的游戏类型上真正变得可用。这不只是画质或速度的提升,而是AI对游戏规则的理解发生了质的变化——从"听到指令就全场抖动"进化到了"明白枪声只该在枪的位置响起"。当然,该研究也坦承目前的局限性:复杂的多步武器操作(比如装填弹药夹的中间环节动画)、物理驱动的形变(打碎玻璃、爆炸掀飞物体)以及初始画面质量极差时的表现,都还需要进一步改善。研究团队也指出,未来希望将SCOPE从单个5秒片段的生成延伸到完整游戏流程的长时序连贯模拟——那才是真正意义上的"AI游戏引擎"。
有兴趣深入了解技术细节的读者,可以通过arXiv:2605.23345查阅完整论文。
Q&A
Q1:SCOPE模型和普通的AI视频生成有什么区别?
A:普通AI视频生成模型接收到操作指令后,会把这个指令均匀地影响画面所有像素,导致"开枪"这个命令把整个画面都弄乱。SCOPE的不同之处在于,它给画面上的每个像素位置都安装了独立的"接收器",开枪等离散操作只影响武器所在的小区域,视角移动才平稳地影响全画面,从而实现精准的局部效果。
Q2:CrossFPS数据集为什么要专门去除玩家的策略偏见?
A:因为如果AI只学习真实玩家的录像,它会学到"敌人出现时才开枪"这种策略关联,而不是"扣下扳机画面会出现枪口火光"这种物理因果。去除策略偏见后,AI才真正理解操作本身对画面的影响,而不是靠猜测"此时玩家通常会做什么"来生成画面。
Q3:SCOPE能直接用在我现在玩的游戏上吗?
A:目前还不能直接作为消费级产品使用。SCOPE是一个研究阶段的世界模型,它生成的是视频片段,而不是真正的游戏引擎输出。不过它展示了AI在FPS游戏场景下的可控视频生成能力,是通往"AI游戏引擎"这个目标的重要一步。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。