微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

马里兰大学等联合研究：当AI游戏玩家学会"总结经验"，小模型也能打败大模型

人工智能强化学习技能库学习

马里兰大学等联合研究：当AI游戏玩家学会"总结经验"，小模型也能打败大模型

作者：科技行者

2026-05-04 11:49

分享至：

这项由马里兰大学、南加州大学、Good Start Labs等机构联合开展的研究提出了COS-PLAY框架，让AI在玩游戏时能自动从游戏轨迹中提炼可复用的行为技能，建立持续更新的技能库，并训练决策代理学会检索和使用这些技能。两个代理协同进化，技能库质量越高决策越好，决策产生的轨迹越优质技能提炼越精准。实验在六款游戏中验证，仅80亿参数的基础模型在单人游戏上平均超越GPT-5.4达25.1%，同时几乎不损失通用推理能力。论文编号arXiv:2604.20987。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-04 11:49 • 科技行者

这项由马里兰大学、南加州大学、Good Start Labs以及穆罕默德·本·扎耶德人工智能大学联合开展的研究，以预印本形式发布于2026年4月，论文编号为arXiv:2604.20987，感兴趣的读者可以通过该编号查询完整原文。

一、一个关于"经验积累"的古老难题

每个玩过电子游戏的人大概都有过这样的体验：第一次玩某款策略游戏时，你会频繁犯错，踩坑，然后重来；但玩了几十小时之后，你开始"有感觉"了——你知道什么时候该进攻，什么时候该防守，什么时候该先探路再做决定。这种感觉不是靠死记硬背得来的，而是从无数次失败和成功中慢慢沉淀出来的可复用经验。

现在，研究人员面临的问题是：能不能让AI也拥有这种"经验沉淀"的能力？

大型语言模型（简单说就是像ChatGPT这类能读能写的AI）在很多任务上表现出色，但有一个致命弱点：它们在玩需要长时间规划的游戏时往往表现糟糕。原因很简单——它们没有一套机制来把每次游戏中学到的东西留下来，整理好，下次再用上。每次开局都像是全新的开始，之前的经验付之一炬。

研究团队提出了一个叫做COS-PLAY（Co-evolving LLM Decision and Skill Bank Agents，即协同进化决策与技能库代理）的框架，核心思路可以用一个烹饪比喻来理解：一个普通厨师每次做菜时靠即兴发挥，做完就忘；而一个优秀厨师会把成功的菜谱记录下来，不断改进，下次直接查菜谱再做——COS-PLAY就是在给AI建立这样一本不断更新迭代的"菜谱库"，同时训练AI更好地查菜谱、用菜谱。

二、系统是怎么运转的：两个角色，一个循环

COS-PLAY框架的核心由两个相互依存的"角色"构成，它们共同协作，形成一个自我强化的闭环。

第一个角色是决策代理，负责实际玩游戏。它就像那个拿着菜谱下厨的厨师。在每一个游戏时刻，它会先查看当前的游戏状态，然后去技能库里找一个合适的"技能"（相当于找到一份合适的菜谱），接着根据自己当前的目标和技能指导来决定下一步该做什么具体操作。技能在这里是一种结构化的行为协议，包含了"这个技能的目的是什么"、"什么情况下该用它"、"具体怎么执行"、"什么时候算成功或者该放弃"，以及"执行完之后会发生什么变化"这几个维度的信息。决策代理不是机械地照搬技能，而是把技能当作高层次指引，自己再做具体的操作决定。

第二个角色是技能库代理，负责从游戏经历中提炼和维护技能。它就像一位专门整理菜谱的助理，不下厨，但每次厨师做完菜，它都会认真分析这次做菜的过程，找出哪些步骤是有效的、可重复的，然后把它们整理成新菜谱或者改进旧菜谱。

关键在于这两个角色之间的循环：决策代理玩游戏，产生大量轨迹数据；技能库代理分析这些数据，提炼新技能，优化旧技能；更好的技能库帮助决策代理做出更好的决策；更好的决策产生更有价值的轨迹数据；如此反复。这就是"协同进化"的含义——两者互相促进，共同成长，而不是各自为政。

三、技能是如何从零开始炼成的

技能库代理提炼技能的过程分为四个步骤，这个过程类似于一位历史学家从一堆日记中总结历史规律的工作。

第一步叫做"边界提案"。历史学家拿到一本厚厚的日记时，会先快速浏览，在重要事件发生的地方做上记号——比如"这里作者换了工作"、"这里作者搬了家"。技能库代理做的是类似的事：它会扫描游戏轨迹，计算每个时间点发生技能切换的可能性有多大。判断依据包括：游戏状态发生了明显变化、AI的行动意图发生了转变、获得了一个突出的奖励或事件、或者上一个技能已经执行完毕。得分高的时间点被保留下来，作为技能边界的候选位置。

第二步叫做"推断分割"。确定候选边界之后，系统需要决定每一段轨迹对应的是哪个技能。它会把每一段游戏行为和技能库里已有的技能进行比对——这个段落的行为效果是否和某个技能的"效果合同"吻合？如果吻合度高，就打上对应技能的标签；如果没有任何技能能匹配，就标注为"新技能"，留待后续处理。

第三步叫做"合同学习"。每个技能都有一份"效果合同"，记录这个技能执行成功后通常会带来哪些变化。技能库代理会把同一个技能在多次游戏中产生的效果汇总起来，保留那些稳定出现的效果，剔除偶发的噪声。比如一个"探索"技能，在28次游戏中有26次成功让AI获得了对邻居国家意图的了解，那这个效果就被写入合同；但某次偶然把舰队移到亚得里亚海的效果，因为只出现了5次，就被当作噪声丢弃。

第四步叫做"技能库维护"。这是最动态的部分，类似于一个图书馆管理员不断整理书架。具体操作包括五种：当一个新技能积累了足够多的实例证据时，把它"物化"为正式的技能库条目；当两个技能高度相似时，把它们"合并"为一个；当一个技能涵盖范围太广、边界模糊时，把它"拆分"为更精准的子技能；当一个技能不断被新证据支持时，"精炼"它的合同描述；当一个技能长期无人使用时，"退役"它，保持技能库的精简高效。整个技能库因此始终处于动态更新的状态，既不会无限膨胀，也不会过时僵化。

四、两个代理如何一起"上课"

COS-PLAY中的两个代理都需要从游戏经验中学习，研究团队采用了一种叫做GRPO（组相对策略优化）的强化学习方法来训练它们。强化学习的核心思路很直观：做得好就给奖励，做得差就给惩罚，模型慢慢学会往奖励多的方向走。

为了让不同功能的学习互不干扰，研究团队给每个功能模块配了独立的LoRA适配器。LoRA是一种轻量级的模型微调技术，可以理解为在大模型上面贴一层"专用插件"，不同插件负责不同的功能，互相之间不会乱。决策代理配了两个插件：一个专门学"该选哪个技能"，另一个专门学"在使用这个技能时该做什么具体操作"。技能库代理配了三个插件：一个学如何切割轨迹识别技能边界，一个学如何从轨迹中提炼技能合同，一个学如何管理技能库的新增、合并、拆分和退役。研究团队用实验证明，如果把这五个插件合并成两个大插件，性能会明显下降——不同功能的学习目标之间存在冲突，分开训练才能让每个功能都学得专注、干净。

决策代理的"选技能"插件采用延迟奖励：当一个技能执行完毕、发生切换时，才回头评估这个技能在整个执行期间带来了多少环境奖励、执行是否高效、合同中规定的效果是否达成，以及是否出现了"乱用技能"（前提条件不满足就强行使用）的情况。"做操作"插件则是每一步都有即时奖励：环境给了什么奖励就接收什么，同时还有一个辅助奖励用来鼓励AI按照当前技能的合同推进（满足合同里的一个条件给小奖励，满足所有条件给大奖励），以及一个惩罚项用来抑制无谓的技能切换（因为频繁切换技能而不专注执行是早期训练中常见的问题）。

五、六个游戏场景，一次全面检验

研究团队在六个不同的游戏环境中测试了COS-PLAY，这些游戏覆盖了从简单逻辑谜题到复杂多人社交博弈的广泛范围。

单人游戏方面，测试涉及了四个经典游戏。2048是一个在4×4格子上滑动合并数字方块的益智游戏，每次只能上下左右移动一格，目标是在格子填满之前合并出尽可能大的数字，每局最多200步。糖果传奇（Candy Crush）是经典消消乐，在8×8棋盘上交换相邻糖果来制造三连消，每局最多50步，规则在于如何制造连锁反应。俄罗斯方块在10×20的棋盘上落块，有7种标准形状，预览接下来4个方块，目标是消行得分，每局最多200步。超级马里奥兄弟是横版过关游戏，马里奥需要向右推进、躲避障碍和敌人，到达终点旗杆，有7种操作按键，每局最多200步，奖励结合了推进距离、金币和时间奖励。

多人游戏方面，测试了两个社交推理游戏。阿瓦隆是一个5人隐藏身份游戏，玩家分为善方（梅林、两名仆从）和恶方（一名爪牙、一名刺客），通过队伍提案、投票、任务执行和最后的刺客猜测阶段来决定胜负。善方面临的挑战在于要从稀疏的线索中推断出谁是敌人，而恶方从一开始就知道所有人的身份，具有巨大的信息优势。外交（Diplomacy）是7人大战略棋盘游戏，在经典欧洲地图上进行，七大强国（奥地利、英国、法国、德国、意大利、俄国、土耳其）轮流进行移动、撤退和补给调整等多个阶段，需要长时间的谈判、结盟和多回合规划，最多进行20个阶段，以控制的补给中心数量为评判标准。

在所有游戏中，游戏画面和状态都被转换成文字描述，AI通过输出文字指令来操控游戏，使用统一的接口，保证了比较的公平性。

训练开始前，研究团队用GPT-5.4（一个强力的商业大模型）作为"老师"，为每款游戏生成了60条示范轨迹，再用这些轨迹对Qwen3-8B（一个80亿参数的开源模型）进行监督微调，得到两个代理共用的初始模型。之后，两个代理进入协同进化的正式训练循环。

六、实验结果：小模型的逆袭

研究团队把COS-PLAY与四个业界顶尖的大型语言模型进行了对比：GPT-5.4、Gemini-3.1-Pro、Claude-4.6-Sonnet和GPT-OSS-120B（一个1200亿参数的开源模型）。每款单人游戏评估16局，每款多人游戏每个玩家评估10局，所有结果都带有95%置信区间。

在四款单人游戏上，COS-PLAY的表现相当亮眼。以2048为例，COS-PLAY平均得分达到1589分，而GPT-5.4只有1127分，Claude-4.6-Sonnet为945分，Gemini-3.1-Pro最低只有813分；俄罗斯方块上，COS-PLAY平均511分，GPT-5.4为458分，大幅领先其他模型；糖果传奇中，COS-PLAY平均649分，GPT-5.4为533分；超级马里奥兄弟上，COS-PLAY平均949分，GPT-OSS-120B有969分略有优势，但其他模型均逊色许多。四款单人游戏综合平均，COS-PLAY的得分比GPT-5.4高出25.1%，这是一个相当显著的提升——毕竟COS-PLAY的基础模型只有80亿参数，而GPT-5.4的规模远不止于此。

更难得的是，COS-PLAY在训练速度上也表现出色。每款游戏最多只需25轮协同进化训练就能达到这种水平，而传统的强化学习游戏代理往往需要数百轮训练。这说明COS-PLAY的技能库机制提供了极为有效的先验知识，让AI的学习效率大幅提升。

在多人社交游戏上，情况稍有不同。这类游戏本质上是在与GPT-5.4扮演的对手对博，难度极高，大多数中小模型在这里表现欠佳。COS-PLAY在阿瓦隆的综合胜率为39%，而Gemini-3.1-Pro为42%、GPT-OSS-120B为40%，差距只有1到3个百分点，基本处于竞争水平。在外交游戏中，COS-PLAY的平均供应中心数为2.96个，Gemini-3.1-Pro为2.72个，COS-PLAY反而领先了8.8%。GPT-5.4在自我对战（每位参与者都是GPT-5.4）时平均供应中心为4.70个，展示了它作为对手的强大实力。

七、逐层拆解：哪个部件真正关键

为了弄清楚COS-PLAY的性能到底来自哪里，研究团队做了一系列"拆零件"实验，逐个去掉某个组件，观察性能变化。

基础的Qwen3-8B模型在四款单人游戏的平均得分为380分，性能参差不齐——在糖果传奇和超级马里奥兄弟上表现尚可（520和836分），但在2048和俄罗斯方块上几乎完全失败（131和32分）。

只做监督微调但不使用技能库的版本（SFT W/O SKILL）平均得分410分，确实能改善动作格式，让AI学会了如何规范地给出指令，但因为缺乏可复用的行为结构，在需要长期规划的环节上依然脆弱。

仅用第一轮协同进化产生的初始技能库、不进行后续更新的版本（SFT + 1ST SKILL）平均得分466分，有所提升，但技能库与决策代理各自独立优化，策略不一致带来了问题——技能库是针对早期的行为特征设计的，但决策代理随着训练发生了变化，导致技能的适用性下降。

用最终经过完整协同进化的技能库、但不进行GRPO强化学习训练的版本（SFT + FINAL SKILL）平均得分只有360分，甚至低于基础模型。这个结果尤为说明问题：即使有一个好的技能库，如果决策代理的检索和使用技能的能力没有经过针对性训练，好技能也用不好，甚至会起反作用，因为技能库的设计假设和决策代理实际的行为模式之间出现了错配。

只做GRPO强化学习训练但不使用技能库的版本（GRPO W/O SKILL）平均得分360分，强化学习确实能提升决策质量，但在奖励稀疏的游戏中容易陷入不稳定——没有技能库提供的结构性指引，AI很容易在大量可能的操作中迷失方向。

仅使用初始技能库结合GRPO训练的版本（GRPO + 1ST SKILL）平均得分只有305分，比单纯GRPO训练还差。道理和前面类似：技能库和决策代理如果针对不同阶段的状态分布优化，配合使用反而会互相拖累。

而完整的COS-PLAY，通过两个代理的完整协同进化，平均得分达到924分，大幅领先所有变体。这套实验清晰地说明了一件事：核心优势不来自技能库本身，也不来自强化学习本身，而是来自二者在同一个闭环里共同优化、相互对齐这件事。

八、技能库里长出了什么

研究团队还专门分析了技能的可复用性——一个好的技能不仅要帮助当下的决策，还要在未来不同的情境下反复被用到，这才说明它是真正有价值的、稳定的行为模式，而不只是某次特殊轨迹的记忆。

以外交游戏为例，整个训练过程中共发现了121个技能，但技能库始终保持在55到70个的活跃规模，其余53个经过合并或拆分被消化吸收。这说明系统确实在主动维护技能库的精简性，而非无限堆积。最多被复用的技能在28局游戏中出现了45次，平均每个技能在12.7局游戏中被用到，表明技能具有实质性的跨局复用能力。

从技能类型的演变来看，外交游戏的技能库从最初以领土维持和防御类技能为主，逐步扩充出更多相变转换类（如何在不同战略阶段之间切换）和领土失守应对类技能，战略覆盖范围明显扩大了。与此同时，AI的意图分布也从初期较为单一，逐渐变得更加多元且目标导向性更强，技能切换更加精准而非随机。

超级马里奥兄弟的技能库最为丰富，发现了20个技能，涵盖9个类别，平均每个技能在14.1局中被使用，说明横版过关游戏对多样化的行为策略有较高需求。2048的技能库则相对集中，13个技能中最频繁的那个在236次子游戏片段中被识别到，平均每个技能使用45.6次，体现了这类益智游戏中少数几个核心策略被反复应用的特点。

九、通俗性与专业性的双重测试

一个合理的担忧是：AI在游戏上强化训练之后，会不会把原本擅长的数学推理、知识问答等通用能力给"遗忘"掉？研究团队专门用两个经典的AI推理基准测试来检验这一点：Math-500（数学推理题集）和MMLU-Pro（跨领域知识和推理能力测试）。

结果显示，COS-PLAY在Math-500上的得分为44.6%，原始Qwen3-8B为46.4%，下降了1.8个百分点；在MMLU-Pro上，COS-PLAY为61.15%，Qwen3-8B为61.99%，下降了0.84个百分点。这种程度的性能损失是相当小的，说明针对游戏环境的协同进化训练并没有大幅破坏模型在其他任务上的通用能力，两者之间的平衡保持得相对合理。

十、从糖果消消乐到外交战争：细节里的故事

研究团队提供了两个详细的步骤级比较案例，让人可以直观感受到COS-PLAY与GPT-5.4在策略质量上的具体差距。

在糖果传奇游戏中，COS-PLAY最终得分806分，而GPT-5.4最高只达到547分，差距达47%。COS-PLAY的技能库提炼出了两个核心技能：OPTIMIZE（优化准备）和CLEAR（收割清除）。OPTIMIZE负责调整棋盘结构，制造连锁消除的条件；CLEAR则在棋盘准备好之后，执行效益最高的消除操作。这两个技能之间有严格的时序逻辑：先OPTIMIZE，再CLEAR，循环往复。

相比之下，GPT-5.4的行为标签混乱，CLEAR、ATTACK、EXECUTE高度重叠，没有清晰的阶段划分，在整局游戏中几乎都停留在"有什么就消什么"的即时反应模式，平均每次技能持续3.1步就切换，一局切换14次之多。COS-PLAY则平均每次技能持续6.6步，一局只切换7.6次，更能积累准备阶段的成效。最典型的对比出现在第28步：COS-PLAY经过前5步的OPTIMIZE积累，触发了一次62分的连锁大爆，而GPT-5.4在同一步只消了一个角落的小组合，得了3分，差了整整20倍。

在外交游戏的奥地利视角案例中，COS-PLAY形成了一个清晰的时序策略管道：前4步（EXPLORE阶段）保持耐心，侦察边境，确定哪个邻居是潜在盟友、哪个是威胁；第5步开始切入SETUP阶段，稳步扩张供应中心；拿到足够多的中心后切入DEFEND阶段，巩固已有成果，防止反扑；末局再切回SETUP进行调整。这个三段管道在28局游戏中的每次EXPLORE转SETUP发生时间点非常稳定，均在第5步（标准差为零），说明AI真正学会了"观察5步、然后开始行动"的节奏规律。

GPT-5.4的做法则完全不同：第0步就直接全力抢占塞尔维亚和加利西亚，第2步就攀升到5个供应中心，看起来效率很高；但随后因为战略铺开太广、应变能力有限，陷入了长达13个阶段的停滞，供应中心数量纹丝不动。最终在后期靠土耳其主动崩溃才侥幸爬到7个，而不是自身策略的胜利。COS-PLAY虽然前期扩张稍慢，但稳步推进，最终同样到达7个供应中心，且全程从未丢失任何初始中心，防御下限（最低中心数为3）远优于GPT-5.4（最低曾跌至1）。

研究团队也诚实地记录了COS-PLAY的失败案例。在外交游戏中，约18%的游戏局（28局中有5局）以卡在3个供应中心无法成长而告终，根本原因是AI存在严重的"动作偏好"：85%的时间都会选择排名第一的动作，而第一个动作通常是支援（SUPPORT）指令，导致某些游戏局里AI反复支援同一个单位，无法突破僵局。技能切换依然正常发生，但动作适配器的行为不够多样化，无法打破支援循环。

GPT-5.4的失败模式则截然不同：它会在27%的游戏局中（60局中有16局）发生崩溃，从4到5个供应中心直接一路滑落至1到2个，原因是防守技能一旦激活，就会在12到15步内反复执行撤退和解散操作，没有任何恢复性技能来应对已经失控的局面，最终加速崩溃。由此可以得出一个有趣的观察：COS-PLAY的失败模式是"卡住不动"，GPT-5.4的失败模式是"主动崩溃"——前者虽然没有成长，但至少守住了基本盘；后者则可能从相当好的位置迅速全面瓦解。

归根结底，COS-PLAY给AI带来的核心能力，是让它不再依赖每次游戏时的"即兴发挥"，而是拥有一套可以积累、整理、更新和调用的结构性经验库，并在实际游戏中真正学会何时该用哪种策略、如何执行、何时切换。这套机制让一个只有80亿参数的小模型，在多种游戏场景中超越了参数规模远超它的大模型，同时几乎不损失其在数学推理和知识问答上的原有能力。

当然，这套系统目前还有明显的局限：它依赖纯文字状态描述，无法处理原始图像或视频画面，在一些视觉细节至关重要的游戏中会遗漏关键信息；在超长轨迹中，多次状态总结可能累积误差，降低技能的准确性。研究团队表示下一步希望把这套框架扩展到多模态环境中，让技能库能同时处理视觉和文字信息，也希望进一步探索跨游戏的技能迁移，让在某款游戏中学到的策略经验能够被移植到全新的游戏场景中。

这项研究或许还预示着一种AI开发的新思路：与其一味追求更大的基础模型，不如认真研究如何让模型有效积累和利用结构化经验——有时候，一本精心维护的菜谱，比先天的聪明才智更重要。

Q&A

Q1：COS-PLAY框架与普通大语言模型玩游戏有什么本质区别？

A：普通大语言模型玩游戏时没有经验积累机制，每局开始都从零出发，靠即兴判断。COS-PLAY则给AI配备了一个持续更新的"技能库"，记录从历次游戏中提炼出的可复用行为策略（比如"先探路再进攻"的完整步骤和适用条件），并训练AI学会何时检索哪个技能、如何按技能指引行动。两者协同进化，形成自我强化的学习闭环。

Q2：COS-PLAY使用的Qwen3-8B基础模型参数量比GPT-5.4小很多，为什么能超过它？

A：参数量大不等于策略质量高。GPT-5.4在面对需要长期规划的游戏时，缺乏结构化的行为记忆，容易陷入即时反应的循环，比如在外交游戏中反复执行防守/进攻的来回切换，或者在消消乐中始终处于"看到什么消什么"的模式。COS-PLAY通过技能库提供了清晰的阶段性行为规范，加上强化学习训练让AI精准掌握技能检索和执行，弥补了参数规模上的差距，在需要多步规划的场景中实现了逆袭。

Q3：COS-PLAY学到的技能会干扰AI原有的数学推理和知识回答能力吗？

A：影响非常小。研究团队用Math-500数学题集和MMLU-Pro跨领域知识测试进行了验证，COS-PLAY训练后的模型在Math-500上得分下降1.8个百分点，在MMLU-Pro上下降约0.84个百分点，与原始Qwen3-8B相比差距极小。这说明针对游戏环境的协同进化训练基本不会破坏模型在其他通用任务上的能力。

人工智能强化学习技能库学习

分享至