
这项由纽卡斯尔大学和奥克兰大学联合完成的研究发表于2026年的AAAI会议(Association for the Advancement of Artificial Intelligence),论文编号为arXiv:2601.05899v1。研究团队开发了一个名为TowerMind的全新AI测试平台,专门用来评估大型语言模型(也就是ChatGPT那类AI)是否具备像人类一样制定长期策略和做出明智决策的能力。
当我们谈论AI的未来时,最让人兴奋的问题之一就是:机器能否像人类一样思考复杂问题并制定长远计划?比如,当你计划一次旅行时,你需要考虑预算、时间、路线、住宿等各种因素,还要在旅途中根据实际情况灵活调整计划。这种能力对AI来说是个巨大挑战,而现有的测试方法要么太简单,要么需要超级计算机才能运行。
为了解决这个问题,研究团队选择了一个巧妙的测试场景——塔防游戏。就像热门的植物大战僵尸一样,玩家需要在地图上放置不同类型的防御塔来阻挡敌人进攻。这类游戏完美地结合了战略规划和即时决策两个核心能力:你既需要提前规划整体防御布局(长期策略),又要根据敌人类型和战场变化及时调整战术(即时决策)。
一、为什么选择塔防游戏来测试AI智慧
传统的AI测试环境面临一个两难困境。像星际争霸这样的复杂游戏确实能很好地测试AI的策略思维,但运行这些游戏需要强大的计算资源——大约需要30GB硬盘空间、2GB内存,还必须配备专用显卡。这就像为了测试一个人的驾驶技能,却要求他必须开一辆法拉利才行。
相比之下,现有的轻量级测试环境虽然对硬件要求不高,但它们有个致命缺陷:只支持纯数字输入输出,无法处理文字描述。这对于以文字理解见长的大型语言模型来说就像是让一个精通文学的学者去做纯数学运算——无法发挥真正的优势。
TowerMind的设计理念就像是找到了一个完美的中间点。它只需要0.15GB的硬盘空间和内存,普通笔记本电脑就能流畅运行,不需要独立显卡。同时,它支持三种不同的信息输入方式:游戏画面截图、详细的文字描述,以及结构化的数字数据。这就像是为AI提供了一个既经济实用又功能完备的测试平台。
更重要的是,塔防游戏的核心机制天然符合策略思维的要求。当敌人按波次进攻时,玩家必须预判敌人类型和数量,合理分配金币资源,选择最优的塔防位置,还要考虑塔防之间的配合效果。这个过程需要多层次的思考:宏观上要制定整体防御策略,微观上要优化每个决策细节。
二、TowerMind游戏世界的精巧设计
TowerMind的游戏世界就像一个精心设计的战略棋盘。整个地图是一个边长为6的正方形区域,敌人沿着预设的道路向玩家基地进攻,而玩家需要在道路两旁的指定位置建造防御塔进行拦截。
游戏中有三种不同类型的防御塔,每种都有独特的作战风格。弓箭塔就像狙击手,专门对单个敌人造成高额伤害,既能攻击地面目标也能对付空中敌人。魔法塔则像炸弹专家,虽然只能攻击地面敌人,但能造成范围伤害,一击可以伤害多个敌人。骑士塔比较特殊,它本身不能攻击,但会召唤骑士部队参与战斗,这些骑士可以由玩家直接控制移动和作战。
除了防御塔,玩家还可以控制一个英雄角色,它比普通骑士更强大,拥有更高的血量和攻击力,还有特殊的范围攻击技能。不过使用这个技能需要消耗英雄的生命值,这就需要玩家权衡风险和收益。
敌人方面设计得同样精妙,总共有15种不同类型的敌人,从血量较高的兽人战士到移动迅速的恶魔蝙蝠,从攻击力超强的小丑到能够冻结防御塔的兽人巫师,每种敌人都有独特的特点和对付方法。这种多样性确保玩家无法依靠单一策略获胜,必须根据敌人组合灵活调整战术。
资源系统也颇具挑战性。金币是游戏中的唯一货币,用于建造塔、升级塔和增强英雄能力。金币会随机出现在地图各处,玩家需要派遣部队主动收集。有趣的是,游戏还加入了"友军误伤补偿"机制——当英雄的范围攻击意外击杀友军骑士时,系统会给予玩家一定的金币补偿,这就像是军费补贴一样。
最有趣的设计是"战争迷雾"系统。地图上会有一片云状的白色区域随机移动,被迷雾覆盖的区域内的所有单位都会从视野中消失,友军单位也会暂停攻击。这个设计增加了游戏的不确定性,迫使玩家在信息不完整的情况下做出决策,这正是现实生活中战略规划经常面临的挑战。
三、三种观察世界的方式
TowerMind的独特之处在于它为AI提供了三种完全不同的信息获取方式,就像给同一个人提供三种不同的感官体验。
第一种是视觉观察,AI会收到一张512×512像素的彩色游戏截图,就像人类玩家看到的画面一样。AI需要从这张图片中识别各种游戏元素:哪里有防御塔,哪里有敌人,当前的资源状况如何,战争迷雾覆盖了哪些区域等等。这种方式最接近人类的游戏体验,但也对AI的图像理解能力提出了很高要求。
第二种是文字描述,系统会用详细的JSON格式文本向AI描述当前的游戏状态。这份描述包含了所有相关信息:地图边界坐标、当前金币数量、剩余敌人波数、每个防御塔的位置和状态、所有敌人的位置和血量等等。这就像是给AI提供一份详尽的战况报告,让它可以用自己最擅长的文字理解能力来分析局势。
第三种是结构化数据,系统将游戏状态转换成一个包含759个数字的一维数组。这些数字代表游戏中的各种参数,比如第1-2个数字表示地图中心坐标,第3个数字表示地图边长,以此类推。这种方式类似于给AI提供一份标准化的数据表格,便于进行数值计算和模式识别。
这三种信息提供方式各有优势。视觉信息最直观但需要强大的图像处理能力;文字描述最详细但需要优秀的语言理解能力;数字数据最精确但需要良好的数值推理能力。通过对比AI在不同信息模式下的表现,研究团队可以深入了解各种AI模型的优势和局限。
四、行动空间的巧妙设计
TowerMind采用了一种混合型的行动设计,将连续坐标选择和离散动作类型结合在一起。每个行动由三个部分组成:水平坐标X、垂直坐标Y,以及动作类型编号。
坐标系统使用连续数值,范围从-3.0到3.0,对应游戏地图的实际空间。这意味着AI需要精确指定行动位置,不能只是大概指个方向。动作类型则有12种选择,从建造三种不同的防御塔,到升级、出售防御塔,再到控制英雄移动、释放技能等等。
这种设计的精妙之处在于它真实地反映了战略游戏的复杂性。在现实的策略决策中,"在哪里"和"做什么"往往同样重要。比如在同一个位置建造弓箭塔和魔法塔会产生完全不同的效果,而同样是建造弓箭塔,放在道路旁边和放在远离道路的位置也会有天壤之别。
游戏还加入了动作有效性验证机制。并非所有的动作组合都是有效的,比如试图在已有防御塔的位置再建一座塔,或者金币不足时强行建造,这些都会被系统判定为无效动作并被忽略。这个设计不仅增加了游戏的真实性,还为研究团队提供了一个重要的评估指标——AI的"幻觉"程度,也就是AI产生不切实际想法的频率。
五、五个难度递增的挑战关卡
为了全面评估AI的策略能力,研究团队精心设计了五个难度逐级递增的测试关卡。他们还开发了一套量化的难度评估系统,从四个维度来衡量每个关卡的挑战性。
道路复杂度考虑的是敌人进攻路线的数量。关卡1只有一条进攻路线,相对简单;而关卡5有四条不同的路线,需要玩家同时防御多个方向。防御点数量反映了可建造防御塔的位置多少,从关卡1的4个点到关卡4和5的12-13个点不等。
敌人多样性包括敌人类型的种类和每波敌人的平均数量。关卡1包含14种不同类型的敌人,平均每波20.8个;关卡2虽然敌人类型少了一种,但策略性更强。资源稀缺度则综合考虑初始金币、金币掉落量和防御塔回售比例等因素。
有趣的是,关卡2虽然在某些指标上比关卡1简单,但它的资源限制更严格——初始金币只有120枚(关卡1有500枚),金币掉落量只有40枚(关卡1有100枚),而且防御塔完全无法回售。这种设计迫使玩家更加谨慎地规划每一笔支出,一旦战略方向错误就很难挽回。
关卡3到5逐渐增加道路数量和防御点数量,敌人组合也变得更加复杂。最高难度的关卡5综合了所有挑战因素:多条进攻路线、大量防御选择点、复杂的敌人组合,以及中等程度的资源限制。通过这种渐进式的难度设计,研究团队可以准确识别不同AI模型的能力边界。
六、两套评估标准揭示AI真实水平
研究团队设计了两个互补的评估指标来全面衡量AI的表现。第一个是得分指标,直接反映AI完成游戏任务的能力。由于每个关卡的玩家基地都有20点生命值,每当一个敌人突破防线到达基地就会扣除1点生命值,因此最终得分范围从-20到0,得分越接近0表现越好。
第二个是有效动作率,计算AI执行的有效动作占总动作的比例。这个指标特别重要,因为它直接反映了AI的"幻觉"程度——也就是AI产生不切实际想法的频率。一个经常尝试无效操作的AI,即使偶尔做出正确决策,也很难在复杂任务中取得好成绩。
为了建立基准线,研究团队招募了5名有塔防游戏经验的人类专家作为参照组。这些专家在经过13小时的训练后,在5个测试关卡上进行评估。人类专家的表现为AI设定了一个现实的目标标准。
所有测试结果都采用相对于人类专家表现的归一化处理。比如某个AI模型在关卡1上的原始得分是-5,而人类专家的平均得分是0,那么这个AI的归一化得分就是-5/20 = -0.25。这种处理方式使得不同关卡和不同指标之间的结果具有可比性。
七、七大AI模型的较量结果
研究团队测试了7个目前最知名的大型语言模型,包括3个商业模型(GPT-4.1、Gemini-2.5-Pro、Claude 3.7 Sonnet)和4个开源模型(两个版本的Llama 3.2和两个版本的Qwen 2.5-VL)。每个模型都在两种信息模式下接受测试:纯文字模式和图文结合模式。
测试结果揭示了几个令人深思的现象。首先,即使是表现最好的商业模型,与人类专家相比仍有显著差距。在纯文字模式下,Claude 3.7 Sonnet获得了最高的平均得分0.38(归一化后),意味着它的表现大约是人类专家的38%。在图文结合模式下,GPT-4.1表现最佳,得分0.42,但仍然不到人类专家水平的一半。
其次,视觉信息的加入确实能提升大多数模型的表现。除了Llama 3.2系列外,其他所有模型在加入图像信息后都有不同程度的改进。这说明多模态信息确实有助于AI理解复杂环境,但Llama 3.2似乎还无法有效处理这种复杂的动态视觉信息。
在有效动作率方面,商业模型表现相对稳定,大多能维持80%以上的有效动作率,意味着它们的大部分决策都是合理的,即使效果不一定理想。但开源模型的表现差异巨大,特别是较小的模型如Qwen 2.5-VL 7B和Llama 3.2 11B,它们的有效动作率有时甚至低于随机选择。
随着关卡难度增加,AI模型的"幻觉"现象也变得更严重。在最难的关卡5上,所有模型的有效动作率都出现明显下降。这可能是因为复杂情况下,游戏状态的文字描述变得更长更复杂,超出了某些模型的稳定处理能力。
八、AI策略思维的三大致命弱点
通过深入分析AI模型的游戏轨迹,研究团队发现了当前AI在策略思维方面的三个根本性问题。
第一个问题是缺乏策略验证能力。研究人员在测试关卡中故意放置了一些"诱饵"——距离敌人进攻路线很远的防御塔建造点。在这些位置建造防御塔完全无法攻击到任何敌人,纯粹是浪费资源。然而,AI模型经常会选择在这些无用位置建造防御塔。更令人惊讶的是,游戏提供给AI的信息完全足够进行空间推理,计算出这些位置无法覆盖敌人路线,但AI们似乎无法进行这种基本的几何分析。
第二个问题是缺乏多目标优化思维。在策略游戏中,经验丰富的玩家经常会用一个行动同时实现多个目标。比如,派遣英雄去收集金币的同时,会选择一条能够顺便攻击敌人的路径。但在所有AI模型的游戏记录中,研究团队从未观察到这种一举多得的行为。AI们似乎只能专注于单一目标,无法在行动中兼顾多重考量。
第三个问题是对行动空间理解不充分。AI模型经常表现出对可用行动的理解偏差。比如,它们可能在金币充足的情况下忘记升级防御塔,或者向空旷区域派遣骑士增援,又或者在没有敌人时释放英雄的消耗性技能。这些行为表明AI虽然知道这些行动的存在,但对它们的适用场景和效果缺乏深入理解。
这些问题反映了当前AI在抽象推理和情境理解方面的根本限制。它们可能能够理解游戏规则的文字描述,但无法将这些规则转化为实际的策略思维。
九、视觉信息的双刃剑效应
研究结果显示,视觉信息对AI表现的影响呈现出有趣的分化现象。对于大多数模型来说,加入图像信息后表现确实有所改善,但改善程度有限。这说明当前的多模态AI虽然能够处理图像,但还无法像人类那样高效地整合视觉和文本信息。
以GPT-4.1为例,在纯文字模式下它的平均得分是0.33,加入视觉信息后提升到0.42,改善了约27%。这种提升主要体现在对游戏状态的理解更加准确,特别是在判断单位位置关系和战场态势方面。
然而,Llama 3.2系列却出现了相反的趋势。这两个模型在加入视觉信息后表现反而下降,特别是90B版本从纯文字模式的0.21下降到视觉模式的0.07。这可能说明这些模型还无法有效处理复杂的动态视觉场景,图像信息反而成了干扰因素。
有效动作率的变化也很有启发性。大部分模型在视觉模式下的有效动作率都有所下降,说明处理图像信息增加了AI的认知负担,导致更多的错误判断。但这种下降通常比较轻微,而且伴随着游戏得分的提升,说明AI虽然犯了更多小错误,但在关键决策上更加准确。
十、从正确性到有效性的认知鸿沟
研究中最引人深思的发现之一是AI模型在"知道规则"和"有效应用"之间存在巨大鸿沟。大多数模型都能维持相当高的有效动作率,说明它们理解游戏规则,知道什么行动是被允许的。但高有效动作率并没有转化为高游戏得分,这意味着AI虽然不会犯明显的错误,但选择的策略效果有限。
这种现象类似于现实生活中的一个常见情况:一个人可能知道某个领域的所有理论知识,但在实际应用中却无法取得理想结果。比如,一个熟读驾驶手册的人知道所有交通规则,但这并不意味着他就是一个优秀的司机。
对AI研究来说,这个发现具有重要意义。它提醒研究者们,仅仅测试AI是否能给出"技术上正确"的答案是不够的,更需要评估这些答案在实际应用中的效果。静态的知识测试(如常见的标准化考试)可能无法全面反映AI的真实能力,需要更多像TowerMind这样的动态、交互式评估环境。
这也解释了为什么在某些实际应用中,AI的表现可能不如预期。AI可能能够理解任务要求,甚至能够给出符合规范的响应,但这些响应的实际效果可能远不如人类专家的建议。
十一、传统强化学习算法的挑战
为了验证TowerMind作为AI测试平台的有效性,研究团队还测试了两个经典的强化学习算法:Ape-X DQN和PPO。这些算法代表了传统AI游戏系统的主流方法,曾经在多个游戏环境中取得impressive成果。
测试结果显示,即使经过1亿步的训练(相当于数千小时的游戏时间),这两个算法在TowerMind上的表现仍然远低于人类专家水平。它们能够学会一些基本策略,在简单关卡上取得部分成功,但面对复杂关卡时表现急剧下降。
这个结果从另一个角度验证了TowerMind的挑战性。传统的强化学习算法通过大量试错来学习策略,理论上应该能够发现有效的游戏策略。但TowerMind的策略空间可能过于复杂,需要更高级的推理能力而不仅仅是模式识别。
有趣的是,强化学习算法和大型语言模型呈现出互补的优势和劣势。强化学习算法的有效动作率相对较高,很少做出明显不合理的决策,但它们的整体策略缺乏灵活性。相比之下,大型语言模型虽然有时会产生不合理的想法,但在理解复杂情况和制定创新策略方面显示出更大潜力。
十二、误导信息识别的关键测试
TowerMind设计中一个特别巧妙的元素是对AI识别和处理误导信息能力的测试。前面提到的"诱饵"防御塔位置就是一个典型例子,但这种设计的深层意义远超游戏本身。
在现实世界中,AI系统经常需要在信息不完整或存在干扰的环境中做出决策。无论是医疗诊断中的无关症状,投资决策中的市场噪音,还是自动驾驶中的视觉干扰,AI都需要具备筛选有用信息、忽略无关因素的能力。
TowerMind的测试结果显示,当前的AI模型在这方面还有很大改进空间。即使是最先进的模型也经常被误导性选项吸引,无法进行有效的后果预测。这种局限性在安全关键应用中可能带来严重风险。
研究团队认为,未来的AI系统需要集成更强的验证机制。AI不应该仅仅基于表面信息做出决策,还需要能够推演决策的可能后果,验证策略的可行性。这种能力不仅对游戏有用,对AI的广泛应用也至关重要。
说到底,这项研究为我们展现了AI发展的一个重要侧面。虽然大型语言模型在很多任务上表现出色,甚至在某些方面超越了人类,但在需要长期规划和策略思维的复杂任务中,它们仍然面临重大挑战。TowerMind这个看似简单的塔防游戏,实际上揭示了AI智能的边界和未来发展的方向。
对普通人来说,这项研究的意义在于帮助我们更理性地看待AI的能力。AI确实在快速进步,但在需要深度策略思维、长期规划和复杂推理的任务中,人类的优势仍然明显。这既不是对AI的贬低,也不是对人类能力的过度自信,而是对当前技术现状的客观认识。
研究团队已经开源了TowerMind平台,这意味着世界各地的研究者都可以使用这个工具来测试和改进自己的AI系统。随着更多研究者的参与,我们有理由期待AI在策略思维方面的突破。毕竟,认识问题是解决问题的第一步,而TowerMind为我们清晰地标识出了当前AI发展需要重点攻克的方向。
Q&A
Q1:TowerMind是什么?
A:TowerMind是由纽卡斯尔大学开发的AI测试平台,基于塔防游戏设计,用来评估大型语言模型是否具备像人类一样制定长期策略和做出智能决策的能力。它只需要0.15GB存储空间,普通电脑就能运行。
Q2:为什么要用游戏来测试AI能力?
A:塔防游戏完美结合了长期战略规划和即时决策两个核心能力,玩家既需要提前规划防御布局,又要根据实时情况调整战术。这种复合挑战能够全面测试AI的策略思维,比单纯的知识问答更能反映AI的实际应用能力。
Q3:测试结果显示AI表现如何?
A:即使最好的商业AI模型表现也只达到人类专家水平的40%左右,在复杂关卡上差距更大。AI普遍存在三个问题:无法验证策略可行性、缺乏多目标优化思维、对行动选择理解不充分。这说明AI在策略思维方面还有很大提升空间。
好文章,需要你的鼓励
openGauss的目标是探索oGRAC和超节点深度融合的可能,打造超节点原生数据库。
清华团队开发DKT模型,利用视频扩散AI技术成功解决透明物体深度估计难题。该研究创建了首个透明物体视频数据集TransPhy3D,通过改造预训练视频生成模型,实现了准确的透明物体深度和法向量估计。在机器人抓取实验中,DKT将成功率提升至73%,为智能系统处理复杂视觉场景开辟新路径。
字节跳动研究团队提出了专家-路由器耦合损失方法,解决混合专家模型中路由器无法准确理解专家能力的问题。该方法通过让每个专家对其代表性任务产生最强响应,同时确保代表性任务在对应专家处获得最佳处理,建立了专家与路由器的紧密联系。实验表明该方法显著提升了从30亿到150亿参数模型的性能,训练开销仅增加0.2%-0.8%,为混合专家模型优化提供了高效实用的解决方案。
上海AI实验室团队开发的Yume1.5是一个革命性的AI视频生成系统,能够从单张图片或文字描述创造无限可探索的虚拟世界。用户可通过键盘控制实时探索,系统8秒内完成生成,响应精度达0.836,远超现有技术。该系统采用创新的时空通道建模和自强制蒸馏技术,支持文本控制的事件生成,为虚拟现实和内容创作领域开辟了新的可能性。