微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

AI在虚拟世界中的"英雄之旅"：AIRI研究团队如何打造测试智能规划能力的全新战场

长期规划测试虚拟环境评估AI规划能力基准

AI在虚拟世界中的"英雄之旅"：AIRI研究团队如何打造测试智能规划能力的全新战场

作者：科技行者

2025-08-27 10:29

分享至：

AIRI研究团队开发了HeroBench测试平台，在RPG风格虚拟世界中评估25个大型语言模型的长期规划能力。研究发现AI在复杂多步骤规划任务中表现差异巨大，顶级模型Grok-4达到91.7%成功率，但加入升级机制和干扰因素后性能显著下降。该研究揭示了传统学术测试无法反映的AI规划能力真实水平，为改进AI长期规划提供了重要基准。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-08-27 10:29 • 科技行者

当我们谈论人工智能的能力时，大多数人想到的可能是它们在数学题或编程任务上的出色表现。但是，如果让AI像真正的冒险家一样，在一个复杂的虚拟世界中制定长期计划、收集资源、打造装备、击败敌人，它们还能应付得来吗？这正是AIRI（人工智能研究所）联合莫斯科国立大学、Skoltech技术学院等多家机构的研究团队想要探索的问题。

这项由AIRI的Petr Anokhin领导的研究发表于2025年8月，题目为《HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds》。有兴趣深入了解的读者可以通过arXiv:2508.12782v1访问完整论文。研究团队开发了一个名为HeroBench的全新测试平台，这就像是专门为AI设计的"英雄试炼场"，用来检验它们在复杂虚拟环境中进行长期规划和结构化推理的真实能力。

想象一下，你正在玩一款角色扮演游戏，需要打败一个强大的boss。你不能直接冲上去硬拼，而是需要先分析敌人的弱点，计算需要什么装备才能获胜，然后制定一个完整的准备计划：先去哪里采集原材料，学习什么技能，制作哪些装备，按什么顺序进行这些活动。这整个过程需要你进行复杂的多步骤规划，考虑各种依赖关系和约束条件。这正是研究团队想要测试AI模型的核心能力。

研究团队发现，尽管现有的大型语言模型在数学和编程等单步推理任务中表现出色，但在需要长期规划的复杂场景中却表现得令人意外地糟糕。更有趣的是，那些在传统学术测试中得分相近的AI模型，在这个虚拟英雄世界中的表现差异巨大，有些模型几乎完全无法完成任务，而另一些却能展现出令人印象深刻的规划能力。

这项研究的意义远超游戏领域。随着AI系统越来越多地被用于自动化决策和战略规划，我们迫切需要了解它们在复杂、多变环境中的真实规划能力。传统的测试方法往往过于简化，无法反映现实世界场景的复杂性。HeroBench的出现填补了这一空白，为评估和改进AI的长期规划能力提供了一个更加真实和全面的测试平台。

**一、虚拟英雄世界的构建蓝图**

研究团队构建的HeroBench环境就像一个精心设计的角色扮演游戏世界。这个虚拟世界以70个不同的地点组成的网格为基础，每个地点都有其独特的功能和资源。有些地点是矿山，可以开采各种金属；有些是森林，提供木材和草药；还有一些是工坊，用于制作装备；当然也有危险的巢穴，栖息着需要战斗的怪物。

整个游戏世界包含了25种不同类型的怪物，从弱小的史莱姆到强大的龙族，每种怪物都有自己独特的属性和掉落物品。游戏中还设计了17种不同的资源类型和208种独特的物品，包括武器、防具和制作材料。这些数字听起来可能很技术化，但换个角度想，这就相当于创造了一个拥有丰富生态系统的完整虚拟世界。

环境的设计特别巧妙之处在于其复杂的依赖关系网络。制作一把高级剑可能需要特定的金属，而获得这种金属需要特定的采矿技能，学习这个技能又需要先完成其他任务或击败特定的怪物。这种环环相扣的设计确保了AI不能简单地通过记忆或模式匹配来解决问题，而必须真正进行逻辑推理和计划制定。

研究团队将任务分为两大类：纯制作任务和战斗任务。纯制作任务相对简单，就像按照复杂食谱做菜一样，需要按正确顺序收集材料和进行制作。战斗任务则更具挑战性，AI需要先分析目标怪物的属性，计算出能够获胜的最优装备组合，然后制定获得这些装备的完整计划。

特别值得注意的是，游戏中的战斗系统考虑了四种不同的元素伤害类型（火、土、水、气）及其相应的抗性，还有百分比伤害加成、生命值和原始攻击力等多种属性。AI需要像一个经验丰富的游戏玩家一样，在回合制战斗中模拟这些复杂的数值计算，找到既能保证生存又能有效输出伤害的最佳策略。

**二、任务生成的精密机制**

创建一个好的测试任务就像设计一道完美的数学题，既要有一定的难度，又要有明确的解决方案，同时还要能够客观地评估解决过程的质量。研究团队为此开发了一套系统化的任务生成流程，这个流程的精妙之处在于它能够自动创建具有不同难度等级的挑战。

整个过程从选择目标怪物开始。系统会根据预设的难度等级随机选择一个怪物作为最终目标。每个怪物都有一个基于其属性的难度评级，这就像游戏中的怪物等级一样，告诉玩家大概需要什么水平的角色才能挑战它。

接下来是最关键的步骤：寻找最小获胜装备组合。这个概念听起来很技术化，但实际上就像在问："要打败这个boss，我最少需要装备哪些东西？"系统会通过模拟战斗来测试各种装备组合，找到既能保证胜利又不过度配备的最优解。这确保了每个任务都有一个明确的最优策略，同时避免了多余的复杂性。

任务的难度主要由需要制作的缺失物品数量决定。简单的任务可能只需要制作一两件装备，而复杂的任务可能需要制作十几件物品，每件物品又有自己的制作链。研究团队还引入了一个成本函数来量化每个物品的制作复杂度，考虑了材料稀有度、制作步骤数量、技能要求等多个因素。

为了确保任务的合理性，系统还会验证是否存在有效的解决路径。它会检查所有需要的材料是否可以获得，所有需要击败的中间怪物是否在角色能力范围内，所有需要的工坊和资源点是否可以访问。只有通过了这些验证的任务才会被纳入最终的测试集。

特别有趣的是，研究团队还设计了"噪声物品"机制来增加任务复杂性。这些物品看起来很有吸引力，数值甚至比正确答案更好，但实际上无法制作成功，因为缺少某些关键材料。这就像考试中的干扰选项，用来测试AI是否会被表面的吸引力误导，还是能够深入分析找到真正可行的方案。

**三、智能体架构的双重探索**

除了测试现有的大型语言模型，研究团队还开发了两种专门的多智能体系统来应对这些复杂的规划挑战。这两套系统就像是为不同任务特点量身定制的团队作战策略。

第一套系统A-1采用了"分而治之"的策略。它就像一个高效的项目管理团队，包含一个分解员和一个批评员。分解员负责将复杂的总体目标分解为可管理的子任务，然后进一步将这些子任务转化为具体的执行步骤。批评员则充当质量控制的角色，检查计划的合理性和完整性，确保没有遗漏关键步骤或出现逻辑错误。

这种两级分解的方法很像我们在现实生活中解决复杂问题的方式。当你计划一次复杂的旅行时，你首先会制定高层计划（去哪些城市、住几天、主要活动），然后再细化每个阶段的具体安排（订机票、找酒店、安排交通）。A-1系统就是模仿了这种自然的人类规划过程。

第二套系统A-2则采用了更加精细的专业分工策略。它建立在TaskGen框架的基础上，包含了多个专门的智能体：课程智能体负责制定高层战略，战斗分析智能体专门评估战斗胜负，地图专家和制作专家各自负责相关领域的咨询，行动智能体则负责生成最终的可执行代码。

A-2系统的设计理念是"让专业的人做专业的事"。就像一个大型公司会有不同部门处理不同类型的工作一样，A-2让每个智能体专注于自己最擅长的领域。当需要制定制作计划时，制作专家会提供详细的材料清单和制作顺序；当需要分析战斗时，战斗专家会计算各种属性和伤害数值。

有趣的是，研究结果显示简单的A-1系统在很多情况下反而比复杂的A-2系统表现更好。这个发现很重要，因为它提醒我们复杂性并不总是等同于更好的性能。有时候，清晰简洁的架构比过度复杂的设计更有效。这种现象在人类组织中也很常见：小而精的团队往往比庞大复杂的组织更灵活高效。

**四、25个AI模型的大型角斗场**

研究团队对25个不同的大型语言模型进行了全面测试，这就像是举办了一场AI界的"奥运会"，每个参赛者都要在同样的挑战面前展示自己的真实实力。测试结果揭示了一些令人惊讶的发现，颠覆了我们对AI能力的一些常见认知。

测试中表现最令人瞩目的是Grok-4模型，它在几乎所有难度级别上都展现出了卓越的性能，成功率高达91.7%。更让人印象深刻的是，即使任务难度增加，Grok-4的性能下降也最为缓慢，显示出了出色的鲁棒性。这就像一位全能运动员，不仅在简单项目上表现优异，在高难度挑战中同样游刃有余。

紧随其后的是GPT-5，成功率达到83.9%，显示出了强大的规划能力。有趣的是，这些顶级模型的表现与它们在传统数学或编程基准测试中的排名并不完全一致，说明长期规划确实是一项独特的能力，需要专门的测试来评估。

研究还揭示了"思考型"模型与普通模型之间的显著差异。所谓"思考型"模型就是那些能够进行内部推理过程的版本，它们在给出答案之前会进行一系列内部计算和分析。这些模型普遍比它们的非思考型版本表现更好，就像一个人在回答问题前先仔细思考一番，自然比匆忙作答更准确。

然而，并非所有思考型模型都能显著超越其基础版本。例如，一些较小的模型即使加入了思考机制，仍然难以处理复杂的多步骤规划任务。这说明思考能力需要建立在足够的基础智能水平之上，就像给一个初学者更多思考时间未必能让他解出高等数学题一样。

特别值得注意的是GPT-4.1在非思考型模型中的出色表现。它不仅在成功率上接近一些思考型模型，在效率方面甚至更胜一筹。这种高效的表现让它在"性价比"排行中名列前茅，证明了良好的基础架构设计有时比复杂的附加机制更重要。

研究团队还对模型的失败模式进行了详细分析。他们发现，不同模型的失败原因各不相同：一些模型主要在高层规划上出错，比如选择了错误的装备组合；另一些则在执行层面出问题，比如计算错误的材料数量或使用了错误的坐标信息；还有一些模型会产生格式错误的代码，导致系统无法执行。

**五、复杂场景下的极限挑战**

为了进一步测试顶级模型的能力边界，研究团队在最高难度的任务中加入了两种额外的复杂性：技能升级机制和干扰物品。这就像在已经很困难的挑战中再加上时间限制和误导信息，真正考验AI的综合应对能力。

技能升级机制要求AI像真正的游戏玩家一样，不能直接制作高级物品，而必须从最基础的技能开始，通过制作低级物品来积累经验，逐步解锁更高级的制作配方。这个过程就像学习烹饪：你不能直接做复杂的法式大餐，而需要先掌握基础刀工和简单菜品，然后逐步提升技能等级。

在这种设定下，AI需要制定一个完整的技能发展路线图。它必须分析目标物品的技能要求，找出当前技能水平与需求之间的差距，然后设计一条最优的升级路径。这不仅需要逻辑推理能力，还需要对整个技能系统有深入的理解。

干扰物品机制则是另一种形式的挑战。系统会在可选装备中混入一些看似优秀但实际上无法获得的物品。这些"陷阱"装备在数值上可能比正确答案更加吸引人，但由于缺少关键的制作材料或前置条件而无法实际完成。这就像在选择题中故意设置诱人的错误选项，考验AI是否会被表面现象迷惑。

测试结果显示，即使是最强的模型也在这些复杂场景中遇到了显著挑战。Grok-4虽然仍然保持领先，但在加入升级机制后成功率从80%下降到65%，在进一步加入干扰物品后更是降至65%。这说明即使是当前最先进的AI系统，在面对真正复杂的现实世界般场景时仍有很大的提升空间。

有趣的是，一些模型对不同类型的复杂性表现出了不同的敏感度。例如，GPT-5在面对升级机制时表现下降明显，但对干扰物品的抗干扰能力相对较强。这种差异性表现为未来AI系统的改进指明了具体的方向。

**六、Pass@k实验的意外发现**

研究团队还进行了一项特别有意思的实验：让模型多次尝试同一个任务，看看"试的次数多了是否就能成功"。这就像让学生反复做同一道题，看看多次尝试是否能提高正确率。

实验结果揭示了一个重要发现：对于规划型任务，简单地增加尝试次数并不能显著提高成功率。即使给基础的Qwen3-8B和Qwen3-32B模型200次机会，它们仍然无法达到其思考型版本在仅仅10次尝试中就能达到的成功率。

这个发现具有重要的理论意义。它表明长期规划能力不是一个可以通过"蒙"或者"碰运气"来解决的问题。与那些可能有多个合理答案的开放性任务不同，规划任务通常需要精确的逻辑推理和系统性思考。如果模型缺乏这种核心能力，再多的尝试也无济于事。

这种现象也解释了为什么强化学习训练对规划能力的提升如此重要。单纯增加模型规模或训练数据可能不足以带来规划能力的根本性提升，而需要专门的训练方法来培养这种结构化的推理能力。

**七、多智能体系统的表现分析**

研究团队对比了单一模型和多智能体系统在中等难度任务上的表现，结果既有惊喜也有教训。简单的A-1系统确实比基础的GPT-4.1-mini表现更好，在难度2的任务中成功率从45%提升到65%，在难度3的任务中从15%提升到60%。

然而，更复杂的A-2系统反而表现不佳，成功率甚至低于基础模型。这个结果很有启发性，它说明系统复杂性和性能之间并非简单的正相关关系。过度复杂的架构可能会引入更多的潜在错误点，特别是当底层模型还不够强大时，复杂的协调机制可能会成为累赘而不是助力。

这个发现对实际应用有重要指导意义。在设计AI系统时，应该优先考虑架构的简洁性和有效性，而不是盲目追求复杂性。一个设计良好的简单系统往往比一个过度工程化的复杂系统更可靠、更容易维护。

**八、错误分析的深层洞察**

通过对模型失败案例的详细分析，研究团队发现了一些有趣的模式。弱一些的模型通常会在多个层面同时出错：既会在高层规划上选择错误的策略，也会在具体执行中犯各种小错误。相比之下，强大的模型虽然也会失败，但失败通常集中在特定环节，比如主要是在战略规划阶段出错，而执行层面相对可靠。

这种差异很像不同水平学生在解数学题时的表现。初学者可能在理解题意、选择方法、计算过程的每个环节都出错，而高水平学生如果出错，通常只是在某个特定步骤上的疏忽。这说明AI模型的能力提升是一个系统性的过程，不仅仅是某个单一能力的增强。

特别值得注意的是代码格式错误的分布。一些模型在生成可执行代码方面存在系统性问题，这直接影响了它们在这个benchmark上的表现。这提醒我们，在评估AI的规划能力时，不能忽视其在具体实现上的可靠性。

研究还发现，顶级的推理模型如GPT-5和Grok-4不仅错误率低，而且会随着任务难度增加而显著增加其推理过程的长度。这说明它们能够根据任务复杂性动态调整自己的思考深度，这是一种很重要的元认知能力。

说到底，这项研究给我们展示了AI在复杂规划任务上的真实能力画像。虽然当前最先进的AI模型已经能够处理相当复杂的规划挑战，但距离人类水平的灵活规划能力仍有不小差距。更重要的是，这个研究平台为我们提供了一个客观评估和持续改进AI规划能力的工具。

对于普通人来说，这意味着我们在期待AI帮助我们处理复杂的生活规划时，还需要保持理性的预期。虽然AI可以在很多方面提供有价值的建议，但在需要长期、多步骤、多约束条件的复杂规划任务中，人类的智慧仍然不可替代。同时，这也提醒AI研发者，真正有用的AI助手需要在实际复杂场景中进行测试和优化，而不仅仅是在简化的学术测试中表现良好。

随着这个研究平台的开放，我们有理由相信AI的规划能力将会得到更快的提升。毕竟，只有在真正具有挑战性的环境中，AI才能学会像人类一样进行复杂而有效的长期规划。

**Q&A**

Q1：HeroBench是什么？它和传统的AI测试有什么不同？

A：HeroBench是由AIRI研究团队开发的AI测试平台，专门评估AI在复杂虚拟RPG世界中的长期规划能力。与传统测试不同，它不是简单的数学题或编程任务，而是让AI像玩游戏一样制定复杂策略：分析敌人属性、计算最优装备、制定资源收集计划。这种测试更贴近现实世界的复杂规划场景，能揭示AI在实际应用中的真实能力。

Q2：为什么AI在数学编程上表现很好，在这个虚拟世界规划中却表现不佳？

A：因为数学编程通常是单步骤或少步骤的推理，而虚拟世界规划需要AI同时处理多种能力：战略分析、数值计算、资源管理、时间规划等。这就像会做单道菜和会办整桌宴席的区别。AI需要在保持逻辑连贯的同时协调多个相互依赖的子任务，这种综合性挑战比单一技能测试难得多。

Q3：研究中表现最好的Grok-4达到91.7%成功率，这意味着AI规划能力已经很强了吗？

A：91.7%确实很impressive，但要注意这是在相对受控的虚拟环境中。现实世界的规划挑战更加复杂多变，涉及不确定性、动态变化、不完整信息等因素。而且当加入技能升级和干扰物品等复杂机制后，即使是Grok-4的表现也会显著下降。所以虽然进步明显，但距离真正可靠的现实世界规划助手还有距离。

长期规划测试虚拟环境评估AI规划能力基准

分享至