微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 腾讯团队让AI学会在游戏中边玩边学:从"知道"到"会做"的智能飞跃

腾讯团队让AI学会在游戏中边玩边学:从"知道"到"会做"的智能飞跃

2025-10-10 09:56
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-10 09:56 科技行者

当我们谈论人工智能时,经常会遇到一个有趣的现象:那些能够解决复杂数学题、编写代码甚至创作诗歌的大语言模型,却在一些连小孩子都能轻松完成的游戏任务上表现得笨拙不堪。这就像一个博学的教授,虽然能够滔滔不绝地讲述游泳的理论知识,却在真正下水时手忙脚乱。这种现象揭示了人工智能领域一个根本性的挑战:如何让AI从"知道某件事"转变为"知道如何去做某件事"。

腾讯的研究团队最近在这个问题上取得了突破性进展。他们发表在2025年8月的arXiv预印本服务器上的研究论文"Think in Games: Learning to Reason in Games via Reinforcement Learning with Large Language Models"(论文编号:arXiv:2508.21365v1),提出了一个名为"Think-In-Games"(简称TiG)的创新框架。这项研究的核心团队包括廖熠、顾宇、隋远、朱子宁、陆一凡、唐国华、孙中乾和杨威等研究者,他们来自腾讯公司。有兴趣深入了解技术细节的读者可以通过论文编号arXiv:2508.21365v1在学术数据库中查询完整研究内容。

这项研究解决的核心问题可以用一个简单的比喻来理解。设想你正在学习开车,仅仅阅读驾驶手册并了解所有交通规则(这相当于声明性知识),与实际坐在驾驶座上熟练操控方向盘、刹车和油门(这相当于程序性知识)是完全不同的两回事。目前的大语言模型就像那个熟读驾驶手册的人,它们拥有大量的理论知识,但缺乏在真实环境中应用这些知识的能力。而传统的强化学习方法则像一个从未读过驾驶手册就直接上路的司机,虽然最终可能学会开车,但无法解释自己为什么这样做。

研究团队选择游戏环境作为研究平台并非偶然。游戏为AI提供了一个安全的实验场所,就像驾校的练习场一样,AI可以在其中自由探索、犯错和学习,而不会造成现实世界的后果。更重要的是,游戏环境包含了丰富的策略思考、实时决策和长期规划等要素,这些正是现实世界任务所需要的核心能力。

TiG框架的革命性在于它成功地搭建了一座桥梁,连接了传统强化学习的"会做但不会说"和大语言模型的"会说但不会做"之间的鸿沟。这个框架让AI既能在游戏中做出正确的决策,又能用自然语言清楚地解释自己的思考过程,就像一个既会开车又能当驾校教练的司机。

为了验证这个方法的有效性,研究团队选择了《王者荣耀》这款多人在线战术竞技游戏作为测试平台。《王者荣耀》是一个理想的测试环境,因为它需要玩家进行复杂的团队协作、长期战略规划和动态目标调整,这些特征与现实世界的许多复杂任务相似。

一、突破传统局限:重新定义AI学习方式

要理解TiG框架的创新之处,我们首先需要明白传统方法面临的困境。这就像试图教一个人同时成为理论物理学家和职业运动员一样困难。

传统的强化学习就像训练一个专业运动员,它们通过在环境中不断试错来学习最优策略。这些AI代理能够在复杂的游戏环境中取得优异表现,比如在围棋、扑克或电子游戏中击败人类高手。然而,它们的学习过程就像一个黑盒子,我们只能看到输入和输出,却无法理解其内部的决策逻辑。当你问一个传统强化学习代理为什么选择某个动作时,它无法给出解释,就像问一个出色的体操运动员如何在空中完成复杂动作时,他们往往只能说"感觉就是这样"。

另一方面,大语言模型就像博学的理论家,它们通过训练获得了海量的文本知识,能够对各种问题给出详细的分析和解释。当你询问游戏策略时,它们能够引用攻略、分析局势、推理最优选择。但问题在于,这些知识都是静态的,来源于网上的文本资料而非实际的游戏体验。这就像一个从未踏上球场的人试图指导足球比赛一样,理论知识再丰富,也无法替代实战经验。

研究团队发现,即使是最先进的大语言模型也存在这种局限。在他们的初步研究中,当面对游戏中的具体情况时,大语言模型经常会给出模糊或不准确的建议。比如,一个游戏攻略可能会说"避免推进得太远",但"太远"的具体定义需要通过实际游戏经验才能理解。这种经验性知识无法通过简单的文本描述完全传达,必须通过与环境的直接交互来获得。

TiG框架的核心创新在于它重新定义了强化学习的任务。传统的强化学习将决策制定看作是从状态到动作的直接映射,而TiG将其转换为一个语言建模任务。这意味着AI不再直接输出动作,而是生成自然语言描述的策略,这些策略随后通过与环境的交互得到验证和改进。

这种转换带来了几个重要优势。首先,AI的决策过程变得透明可解释,就像一个经验丰富的教练不仅能做出正确的战术调整,还能清楚地解释为什么这样做。其次,语言表达的策略更容易被人类理解和验证,这对于需要人机协作的场景特别重要。最后,通过语言中介,AI可以更好地利用其预训练阶段获得的丰富知识,而不是从零开始学习。

这种方法的另一个重要特点是它保持了强化学习的核心优势:通过与环境的直接交互学习。AI仍然需要在实际游戏中做出决策,接受环境的反馈,并根据这些反馈调整其策略。不同之处在于,这个过程现在是通过自然语言进行的,使得整个学习过程既高效又可解释。

二、技术架构:将游戏变为AI的实验室

要让AI在游戏中学会推理,研究团队需要设计一套完整的技术架构,就像为一个新入学的学生设计一套完整的教学体系一样。这个架构需要解决三个核心问题:如何让AI理解游戏状态,如何定义AI可以采取的行动,以及如何评价AI的表现。

在游戏状态表示方面,研究团队选择了《王者荣耀》这款多人在线战术竞技游戏作为实验平台。这类游戏的特点是需要玩家进行高层次的战略思考,包括团队协调、长期规划和动态目标调整。为了让AI能够理解复杂的游戏局面,研究团队将每个游戏时刻的状态信息组织成结构化的JSON格式。这就像给AI提供了一份详细的"战场报告",其中包含了所有可见的关键信息:队友的状态、敌方单位的位置、防御塔的血量、地图视野情况等等。

这种表示方法的巧妙之处在于它充分利用了大语言模型处理结构化数据的天然优势。现代大语言模型在预训练过程中接触了大量的JSON格式数据,因此能够很好地理解和处理这种格式的输入。同时,JSON格式的结构化特性也确保了信息的完整性和一致性,避免了自然语言描述可能带来的歧义。

在行动空间设计方面,研究团队采用了一种宏观层面的抽象方法。他们没有让AI直接控制角色的每一个微观动作(比如精确的移动或技能释放),而是定义了40个高层次的战略行动,比如"推进上路"、"争夺大龙"、"防守基地"等。这种抽象就像将复杂的军事战术简化为一系列标准化的战略指令,既保持了决策的战略意义,又降低了学习的复杂度。

这种宏观抽象的好处是显而易见的。首先,它让AI能够专注于战略层面的思考,而不会被低级的操作细节所困扰。其次,这种抽象更符合人类玩家的思维模式,一个经验丰富的玩家通常也是先制定大的战略方向,然后再考虑具体的执行细节。最后,有限的行动空间使得后续的奖励设计和评估变得更加简单和可靠。

在策略模型设计方面,研究团队采用了一种开放的架构理念。他们没有限定特定的模型结构,而是要求模型具备强大的指令遵循能力和结构化数据理解能力。这种设计哲学体现了现代AI研究的一个重要趋势:通过大规模预训练获得通用能力,然后通过特定任务的微调来适应具体应用。

整个系统的工作流程可以这样理解:AI接收当前的游戏状态(以JSON格式提供),然后生成一段自然语言描述的分析和决策建议,最后从预定义的40个行动中选择最合适的一个或几个。这个过程不仅包含了最终的决策,还包含了完整的推理链条,解释了AI是如何从当前局面分析得出这个决策的。

这种设计的创新之处在于它将传统强化学习中隐含的决策过程显式化了。在传统方法中,从状态到行动的映射是通过神经网络的权重参数隐含表示的,人类无法直接理解。而在TiG框架中,这个映射过程通过自然语言展现出来,使得整个决策过程变得透明和可解释。

三、数据收集:从真实对局中学习智慧

要让AI学会在游戏中做出明智决策,首先需要大量高质量的训练数据,这就像培养一个优秀的围棋选手需要观摩无数高手对局一样。研究团队设计了一套精密的数据收集和处理流程,确保AI能从真实玩家的游戏经验中学到最有价值的知识。

数据来源的选择体现了研究团队的严谨态度。他们使用了《王者荣耀》游戏的匿名对局记录,严格保护玩家隐私,不收集任何用户身份信息或个人可识别数据。为了确保数据质量,他们设定了明确的筛选标准:只选择技能水平达到一定门槛的玩家对局,并且保持胜负场次的平衡,避免数据偏向某种特定的游戏结果。

然而,直接从游戏录像中提取训练数据面临着一个重要挑战:真实游戏中的行动标注往往是稀疏和不一致的。这就像试图从一场足球比赛的录像中提取每一个关键时刻的战术决策一样困难。球员们不会在每一秒都做出明显的战术动作,有时候一个重要的战术决策可能需要几分钟才能完全展现出来。

为了解决这个问题,研究团队开发了一套智能的重新标注算法。这个算法的核心思想是基于行动的重要性层级来处理标注稀疏的问题。他们首先建立了一个行动优先级体系,将游戏中的各种行动按照其对游戏结果的影响程度进行排序。比如,团队战斗和争夺关键资源(如大龙、暴君)被列为最高优先级,因为这些行动往往决定了游戏的走向。防守基地和推进防御塔被列为中等优先级,而日常的野怪清理和兵线处理则相对优先级较低。

重新标注算法的工作过程可以分为两个步骤。首先是向后填充:当算法检测到一个重要行动时,会将这个行动标签向前传播到之前的几个时间帧,确保相关的游戏状态都被正确标注。这就像在足球比赛中,当我们看到一个精彩进球时,会回溯分析这个进球的准备阶段,包括传球、跑位等前置动作。

第二步是优先级覆盖:当多个行动的时间窗口重叠时,算法会根据预设的优先级体系,用高优先级行动的标签覆盖低优先级的标签。这确保了在任何给定时刻,标注都反映了最关键的战术决策。这种处理方式避免了标注冲突,同时保证了训练数据的一致性和可靠性。

为了保证训练数据的多样性,研究团队采用了随机采样策略,每分钟游戏时间只选择一帧进行标注。这种做法既确保了数据的代表性,又避免了相似场景的过度重复,有助于模型学习到更加泛化的决策模式。

数据处理的另一个重要考虑是时间尺度的匹配。游戏中的战略决策往往需要在不同的时间尺度上发挥作用:有些决策的效果会立即显现,而有些决策的价值可能要等几分钟甚至整场游戏结束后才能评估。研究团队通过合理的时间窗口设计,确保了不同类型决策都能得到恰当的学习机会。

这套数据收集和处理流程的设计理念是让AI从人类专家的实际决策中学习,而不是从理论知识中学习。这种方法的优势在于,它能够捕捉到那些难以用文字描述的隐性知识,比如在特定情况下的直觉判断、对风险和收益的权衡、以及对时机的把握等。通过学习大量真实对局中的决策模式,AI能够逐渐内化这些复杂的决策智慧。

四、强化学习新范式:让AI在游戏中成长

将大语言模型的理论知识转化为实用的游戏技能,需要一套精心设计的强化学习框架。这个过程就像教一个熟读兵法的书生成为真正的将军一样,需要通过实战来磨练理论,在反复的试错中积累真正的智慧。

研究团队选择了群体相对策略优化(GRPO)作为核心算法,这个选择并非偶然。传统的强化学习算法(如PPO)在处理复杂的语言生成任务时往往面临高方差奖励和信用分配困难的问题。这就像传统的教学方法在面对创作类课程时显得力不从心一样,因为创作的好坏往往需要综合考虑多个维度,很难给出简单明确的评分标准。

GRPO的创新之处在于它采用了群体内相对比较的方式来评估模型表现。具体来说,算法会让模型针对同一个游戏状态生成多个不同的决策方案,然后通过比较这些方案的效果来确定哪些决策更优。这种方法的优势在于它避免了绝对评分的困难,转而利用相对比较来引导学习。

算法的核心机制可以用一个简单的比喻来理解。假设我们要评价几个学生的作文质量,如果要给每篇作文一个绝对分数会很困难,因为评分标准往往是主观的。但是如果让我们比较哪篇作文更好,这个任务就相对容易了。GRPO正是利用了这种相对比较的思想,通过计算群体内的相对优势来指导模型的学习方向。

在具体实现中,算法首先计算每个决策方案的奖励值,然后计算群体内的平均奖励和标准差,最后将每个方案的奖励转换为相对于群体的标准化优势。这种标准化处理确保了学习信号的稳定性,避免了因为奖励尺度变化导致的训练不稳定问题。

为了防止模型在优化过程中偏离原始的语言能力,算法还引入了KL散度约束机制。这个机制就像给模型套上了一个"安全绳",确保它在学习新技能的过程中不会忘记原有的语言理解和生成能力。KL散度衡量的是当前策略与参考策略之间的差异,当这个差异过大时,算法会自动调整学习步长,避免过度偏离。

奖励函数的设计体现了研究团队的务实态度。他们没有设计复杂的多维度奖励系统,而是采用了简单直接的二元奖励:当模型预测的行动与真实玩家的选择一致时给予奖励1,否则给予奖励0。这种设计虽然看似简单,但实际上非常有效,因为它直接反映了模型决策的准确性。

这种简单奖励设计的好处是多方面的。首先,它避免了复杂奖励函数可能带来的偏差和不稳定性。复杂的奖励系统往往需要人工设定各种权重和参数,容易引入设计者的主观偏见。其次,二元奖励使得学习目标清晰明确,模型不会因为复杂的奖励信号而产生混淆。最后,这种设计使得算法的调试和优化变得更加简单,因为问题的根源更容易定位。

训练过程的设计充分考虑了大语言模型的特点。与传统强化学习不同,大语言模型已经具备了强大的语言理解和生成能力,因此训练的重点不是从零开始学习,而是在保持原有能力的基础上,学会将这些能力应用到具体的游戏决策中。这就像教一个有丰富理论知识的医学生进行临床诊断一样,重点不是教授医学理论,而是教会他们如何将理论知识应用到实际病例中。

为了达到这个目标,研究团队采用了多阶段训练策略。第一阶段是监督微调,使用专家标注的数据让模型学习基本的决策模式。第二阶段是强化学习,通过与环境的交互让模型学会自主决策和策略优化。这种渐进式的训练方法确保了学习过程的稳定性和效果。

五、实验验证:小模型的大能力

要验证TiG框架的有效性,研究团队设计了一系列全面的实验,就像医学研究中需要通过临床试验来验证新疗法的效果一样。这些实验不仅要证明方法的有效性,还要确保它不会牺牲模型原有的其他能力。

实验环境的搭建体现了现代AI研究的标准。研究团队使用了配备NVIDIA H20 GPU的四台服务器,为监督微调选择了Megatron-LM训练平台,为在线强化学习选择了OpenRLHF平台。这种专业化的实验环境确保了训练过程的稳定性和可重复性。

在基准模型的选择上,研究团队包含了多个不同规模的当前先进模型,包括Qwen-2.5系列的7B、14B和32B参数版本,以及Qwen-3-14B和Deepseek-R1等。这种多样化的对比确保了实验结果的可靠性和普适性。其中Deepseek-R1作为一个拥有671B参数的大型模型,为小型模型提供了一个具有挑战性的性能基准。

训练策略的设计充分体现了研究的系统性。团队比较了三种不同的训练组合:单独使用GRPO、单独使用监督微调,以及监督微调加GRPO的组合方法。这种对比实验设计能够清楚地揭示每种方法的贡献和局限性。

实验结果令人印象深刻。最引人注目的发现是,经过TiG训练的小型模型能够在很大程度上接近甚至超越大型模型的性能。例如,Qwen-2.5-32B经过GRPO训练后,准确率从66.67%提升到86.84%,这个20个百分点的提升证明了方法的有效性。更令人惊讶的是,Qwen-3-14B经过充分训练后达到了90.91%的准确率,超过了Deepseek-R1的86.67%,而后者的参数规模要大一个数量级以上。

这个结果的意义不仅仅在于性能数字的提升,更重要的是它证明了通过合适的训练方法,小型模型可以在特定领域达到甚至超越大型通用模型的表现。这就像一个专业的区域医生在其专长领域可能比全科专家表现更好一样,专门化训练能够让模型在特定任务上发挥出超常的能力。

训练过程的分析揭示了一些有趣的模式。研究团队观察到,模型的回答长度在训练过程中会发生变化:对于某些模型,回答长度先减少后增加最后趋于稳定,这种模式与模型性能的变化趋势相一致。特别是Qwen-3-14B模型,其回答长度持续增加,这可能反映了该模型通过生成更多内容来进行更深入思考的特性。

为了确保训练没有损害模型的通用能力,研究团队在多个标准基准测试上评估了训练后的模型。这些测试涵盖了数学推理、记忆能力、学科考试、对话能力、逻辑推理和指令遵循等多个维度。结果显示,TiG训练不仅保持了模型原有的通用能力,在某些任务上甚至有所提升,特别是在逻辑推理任务上表现出了一致的改进。

错误分析提供了深入的洞察。研究团队将模型的错误分为几个类别:基础游戏知识错误、游戏状态误解、关键事件忽视、情况误判和时空协调错误。通过对这些错误类型的分析,他们发现TiG训练后的模型在各个错误类型上都有显著改善,表明方法的改进是全面的而不是局部的。

为了进一步验证方法的泛化能力,研究团队还设计了一个问答任务,要求模型根据游戏状态回答开放性问题。虽然在这个任务上Deepseek-R1仍然显示出一定优势,但考虑到参数规模的巨大差异,小型模型的表现已经相当令人满意。

六、案例研究:AI的游戏智慧展现

为了更直观地展示TiG框架的能力,研究团队提供了详细的案例分析。这些案例就像医学教学中的经典病例一样,能够清楚地展示AI如何在复杂情况下进行推理和决策。

其中一个特别具有代表性的案例发生在游戏的中期阶段。在这个场景中,主玩家控制的英雄阿古朵正在中路与队友姜子牙一起推进,面对的是一座血量很低的敌方一塔。这种情况在《王者荣耀》中非常常见,但需要玩家综合考虑多个因素才能做出最优决策。

AI的思考过程展现了惊人的深度和系统性。首先,它进行了全面的局势分析,识别出游戏已经进入中期阶段,防御塔和野怪的保护机制已经失效。它正确地评估了双方的兵力对比,虽然在数值计算上略有偏差,但基本判断是准确的。更重要的是,它识别出了敌方中路塔血量低这个关键机会,同时也意识到了阿古朵血量不满和敌方英雄位置未知这些潜在风险。

在目标优先级的判断上,AI表现出了成熟的战略思维。它将摧毁敌方中路塔确定为当前最重要的目标,这个判断体现了对游戏节奏的准确把握。在《王者荣耀》中,中路塔的重要性不仅在于经济收益,更在于它控制着地图的核心区域,摧毁它能为后续的战略部署创造有利条件。

AI的策略制定过程体现了团队协作的重要性。它明确提出要与队友姜子牙协调行动,利用姜子牙的控制技能来提高推塔的安全性和效率。这种协作意识表明AI已经理解了《王者荣耀》作为团队游戏的本质特征。

风险评估是这个案例中最令人印象深刻的部分。AI明确指出了敌方英雄可能埋伏的风险,并建议保持警惕。这种风险意识在游戏中至关重要,因为过度激进的推进往往会导致被敌方反杀的不利局面。

最终的决策建议简洁而全面:"与姜子牙协同推掉敌方中路一塔,注意敌方英雄可能的埋伏"。这个建议既包含了具体的行动方案,又考虑了潜在的风险因素,体现了AI在复杂环境下的综合决策能力。

这个案例的价值不仅在于展示AI的决策结果,更重要的是展示了完整的推理过程。传统的强化学习代理虽然可能做出类似的决策,但无法解释其推理逻辑。而TiG框架训练的AI能够像经验丰富的游戏教练一样,不仅做出正确的决策,还能清楚地解释决策的依据和考量。

研究团队还展示了其他多个案例,每个案例都体现了AI在不同游戏场景下的适应能力。有些案例展示了AI在团队战斗中的决策,有些展示了在资源争夺中的选择,还有些展示了在劣势局面下的应对策略。这些案例共同构成了一个完整的决策能力图谱,证明了AI已经具备了在复杂游戏环境中进行高层次战略思考的能力。

值得注意的是,AI的表达风格非常符合人类玩家的交流习惯。它使用了游戏社区中常见的术语和表达方式,这使得它的建议更容易被人类玩家理解和接受。这种语言风格的匹配不是偶然的,而是大语言模型强大语言能力的体现。

七、技术创新与未来展望

TiG框架的技术创新不仅体现在具体方法上,更重要的是它代表了AI研究的一个新方向:如何让AI系统既具备实用的行动能力,又保持可解释性和透明度。这种结合就像培养一个既有实战经验又能言善辩的将军一样,在AI的发展历程中具有重要意义。

从方法论角度看,TiG最重要的贡献是成功地将强化学习与大语言模型的优势结合起来。这种结合不是简单的技术拼接,而是在概念层面的深度融合。通过将决策过程重新表述为语言生成任务,研究团队打开了一扇新的大门,让我们看到了AI能力整合的新可能性。

在算法层面,GRPO的应用展示了现代强化学习算法的灵活性。与传统的PPO算法相比,GRPO不需要单独训练奖励模型,这大大简化了训练流程并降低了计算成本。更重要的是,它的群体相对比较机制特别适合处理复杂的语言生成任务,这为其他类似应用提供了有价值的参考。

奖励函数的设计哲学也值得深入思考。研究团队选择简单的二元奖励而不是复杂的多维度评分系统,这个选择体现了"简单即是美"的设计原则。在AI系统的设计中,过度复杂的奖励函数往往会引入意想不到的偏差和不稳定性。TiG的成功证明,在合适的框架下,简单的奖励信号同样可以引导出复杂而有效的行为。

从更广阔的视角看,TiG框架的意义远超游戏领域。它证明了一个重要观点:AI系统不必在能力和可解释性之间做出妥协。传统观点认为,系统越强大就越难以解释,越简单就越容易理解但能力有限。TiG展示了第三种可能:通过合适的架构设计,我们可以构建既强大又可解释的AI系统。

这种可解释性的价值在需要人机协作的场景中尤为突出。当AI能够清楚地解释其决策逻辑时,人类用户更容易信任和接受AI的建议。这种信任关系对于AI技术的广泛应用具有重要意义,特别是在高风险决策场景中。

数据效率是TiG框架的另一个重要优势。与需要大量训练数据的传统强化学习方法相比,TiG能够利用大语言模型的预训练知识,在相对较少的游戏特定数据上达到优秀的性能。这种效率优势使得该方法更容易扩展到其他游戏或应用场景。

然而,研究团队也诚实地指出了当前方法的局限性。模型的性能仍然受到底层大语言模型质量的限制,这意味着随着基础模型的改进,TiG的性能也有望进一步提升。此外,当前的实验主要集中在游戏环境中,在其他交互式任务中的表现还需要进一步验证。

样本效率虽然相比传统方法有所改进,但仍然需要相当数量的环境交互。这在数据收集成本较高的场景中可能成为限制因素。解释的真实性也是一个需要持续关注的问题,虽然模型能够生成看似合理的解释,但这些解释是否真实反映了模型的内部决策过程还需要进一步研究。

展望未来,研究团队提出了几个有前景的发展方向。首先是扩展到更多类型的环境和任务,验证方法的通用性。其次是改进解释的可靠性,确保生成的解释真实反映模型的推理过程。第三是增强长期推理能力,处理需要跨越多个时间步的复杂决策任务。最后是融合多模态信息,如视觉和听觉线索,以支持更丰富的学习体验。

这些发展方向不仅有助于改进TiG框架本身,也为整个AI领域提供了有价值的研究议题。特别是可解释AI和人机协作这两个主题,在未来的AI发展中将变得越来越重要。

说到底,TiG框架代表了AI研究中一个重要的里程碑:它展示了如何将不同AI技术的优势有机结合,创造出既实用又可理解的智能系统。虽然当前的应用还主要集中在游戏领域,但其背后的核心思想——让AI既能行动又能解释——具有更广泛的应用价值。随着技术的进一步成熟和完善,我们有理由相信,这种"能解释的行动者"将在更多领域发挥重要作用,推动AI技术向更加可信和实用的方向发展。对于那些希望深入了解这项技术细节的读者,可以通过arXiv:2508.21365v1这个论文编号查找完整的研究报告。

Q&A

Q1:Think-In-Games框架是什么?它如何解决AI的学习问题?

A:Think-In-Games(TiG)是腾讯团队开发的AI训练框架,专门解决大语言模型"知道但不会做"的问题。它让AI在游戏环境中通过实际互动学习决策技能,同时保持用自然语言解释决策过程的能力。这就像让一个熟读兵法的书生通过实战成为真正的将军。

Q2:为什么选择《王者荣耀》游戏来训练AI?

A:《王者荣耀》是理想的AI训练环境,因为它需要复杂的团队协作、长期战略规划和实时决策,这些能力与现实世界的复杂任务相似。游戏提供了安全的试错空间,AI可以在其中自由探索和学习,而不会造成现实损失。

Q3:TiG训练的小模型真的能超越大模型吗?

A:实验结果确实显示,经过TiG训练的14B参数的Qwen-3模型达到90.91%准确率,超过了671B参数的Deepseek-R1的86.67%。这证明通过专门化训练,小型模型可以在特定领域达到甚至超越大型通用模型的表现,这对降低AI应用成本具有重要意义。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-