视觉语言模型(Vision-Language Models,简称VLMs)近年来在各种多模态任务中表现出色,但它们在将这种能力转化为交互式视觉环境(如游戏)中的有效决策时却遇到了明显的障碍。这就是所谓的"知道-行动"差距,它严重限制了VLMs作为自主智能体的潜力。今天,我想和大家分享一篇来自Moonshot AI和北京大学的研究团队于2025年5月发表的前沿研究,该研究通过强化学习成功提升了视觉语言模型的感知和推理能力。
这项研究由Moonshot AI的研究团队与北京大学和中国科学院大学的学者共同完成,主要贡献者包括Liang Chen、Hongcheng Gao、Tianyu Liu和Zhiqi Huang等人。论文发表于2025年5月19日,标题为《G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning》。
想象一下,你有一位非常聪明的朋友,他博览群书,能够从图片中识别出丰富的信息并给出精彩的描述,但当你邀请他玩一局简单的2048或连连看游戏时,他却表现得像个初学者。这就是当前最先进视觉语言模型面临的困境:它们掌握了大量知识,但在需要根据所见做出决策的交互环境中却显得手足无措。
为了解决这个问题,研究团队首先构建了一个名为VLM-Gym的环境,这是一个专为视觉语言模型设计的强化学习训练场。就像健身房有各种器材帮助人们锻炼不同肌肉群一样,VLM-Gym提供了多种视觉游戏(如2048、连连看、图像连连看和消消乐),帮助模型锻炼其感知和推理能力。这些游戏具有统一的界面和可调节的难度,专为大规模并行训练而设计。
利用这个训练环境,研究人员开发了两代模型:G0和G1。G0模型是通过纯粹的强化学习从头训练的,在没有任何外部监督的情况下,模型通过不断尝试游戏并从奖励中学习,逐渐提高其能力。令人惊讶的是,研究人员发现G0模型在训练过程中自然而然地形成了有效的感知和推理模式,比如在连连看游戏中学会精确定位每个图形的坐标。
然而,G0模型在面对游戏多样性时仍然面临一些挑战。为了进一步提升性能,研究团队开发了G1模型。G1在强化学习之前,先通过一个"感知增强型冷启动"过程进行训练,简单来说就是先教会模型如何准确"看"游戏画面,再教它如何"玩"游戏。这就像我们先教孩子认识棋子,然后再教他下棋的规则一样。
实验结果令人振奋:G1模型在所有游戏中都超越了其教师模型,甚至超过了Claude-3.7-Sonnet-Thinking等领先的专有模型。最有趣的发现是,在强化学习过程中,模型的感知和推理能力相互促进、共同成长。就像学习骑自行车时,平衡感和踩踏技巧会相互促进一样,模型的"看"和"想"能力在游戏实践中相互提升。
研究团队还做了一个特别的实验:在G1的训练过程中加入了对感知准确性的奖励。虽然这确实加速了模型对游戏状态的认知能力,但对整体游戏表现并没有显著提升。这表明模型即使没有专门的感知训练,也能通过游戏的最终奖励信号自然发展出所需的感知能力。
这项研究不仅推进了视觉语言模型作为互动智能体的能力,也为我们理解人工智能系统如何在复杂环境中学习提供了宝贵见解。最令人惊讶的是,模型能够通过简单的奖励信号自主发展出复杂的认知模式,这与人类学习过程有着惊人的相似之处。
研究团队已经开源了VLM-Gym环境和训练代码,为未来研究提供了宝贵资源。这一研究方向有望开发出能在视觉丰富环境中更有效决策的人工智能系统,从游戏到现实世界的应用都将受益。
接下来,让我们深入了解这项研究的具体内容,看看G0和G1模型是如何通过玩游戏学会"看"和"思考"的。
一、研究背景与挑战
想象一下,你有一个智能助手可以完美地描述照片内容,回答关于图像的问题,甚至解决数学问题,但当你让它玩一局简单的2048或连连看游戏时,它却表现得像个初学者。这就是当前视觉语言模型(VLMs)面临的尴尬处境。
研究者们发现,即使是最先进的VLMs如OpenAI的o1或Qwen2.5VL-72B,在简单的游戏中也常常表现不佳,有时甚至比随机选择还差。这个现象引发了研究团队的兴趣:为什么如此强大的模型在游戏环境中表现如此糟糕?是什么阻碍了它们将"知道"转化为"行动"?
问题的核心在于,解决视觉游戏不仅需要准确的视觉感知和对当前状态与游戏规则的推理,还需要将这种理解转化为有效的行动。虽然有研究者尝试通过手动整理多模态思维链数据来训练游戏智能体,但这种方法面临可扩展性限制。
强化学习(RL)作为一种训练游戏AI的成熟技术(如CNN基础的Atari玩家),成为了研究团队的选择。特别是近期受到关注的可验证奖励强化学习(RLVR)被认为是提升语言模型推理能力的关键,例如DeepSeek-R1的成功案例。游戏天然提供了可验证的奖励(如分数),但目前仍缺乏一个有效且可扩展的框架,用于在交互式游戏中对VLMs进行RLVR训练,对感知和推理能力的潜在益处也尚不明确。
二、VLM-Gym:为视觉语言模型打造的互动健身房
要让模型通过玩游戏学习,首先需要一个合适的"健身房"。研究团队开发的VLM-Gym就像一个专为视觉语言模型设计的游戏中心,提供了多种视觉游戏,每种游戏都能锻炼模型的不同能力。
VLM-Gym具有三个核心特性,这些特性在当前的RL环境中往往缺失:
首先是可扩展性。就像现代健身房允许多人同时使用不同器材一样,VLM-Gym支持同时运行大量游戏实例,甚至可以并行运行多种不同游戏。这一特性使得大批量训练和多任务强化学习研究成为可能。
其次是并行动作支持。许多最新的RL算法(如GRPO、RLOO、Reinforce++)需要从同一状态采样多个输出来估计优势。传统的Gym风格环境通常只能基于单一动作前进状态,缺乏高效评估多个假设动作的内置机制。VLM-Gym克服了这一限制,允许对任何给定观察并行采样多个动作,并计算与每个动作相关的奖励。
第三是可组合难度。VLM-Gym中的环境具有可调节的难度,可以从多个维度(如感知复杂性、推理深度)进行调整,这些维度通常可以组合,实现对任务难度的精细控制,为未来研究VLMs在RL设置中的泛化能力提供了基础。
研究团队在VLM-Gym中实现了四种游戏:
1. 2048:这是一个单人滑动拼图游戏,玩家在4×4网格上合并相同数字的方块,目标是达到2048。玩家可以向四个方向滑动,小心规划合并以避免填满棋盘。
2. 连连看(Shisen-Sho):这是一个使用形状方块的配对游戏。玩家需要匹配相同的方块,连接路径不超过三条直线。
3. 图像连连看(Shisen-Sho-Cifar10):这是连连看的进阶版本,使用CIFAR10图像作为方块,创造了更具挑战性的感知体验。
4. 消消乐(Swap):这是一个典型的三消类游戏,玩家交换相邻方块,创建三个或更多相同方块的横向或纵向匹配。匹配成功后,方块消失,上方的方块下落,新方块从顶部出现。
对于每个游戏,模型接收游戏截图和提示作为输入,需要输出三部分内容:在``标签中描述棋盘状态,在``标签中输出思考过程,最后在``标签中给出最终动作。这种统一的输入输出格式使得模型可以在不同游戏间迁移学习。
三、强化学习训练:从G0到G1的进化之路
有了游戏环境,接下来就是让模型通过玩游戏来学习。研究团队设计了一套完整的强化学习训练方法,从最基础的G0模型开始,到更先进的G1模型,展示了如何通过游戏经验提升模型的感知和推理能力。
在强化学习过程中,研究团队定义了三种不同的奖励来评估模型的输出:
1. 游戏奖励(GR):与在游戏环境中采取的动作相关的主要奖励,反映模型在完成游戏特定目标(如解决谜题、导航障碍或获得高分)方面的成功或进展。
2. 格式奖励(FR):一个辅助的0-1奖励,评估模型的输出是否符合要求的格式:`.........`,确保模型产生结构化和可解释的输出。
3. 感知奖励(PR):另一个辅助的0-1奖励,通过将模型的输出与环境提供的真实情况进行比较,评估模型感知的准确性。只有当模型遵循预定义的输出感知结构并产生完全正确的结果时,奖励才为1;否则,奖励为0。
最终奖励通过加权和计算:最终奖励 = GR + α·FR + β·PR,其中α(默认1)和β(默认0)是控制格式奖励和感知奖励相对重要性的超参数。
研究团队采用了群组相对策略优化(GRPO)作为主要的强化学习算法,遵循DeepSeek-R1的方法。GRPO通过最大化一个目标函数来优化策略模型,该函数考虑了动作的相对优势和策略与参考模型之间的KL散度。
在训练过程中,研究团队还面临游戏状态探索的挑战。与回答不同数学问题等独立任务不同,游戏状态按照马尔可夫过程演变,未来状态依赖于过去状态。仅使用基础VLM作为策略会限制不同游戏状态的探索。为了促进更广泛的探索并确保训练策略模型遇到多样化的游戏状态,研究团队采用了一个随机策略作为基线,为每个游戏执行预定数量的随机步骤。
四、G0:从零开始,无监督学习游戏大师之路
G0模型代表了研究团队的第一次尝试,通过纯粹的强化学习来提升模型的游戏能力。这就像让一个完全不懂棋规的人通过不断尝试并从胜负中学习,最终成为棋手的过程。
研究人员使用Qwen2.5-VL-7B作为基础模型,让它在VLM-Gym环境中自我进化。实验结果显示,G0模型在不同游戏中表现出显著差异:
在连连看(Shisen-Sho)游戏中,模型的表现令人印象深刻。经过400步训练,游戏奖励从-1显著提升到0.8,评估性能达到12.8分,远超基础模型(1.9分)甚至72B版本(2.6分)。更令人惊讶的是,研究者发现基础VLM在RL过程中学习了最佳感知模式和推理范式,就像一个"顿悟时刻"。
在图像连连看(Shisen-Sho-Cifar10)中,G0模型在RL过程中也能持续改进,但速度比基础版连连看慢。虽然游戏规则相同,但明显更高的感知难度——研究团队称之为"感知先验差距"——减慢了学习过程,但不影响推理挑战。这表明基础模型的感知能力可能是VLM RL的瓶颈。在评估中,G0(8.0分)仍然显著优于其基线(0.4分)。
然而,在2048游戏中,G0几乎没有从RL过程中获益。分析RL过程,研究团队发现问题在于"不准确的奖励归因"。由于只有四种移动(上、下、左、右),即使随机策略也是强有力的基线。正如表1所示,在2048中,随机基线优于Qwen2.5VL-72B、GPT4o和o1模型。策略模型可能产生完全不正确的感知和推理响应,但仍获得正奖励,这扭曲了学习过程。为验证这一假设,研究团队查看了G0 2048在RL前后的过程,发现RL后模型崩溃,完全忽略了截图图像,并采取随机行动。这表明RL前,模型产生不正确的感知和推理输出,但仍获得正游戏奖励,这鼓励策略模型采用这些有缺陷的行为。
在消消乐(Swap)游戏中,G0模型也几乎没有从RL过程中获益,但原因不同。这是由于"稀疏奖励"问题,策略模型很难从环境中获得正奖励,因为游戏对基础模型来说太难了。
总结来看,视觉游戏强化学习因游戏多样性而面临独特的感知和推理挑战。研究团队对G0模型在RL训练中的表现进行了深入分析,揭示了一个关键发现:感知和推理能力在强化学习过程中相互促进。
具体来说,在连连看等成功案例中,研究者分析了G0模型在RL过程中的输出。他们发现,在RL之前,感知输出主要是对棋盘的模糊描述,没有形状的精确坐标信息。然而,经过400步RL,策略开发出两种独特模式:感知中的定位模式,系统地识别带有精确坐标的形状(例如"(0, 0):黄色方块"),以及推理中的枚举模式,逐行分析游戏状态。
由于定位模式有明确的文本结构,研究者使用正则表达式解析并计算每个模型输出中定位模式的平均数量,绘制了不同游戏在每个RL步骤中的趋势。分析揭示了两个关键发现:1)定位模式的显著增加仅出现在连连看和图像连连看变体中(值得注意的是,2048因在所有步骤中完全没有此类模式而被排除在绘图之外),2)定位模式的增加始终先于游戏奖励的改善,表明这种适应是增强性能的前兆。
实验结果表明,感知和推理能力在游戏中实际互相促进。推理模式离不开定位模式,因为它们依赖足够的感知信息。同样,最佳感知模式只有通过正确的推理模式才能获得奖励激励。一个大的动作空间,能防止不正确的感知和推理过程获得奖励,在RL过程中也至关重要。RL还帮助填补了基础模型和微调模型的"知道-行动"差距,使其能有效利用先验知识。
五、G1:带感知增强冷启动的强化学习
前面的G0实验表明,强化学习可以带来显著的游戏性能提升,但由于感知或推理先验知识的缺乏,并非所有游戏都能受益。这自然引出一个问题:我们能否通过引入一些冷启动数据来增强所有游戏的RL过程?
利用可编程环境的优势,研究团队可以轻松获取不同游戏状态的真实感知信息。他们使用这些感知增强提示查询教师模型Claude-3.7-Sonnet-Thinking,并将结果用于微调基础模型,然后再进行强化学习训练,形成G1系列模型。
在冷启动SFT(监督微调)之后,研究团队使用与G0模型相同的配置运行RL实验。评估结果显示,G1模型在所有游戏中都超越了所有基线模型,包括教师模型Claude-3.7-Sonnet-Thinking。
为了量化感知和推理能力的提升,研究团队引入了两个额外指标:感知准确率和推理准确率。
感知准确率(Pacc)定义为I(pmodel = pgt),衡量``标签内的输出是否与真实感知信息pgt匹配。由于基础模型经过微调,按照与真实情况相同的格式输出感知信息,因此可以进行准确比较。
推理准确率(Racc)表示为I(r > 0 | Pacc = 1),衡量当感知准确率为1时,策略是否获得正游戏奖励r,代表模型在给定准确感知的情况下正确推理的能力。
G1系列模型在所有游戏中展示了比G0更高效的RL过程,这是对G0模型在2048和消消乐中未能收敛的显著改进。在感知方面,2048、连连看和消消乐游戏的准确率始终保持在高水平,这归功于感知增强冷启动和这些环境的低感知复杂性(简单的颜色和形状)。相比之下,图像连连看呈现了一个更具挑战性的感知任务。对于这个游戏,研究者观察到感知准确率随游戏奖励在RL过程中同步提高,突显了感知和推理能力在学习过程中的共同进化。
在所有游戏中,G1的RL训练显著提高了游戏奖励,相较于冷启动SFT后的基础模型。这个SFT过程至关重要,它提升了7B基础模型超越教师模型的能力,并解决了G0实验中观察到的"不准确奖励归因"和"稀疏奖励"问题,提供先验知识使RL训练更高效。消消乐游戏的训练曲线清晰展示了RL过程的重要性;SFT后的策略仅产生约-0.8的平均游戏奖励,而随后的RL阶段则将其显著提升至约+0.6。
此外,研究团队还利用来自连连看游戏环境的真实感知,将感知准确率作为G1 RL过程的辅助奖励进行了比较实验。为确保基础模型在不过度提升其更广泛的感知或推理能力的情况下,按真实格式输出感知数据,他们只对其视觉编码器应用了SFT,使用仅包含真实感知的50个蒸馏示例,不包含推理或动作内容,以限制SFT的影响范围。结果表明,虽然感知奖励显著加速了感知准确率的提升,但对整体游戏奖励没有影响。这可能是因为模型最初将其能力优先用于过程奖励(感知)。在连连看游戏中,准确识别所有方块对获得完整感知奖励是必要的,但完整识别并非总是执行正确动作和获得游戏奖励所必需的。
值得注意的是,没有显式感知奖励训练的策略在学习过程中仍然展示出感知能力的提升,这一趋势在图像连连看实验中也观察到。这进一步表明,视觉语言模型的感知和推理能力可以仅使用最终、准确和可验证的奖励在强化学习过程中共同进化,暗示了一种更通用的训练方法。
六、启示与未来方向
观察G0和G1模型的学习曲线,很明显两种架构之间的性能差距随游戏而波动。监督对于强化学习本身困难的游戏(如2048和消消乐)产生了最显著的影响。这种积极影响可归因于几个因素:提供额外的感知线索,在训练阶段稳定感知准确率(与G0-2048相比),以及纳入更多与游戏机制相关的先验知识,这些共同促成了更高效的训练轨迹。
这种改进的效率和稳定性也表明,如果基础模型具有足够的内在强度,专门的冷启动过程可能变得不那么关键,甚至可能是多余的。这一概念在连连看系列实验中得到了体现,G0和G1最终在RL训练中达到了相同的游戏奖励。
不过,当前研究也存在一些局限性。VLM-Gym目前包含一组特定的视觉游戏(2048、连连看、图像连连看、消消乐),虽然提供了各种感知和推理挑战,但主要特点是相对直接的规则集。未来工作的一个重要方向是扩展这个套件,包括具有更复杂机制、更深层次战略要求和多样化类型的游戏,这将更严格地测试VLM智能体的泛化能力。
此外,虽然现有实验揭示了VLMs的感知和推理能力在RL过程中如何共同进化,但当前训练仍然面临挑战,如稀疏奖励,特别是在消消乐等游戏中。未来研究可以专注于开发有效的RL策略或奖励塑造机制,以有效训练VLM智能体,更好地应对长期交互反馈不频繁的复杂场景,从而更好地解决长期决策和稀疏奖励任务的复杂性。
七、结论
这项研究通过VLM-Gym和两代模型(G0和G1)成功解决了视觉语言模型在游戏环境中的"知道-行动"差距。G0模型通过纯粹的强化学习自我进化,展示了感知和推理能力的自然涌现;G1模型则在此基础上加入了感知增强冷启动,实现了在所有游戏中超越教师模型的优异表现。
最引人深思的发现是感知和推理能力在强化学习过程中的相互促进,这揭示了一个重要的学习动态:模型能够通过实践和反馈同时提升"看"和"想"的能力,就像人类学习过程中的技能共同发展一样。
研究团队已开源VLM-Gym和训练代码,为未来探索视觉语言模型作为交互式智能体的研究提供了宝贵资源。这一方向有望推动发展能在视觉丰富环境中做出更有效决策的人工智能系统,不仅适用于游戏,也适用于现实世界的应用。
总的来说,这项研究不仅推进了视觉语言模型的技术边界,也为我们理解人工智能系统如何通过交互和反馈发展认知能力提供了新的视角,向构建更全面、更适应性强的智能体迈出了重要一步。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。