在人工智能快速发展的2025年,当我们正站在通用人工智能(AGI)发展的关键节点上,由清华大学深圳国际研究生院的孙浩源、吴佳琪、夏博等研究团队发表的一篇名为《强化微调赋能多模态大语言模型的推理能力》(Reinforcement Fine-Tuning Powers Reasoning Capability of Multimodal Large Language Models)的前沿研究,为我们揭示了人工智能如何更好地"思考"提供了重要洞见。这项研究已于2025年5月24日发布在预印本平台arXiv上,感兴趣的读者可以通过项目链接https://github.com/Sun-Haoyuan23/Awesome-RL-based-Reasoning-MLLMs获取更多信息。
让我们先来理解这个研究的背景。想象一下,你有一个聪明的朋友,他不仅能看懂文字,还能理解图片、视频和声音,甚至能通过这些信息进行复杂的推理。这就是多模态大语言模型(MLLMs)想要实现的目标。而研究团队发现,通过一种叫做"强化微调"(Reinforcement Fine-Tuning,简称RFT)的方法,可以显著提升这些AI模型的"思考"能力。就像教孩子学习一样,不仅告诉他们正确答案,还要引导他们学会如何思考得到这个答案。
一、强化学习:AI如何从试错中学习
首先,我们需要了解强化学习的基本概念。想象一个小孩子学骑自行车的过程:他可能会多次摔倒(尝试错误的动作),但每次成功保持平衡一小段时间(获得正向反馈),他就会逐渐学会哪些动作是有效的。这正是强化学习的核心理念——通过不断尝试和接收反馈来学习最佳行动策略。
在过去四十年里,从最基础的算法到如今的深度神经网络,从基于价值的方法到基于策略的方法,强化学习领域不断发展。到了2025年,近端策略优化(PPO)算法已成为社区中最有影响力的强化学习算法之一。
强化学习主要分为两大类方法:基于价值的方法和基于策略的方法。基于价值的方法(如Q-Learning)主要关注学习一个价值函数,然后从中导出策略。而基于策略的方法(如REINFORCE)则直接学习一个能最大化预期奖励的目标策略。
近端策略优化(PPO)算法属于基于策略的方法,它通过一种"信任区域"约束来确保策略更新时不会偏离太多,从而实现稳定的学习过程。想象你在教一个孩子新技能,你不会一次教太多内容让他完全改变学习方式,而是在他已掌握的基础上逐步改进——这正是PPO的工作原理。
二、多模态推理:从语言为中心到协作推理
接下来,让我们了解多模态推理的发展趋势。想象你去看一部外语电影,如果只看画面不听对白,或只听对白不看画面,你对剧情的理解都会受限。多模态大语言模型就像是能同时理解画面和对白,并将它们融合起来进行思考的观众。
多模态推理主要有两种范式:语言为中心的多模态推理和协作式多模态推理。
在语言为中心的范式中,模型将图像、音频等非语言内容视为获取信息的来源,而实际的推理过程主要由语言模块驱动。这就像你看到一张照片,用语言在脑中描述并分析这张照片的内容。根据多模态感知的触发机制,这种范式又分为一次性多模态感知和主动多模态感知。一次性多模态感知就像是你只看一眼照片,然后基于记忆进行思考;而主动多模态感知则像是你在思考过程中会不断回看照片的细节。
而在更先进的协作式多模态推理范式中,推理过程需要多模态动作推理和多模态状态更新,各种模态不再只是被动感知,而是与语言模态全程协作进行推理。这就像你不仅能看懂电影画面和对白,还能理解画面构图、色彩、演员表情等视觉元素传递的情感和隐含信息,让它们共同参与到你的思考过程中。
三、强化微调:赋能模型的"思考"能力
强化微调(RFT)是一种后训练算法,旨在提升大语言模型和多模态大语言模型的推理能力。研究表明,即使没有单独学习的奖励模型,简单的基于规则的奖励也能帮助模型自主发展复杂的推理能力。
强化微调算法可以分为两大类:基于评价模型的算法和无评价模型的算法。
基于评价模型的算法,如PPO,在训练过程中同时训练一个"评价模型"来估计每个动作的价值,就像有一位教练不断评估学习者的表现并给出反馈。在多模态大语言模型的背景下,PPO的目标函数被修改为适应多模态输入和多步骤输出的特点。
而无评价模型的算法,如群体相对策略优化(GRPO),则通过在一组输出中采样和标准化奖励来提高效率,并减少内存消耗。这就像在一个学习小组中,通过比较组内成员的表现来评价每个人,而不需要一个单独的评判标准。GRPO还应用了KL散度惩罚来限制优化后的模型与初始模型的过度偏离,确保学习过程的稳定性。
四、社区成果:RFT在多模态大语言模型中的广泛应用
自从DeepSeek-R1的出现,强化微调在增强多模态大语言模型推理能力方面取得了显著成功。研究团队将这些成功总结为五个关键点:
首先是多样化的模态应用。强化微调已经成功应用于增强视觉、音频、全模态、图形用户界面、元宇宙交互和代理等多种模态的大语言模型的推理能力。特别值得一提的是,除了在视觉模态取得实质性进展外,社区还在其他模态取得了重大突破。例如,Audio-Reasoner、R1-AQA和SARI利用强化微调增强了大型音频语言模型在音频问答任务中的推理能力;R1-Omni和EchoInk-R1成功将强化微调应用于全模态大语言模型;UI-R1、GUI-R1和InfiGUI-R1则将强化微调应用于图形用户界面代理的行动预测任务;MetaSpatial在元宇宙场景中应用强化微调增强3D空间推理;VAGEN通过多轮强化微调框架提升了基于视觉语言模型的视觉代理训练。
其次是多样化的任务和领域。仅在视觉模态内,强化微调就在各种任务和领域取得了显著成功。数学视觉推理和学术多学科推理是社区高度关注的任务,这些任务需要精确整合符号处理、视觉分析和逻辑推理。社区已经在这一领域开展了许多开创性工作,如InternVL2-MPO、Mulberry、Virgo等。同时,视觉驱动任务也吸引了社区的广泛关注,如VLM-R1将强化微调应用于视觉理解任务,CrowdVLM-R1将其应用于人群计数任务,VisualThinker-R1-Zero将其用于视觉中心的空间推理任务等。此外,还有大量工作专注于多任务和多领域联合训练,以同时提升模型在多个任务和领域的性能,如Insight-V、Visual-RFT、Reason-RFT等。在时序视觉(视频)领域,强化微调也成功增强了视频推理能力,如Open-R1-Video、TimeZero、Temporal-R1等。在特定领域学科中,强化微调也成功增强了领域特定多模态大语言模型的推理能力,如医疗视觉中的MedVLM-R1、Med-R1和ChestX-Reasoner,以及具身视觉中的Embodied-Reasoner和Embodied-R。
第三是更好的训练算法。除了探索GRPO在各种模态、任务和领域的应用外,社区还深入研究了更好的算法。这些探索主要集中在训练范式、算法策略和数据选择上。例如,Curr-ReFT提出了一种新的后训练范式,包括课程强化学习和基于拒绝采样的自我改进;MM-EUREKA引入了在线过滤范式,消除了在训练过程中产生被认为完全正确或完全错误的响应的提示;OpenVLThinker迭代使用SFT和GRPO,利用前几轮迭代的推理数据实现自我改进;VL-Rethinker引入了选择性样本重放(SSR)来缓解GRPO中的优势消失问题,并引入了强制重新思考来显式执行自反思推理步骤;NoisyRollout集成了来自干净图像和适度失真图像的轨迹,以促进视觉感知和由此产生的推理模式的有针对性的多样性;OThink-MR1引入了GRPO-D,通过融入受经典强化学习中ε-贪婪策略启发的动态KL散度策略来增强GRPO;R1-VL引入了StepGRPO,该算法同时融入了步骤推理准确性奖励和步骤推理有效性奖励,从而有效缓解了稀疏奖励挑战;FAST引入了FAST-GRPO,集成了三个关键组件:基于模型的问题特征化指标、自适应思考奖励机制和难度感知KL正则化;ThinkLite-VL引入了基于蒙特卡洛树搜索的数据过滤方法,根据模型解决每个问题所需的迭代次数量化样本难度。
第四是丰富的基准测试。丰富的基准测试在通往未来通用人工智能的道路上至关重要。在多模态大语言模型推理领域,特别是在视觉推理方面,社区内已经有一些公认的基准测试。在最近的调查中,这些基准测试已经被广泛总结,这里不再详细讨论。此外,分析发现,继DeepSeek-R1出现后,多模态推理基准测试呈现出以下六个令人兴奋的趋势:基准测试难度的增加(如在ZeroBench上,所有当代前沿多模态大语言模型都完全失败);评估类人推理能力的基准测试(如V1-33K通过实施辅助任务评估多模态大语言模型的推理能力);针对经典领域的更全面的基准测试(如MDK12-Bench扩展了多学科领域的数据规模和领域覆盖范围);面向更现实应用场景的基准测试(如Video-MMLU评估多模态大语言模型在多学科讲座任务上的表现);从以语言为中心的基准测试向以多模态为中心(特别是以视觉为中心)的转变(如VisuLogic代表了一个强大的视觉推理基准测试,在语言中表达固有的显著难度);以及引入交互元素的基准测试(如iVISPAR引入了一个新颖的交互式基准测试,旨在评估作为代理的视觉语言模型的空间推理能力)。
第五是繁荣的工程框架。在社区中,工程训练框架的增强对降低研究障碍和提高开发效率至关重要。自DeepSeek-R1出现以来,几个框架显著推动了社区的发展。Open-R1-Multimodal是这一领域的先驱努力,它建立在Open-R1和TRL之上,通过GRPO算法有效实现多模态模型训练。R1-V更进一步,支持Qwen2.5-VL模型、GEOQA任务和用于训练加速的vLLM。EasyR1是原始veRL项目的一个干净分支,它具有广泛支持模型、算法和数据集的特点,同时支持无填充训练、检查点恢复和工具集成。MAYA提供了一个透明且可重现的框架,以及一个用于将强化学习应用于多模态大语言模型的综合评估方案;此外,它还作为一个轻量级和教育性框架,阐明了强化学习训练的核心逻辑。
五、未来方向:社区下一步可以做什么
尽管在强化微调赋能多模态大语言模型的推理能力方面已经取得了显著成功,研究团队认为以下五个方向仍然值得社区进一步研究:
首先,实现跨模态、任务和领域的更好泛化。虽然已经有相当多的研究专注于跨任务推理,但现有工作仍然局限于特定领域和模态,而且这些任务的范围有限,通常只包含两三个任务。然而,在追求通用人工智能的过程中,我们一直希望开发一个能够适应各种模态、任务和领域的单一模型。因此,研究可泛化推理具有重要价值。X-Reasoner是这一领域的先驱,证明了基于通用领域文本的后训练可以实现可泛化推理,并且在专门领域的性能可以通过训练特定领域(如医学特定)的纯文本数据进一步增强。此外,在这一领域还有更多值得探索的点:首先,除了文本和视觉之外的其他模态尚未得到解决;因此,未来工作可以进一步探索更复杂模态的可泛化推理能力。其次,从感知视觉任务(图像)到时序视觉任务(视频)等更广泛任务的推理能力泛化,值得在社区内进一步探索。最后,跨更广泛领域的推理能力泛化,如从通用领域到具身特定设置,仍然是一个未被充分探索的领域,需要进一步系统研究。
其次,结合结果奖励范式和过程奖励范式。结果奖励范式提供了高效率和易于实现的特点,但其奖励的稀疏性在推理过程中没有中间反馈。对于过程奖励范式,虽然为中间推理步骤提供了密集奖励,但过程奖励模型(PRM)的训练仍然相对具有挑战性和不稳定性。因此,社区可以考虑将结果奖励范式与过程奖励范式相结合。一方面,PRM训练可以通过结果奖励范式来增强。关于多模态奖励模型训练,R1-Reward、UnifiedReward-Think和Skywork-VL Reward已经进行了开创性研究,证明强化微调可以导致更稳定的训练动态和增强的性能;因此,未来研究可以研究结果奖励范式的整合来增强PRM训练。另一方面,在结果奖励范式中提供有效和密集奖励的进一步探索是有必要的。StepGRPO代表了这一领域的开创性方法,特别是通过融入密集的步骤奖励;然而,它仅限于视觉数学推理任务,这种方法在其他任务、领域和模态中的适用性需要进一步研究。
第三,更加关注推理多模态大语言模型的安全性。保护多模态大语言模型免受安全漏洞和对抗性威胁是一个已被社区广泛探索的关键研究领域。最近有迹象表明,推理大语言模型由于其训练算法、在推理过程中对对抗性攻击的暴露以及其部署环境中固有的漏洞而面临新的安全挑战。然而,专门针对推理多模态大语言模型的安全研究仍然明显有限,这是一个需要社区增加关注的关键领域。未来研究可以进一步专注于为推理多模态大语言模型开发先进的检测和防御机制。这一点通常可以分为三个组成部分:首先,奖励黑客,一个社区内持续存在的挑战,值得进一步关注和努力;其次,对推理多模态大语言模型的越狱攻击和防御的探索值得社区更多关注;最后,过度思考的问题,如No-Thinking-RL和FAST等开创性工作所强调的,也是社区内一个关键挑战,可以在更多样化的模态、任务和领域中进行进一步研究。
第四,为多模态探索更多数据增强尝试。数据增强已被证明是多模态大语言模型训练的有效技术,可以潜在地增强模型的性能和鲁棒性。在强化微调设置中,数据通常很稀缺;因此,内部数据增强可能会增强模型的感知能力。NoisyRollout在这一领域开创先河,证明在训练期间加入高斯噪声可以增强视觉数学任务的推理性能。因此,在以下几点上进行进一步探索可能是有价值的:首先,为更广泛的视觉任务(如视觉计数任务)探索适当的数据增强方法;其次,为所有这些任务进一步探索更适当和多样化的数据增强方法(如RandomResizedCrop、RandomCrop、CenterCrop、RandFlip、RandomAffine、RandomInvert等);最后,将数据增强方法应用于其他模态并评估其在这些上下文中的有效性,值得进一步研究。
第五,探索更好的算法、奖励范式及其他应用。如前所述,社区在开发改进的训练算法方面取得了实质性进展。此外,这应该继续是社区努力的关键领域之一。关于奖励范式,当前算法通常采用基于规则的奖励。在未来研究中,进一步探索设计任务特定奖励函数的自动框架是有价值的。最后,探索强化微调的推理多模态大语言模型在各种学术学科(如建筑、航空航天、电气工程等)中的实施是一个有前途的领域,需要来自各种学科社区的协作努力。
通过这些深入研究和未来展望,清华深圳国际研究生院的研究团队为我们描绘了一幅多模态人工智能发展的清晰图景。强化微调作为一种有效的训练方法,正在赋能多模态大语言模型获得更强的推理能力,让它们不仅能"看"、能"听",还能像人类一样进行深度思考和推理,为通用人工智能的实现迈出了重要一步。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。