这项由Skywork AI公司(隶属昆仑科技)的Chris、魏一晨、彭毅、王晓昆等多位研究人员共同完成的研究,发表于2025年6月6日,研究代号为arXiv:2504.16656v4。感兴趣的读者可以通过论文链接https://huggingface.co/Skywork/Skywork-R1V2-38B获取完整模型和研究详情。
人工智能正在经历一场思维方式的革命。当我们使用ChatGPT或其他AI助手时,它们通常会立即给出答案,就像抢答比赛中的选手一样迅速反应。但真正困难的数学题或科学问题,往往需要深思熟虑才能解决。就像学生考试时遇到难题,需要在草稿纸上反复推演一样,AI也需要学会"慢慢思考"。
传统的AI模型追求速度,被称为"快思考"模型。它们就像那些反应敏捷但有时会匆忙下结论的人。而新一代的"慢思考"模型,则更像是那些遇到问题会仔细分析、反复验证的学者。OpenAI的o1模型、谷歌的Gemini-Thinking,以及国内的Kimi-1.5等,都属于这种新型的"慢思考"模型。它们在数学竞赛和科学推理方面的表现,比传统模型提升了30%以上。
然而,当这种"慢思考"策略从纯文本扩展到图文并茂的多模态领域时,问题变得更加复杂。就像一个人既要看图又要理解文字,还要进行复杂推理一样,多模态AI需要同时处理视觉信息和逻辑推理。令人困惑的是,虽然在复杂的视觉推理任务上表现有所提升,但在简单的图像理解任务上却出现了退步,甚至会产生更多的"视觉幻觉"——也就是看到实际不存在的东西。
为了解决这个棘手问题,Skywork AI团队推出了第二代产品R1V2,这是一个能够平衡复杂推理能力和通用理解能力的多模态AI模型。它就像一个既能解高等数学题,又能准确识别日常物品的全能学生。
一、创新的"混合强化学习"训练方法
R1V2的核心创新在于采用了一种全新的"混合强化学习"训练方法。这就像培养一个学生,不仅要教他解题技巧,还要培养他的判断力和自我纠错能力。
传统的AI训练就像让学生模仿老师的解题过程,这种方法被称为"监督微调"。但R1V2完全跳过了这个阶段,因为研究团队发现,过多的模仿反而会削弱AI的原创思维能力,就像学生过分依赖标准答案而失去了独立思考的能力。
取而代之的是,R1V2采用了一种叫做"混合偏好优化"(MPO)的方法。这种方法就像给AI配备了一个内在的"质量检查员",能够从三个维度评估自己的回答质量。首先是比较不同答案的相对优劣,就像在多个解题方案中选择最佳的那个。其次是评估单个答案的绝对质量,判断这个答案本身是否达标。最后是学习如何生成高质量的回答过程,掌握正确的"解题套路"。
这个质量检查员的角色由Skywork团队开发的"Skywork-VL奖励模型"来担任。这个奖励模型就像一个经验丰富的老师,既能理解图像内容,又能评判推理过程的正确性。在它的指导下,R1V2能够有效减少重复性的思考过程和过度思考的问题,在一般性视觉任务上表现更加稳定。
二、解决"优势消失"难题的创新机制
为了进一步提升推理能力,研究团队还引入了另一种训练方法——"群体相对策略优化"(GRPO)。这种方法就像组织一场"头脑风暴"比赛,让AI对同一个问题生成多个不同的答案,然后通过比较这些答案的质量来学习改进。
但是这种方法面临一个严重问题,研究人员称之为"消失的优势"现象。随着训练的进行,AI生成的多个答案会逐渐趋于一致,要么都对,要么都错,失去了相互比较的价值。这就像一个班级的学生经过长期训练后,面对某类题目时给出的答案高度相似,老师就很难通过比较来发现问题和改进点了。
为了解决这个问题,Skywork团队创造性地提出了"选择性样本缓冲区"(SSB)机制。这个机制就像建立了一个"珍贵题库",专门收集那些能够产生不同答案、具有区分度的高质量训练样本。当常规训练样本的区分度下降时,系统会自动从这个题库中调取有价值的样本继续训练。
这种方法的效果非常显著。在训练初期,大约60%的样本都具有很好的区分度,但随着训练推进,这个比例会急剧下降到40%以下。SSB机制通过维持高质量样本的持续供应,确保训练过程始终保持高效率。更重要的是,研究团队发现,提前准备这样的"精选题库"能够将训练效率提升10%以上。
三、巧妙平衡推理能力与视觉准确性
研究过程中,团队发现了一个有趣但需要谨慎处理的现象:过度强化视觉推理能力会导致"视觉幻觉"增加。这就像一个人过分投入复杂的图像分析时,可能会在简单图片中"看到"实际不存在的细节。
这种现象的出现有其深层原因。当AI需要进行复杂的视觉推理时,它必须在视觉元素之间进行更多的"创造性插值"——也就是根据已有信息推测可能的关联。这个过程虽然有助于复杂推理,但也增加了产生错误联想的风险。
为了解决这个问题,研究团队采用了精确的"奖励阈值校准"策略。这就像给AI设置了一个"理性检查点",防止它在追求复杂推理时偏离现实。通过SSB机制,系统能够在保持多样化学习信号的同时,维持视觉推理和文本推理之间的适当平衡。
四、突破性的模块化架构设计
R1V2在技术架构上也有重要创新。不同于传统的端到端训练方式,它采用了模块化的组装方法。整个系统就像一个精密的相机系统,由三个核心组件构成:负责"看"的视觉编码器(InternViT-6B)、负责"想"的语言推理模型(QwQ-32B),以及连接二者的轻量级适配器。
这种设计的巧妙之处在于,视觉编码器保持冻结状态,专注于提取图像特征。语言模型则保留其强大的推理能力,不受视觉训练的干扰。而适配器则像一个"翻译官",负责将视觉信息转换为语言模型能够理解的形式。
研究团队通过大量实验发现了一个令人惊讶的现象:文本推理能力和视觉理解能力之间存在很强的"迁移效应"。一个模态的改进会直接惠及另一个模态,就像学会了骑自行车的人更容易学会骑摩托车一样。有趣的是,单独训练视觉编码器收效甚微,而训练适配器或同时训练适配器和语言模型效果显著,这说明跨模态的"对齐"比视觉编码本身更加关键。
五、卓越的实验表现
R1V2在多个权威测试平台上都取得了优异成绩。在文本推理方面,它在2024年美国数学邀请赛(AIME2024)上获得了78.9%的正确率,在编程竞赛LiveCodeBench上达到63.6%,在综合推理测试LiveBench上获得73.2%的成绩。
在多模态推理测试中,R1V2的表现同样出色。在多学科理解测试MMMU上达到73.6%,在数学视觉推理MathVista上获得74.0%,在国际奥林匹克竞赛题目OlympiadBench上取得62.6%的成绩。这些分数不仅在开源模型中名列前茅,甚至可以与一些商业模型相媲美。
特别值得一提的是,R1V2仅有380亿个参数,却能够超越许多720亿参数的大型模型。比如在MMMU测试中,它比Qwen2.5-VL-72B高出3.4个百分点,比QvQ-Preview-72B高出3.3个百分点。在奥林匹克竞赛题目上,这种优势更加明显,R1V2的62.6%远超其他大型模型的40.4%和33.2%。
与商业模型相比,R1V2在某些方面已经达到甚至超越了它们的水平。例如在MMMU测试中,它超过了Claude 3.5 Sonnet的70.4%和Gemini 2 Flash的70.7%。虽然在某些测试中仍与顶级商业模型OpenAI-o4-mini存在差距,但这个差距已经大大缩小,显示出开源模型正在快速追赶商业产品的步伐。
六、深入的技术验证与分析
为了验证各项技术创新的有效性,研究团队进行了详细的对比实验。SSB机制的效果最为显著:在使用SSB的情况下,有效训练样本的比例能够维持在60%以上,而不使用SSB时这个比例会降到40%以下。这直接转化为更好的模型性能——MMMU测试成绩从73.4%提升到73.6%。
在训练策略的比较中,混合方法(MPO+GRPO)展现出最佳的平衡效果。虽然单独使用MPO在某些数学推理任务上能够获得最高分(AIME2024上达到79.0%),但结合GRPO后的混合方法在综合表现上更加稳定,特别是在奥林匹克竞赛题目上从60.6%提升到62.6%。
更重要的是,混合方法有效控制了"视觉幻觉"问题。传统的监督微调方法的幻觉率高达12.1%,而混合方法将这个数字降低到9.1%,MPO单独使用时甚至能降到8.7%。这表明新的训练策略不仅提升了推理能力,还增强了模型的可靠性。
在模块激活策略的测试中,研究团队发现了一个反直觉的结果:仅训练适配器的效果最好,在所有测试中都取得了最高分数(MMMU 73.6%,MathVista 74.0%,OlympiadBench 62.6%)。这说明问题的关键不在于增强视觉编码能力,而在于改善视觉特征与语言处理之间的"沟通"质量。
研究团队还测试了不同的MPO阈值设置对训练效果的影响。他们发现,较高的阈值(如15)能够带来更稳定的训练过程,而较低的阈值虽然在初期可能表现更好,但容易导致后期的性能衰退。这与他们观察到的"奖励过度优化"现象一致——过分追求某个指标可能会损害模型的整体表现。
七、实际应用场景展示
为了展示R1V2的实际能力,研究团队提供了两个具体的应用案例。第一个案例是中国高考物理题,涉及电磁感应和交流发电机的复杂问题。面对包含两个不同匝数线圈的复杂图表,R1V2能够准确识别关键信息,并运用电磁学原理进行推理。
在这个物理问题中,R1V2展现了系统性的分析能力。它首先识别出线圈匝数的差异(n1 > n2),然后正确地指出感应电流的频率取决于磁芯的转速而非线圈匝数。这种分析过程体现了AI能够区分相关因素和无关因素的能力,而不是简单地进行模式匹配。
第二个案例是中国高考数学题,涉及三维几何中球体和四角锥的体积计算。这类问题需要空间想象能力和精确的数学计算。R1V2采用了建立坐标系的策略,将复杂的三维问题转化为可计算的代数问题。更令人印象深刻的是,它在得出答案后还会主动进行验证:"让我再仔细检查一下步骤,看看是否有错误..."这种自我检查的行为体现了真正的推理思维。
八、技术局限与改进方向
尽管R1V2在推理任务上表现出色,但在一些通用视觉理解任务上仍有改进空间。在文档理解方面,它在AI2D测试中获得81.3%,在ChartQA和TextVQA上分别达到79.0%和相当水平,虽然表现尚可,但与专门优化的模型相比仍有差距。
在视频理解方面,R1V2在VideoMME上获得60.2%,在MVBench上达到61.5%的成绩。值得注意的是,当视频内容需要时序推理时,它的表现会显著提升(在MMBench-Video上获得1.92分,超过了InternVL2.5-38B的1.82分),这再次证明了其在复杂推理任务上的优势。
研究团队坦诚地指出,这种性能分化反映了当前设计中的一个权衡选择。他们有意识地将资源更多地投入到推理能力的提升上,而在通用视觉理解方面做出了一定的妥协。这是一个工程决策,未来的版本将致力于在保持强大推理能力的同时,提升通用视觉理解的表现。
在幻觉控制方面,虽然混合训练方法已经将幻觉率降低到9.1%,但研究团队认为还有进一步改进的空间。他们发现,激进的推理优化初期确实会增加幻觉现象,但通过MPO方法的干预,最终能够有效控制这个问题。在事实准确性测试RealWorldQA上,R1V2达到68.9%的正确率,表明在保持推理能力的同时维持了合理的事实判断水平。
九、对AI发展的启示意义
R1V2的成功提供了几个重要的技术启示。首先,它证明了"慢思考"策略可以成功地扩展到多模态领域,而不必牺牲太多的通用理解能力。这为未来的AI系统设计提供了新的思路——不同类型的智能任务可能需要不同的处理策略,而关键在于找到合适的平衡点。
其次,模块化的架构设计显示了组合不同预训练模型的巨大潜力。通过精心设计的适配层,可以将专门优化的视觉模型和语言模型有机结合,实现"1+1>2"的效果。这种方法不仅提高了开发效率,还为未来的多模态系统提供了可扩展的框架。
第三,混合强化学习方法的成功表明,复杂的AI能力可能需要多种训练策略的协同作用。单一的训练方法往往难以同时优化多个目标,而精心设计的组合策略能够在不同维度上取得更好的平衡。
最后,SSB这样的技术创新解决了强化学习中的实际问题,为其他研究者提供了有价值的工具。这种机制不仅适用于多模态AI,也可能在纯文本或其他类型的AI训练中发挥作用。
R1V2的开源发布也体现了推动AI民主化的重要意义。通过将先进的多模态推理技术开放给研究社区,Skywork团队为全球的AI发展做出了贡献。这种开放策略有助于加速技术创新,同时也为更多开发者提供了构建智能应用的基础工具。
说到底,R1V2代表了开源AI模型在复杂推理能力上的一次重要突破。它不仅在技术层面实现了多项创新,更重要的是证明了开源模型完全有能力在高端AI应用中与商业产品一较高下。随着更多研究团队在这个基础上继续创新,我们有理由相信,AI的"慢思考"能力将变得更加强大和实用,为解决现实世界中的复杂问题提供更好的工具。
对于普通用户而言,这意味着未来的AI助手将能够处理更加复杂的任务,无论是帮助学生解决数学物理难题,还是协助专业人士进行复杂的分析工作。而对于开发者来说,R1V2提供了一个强大的基础平台,可以在此基础上构建各种专业应用。这项研究不仅推动了技术边界,也为AI的普及应用铺平了道路。
Q&A
Q1:什么是"慢思考"AI,它和普通AI有什么区别? A:"慢思考"AI就像考试时会在草稿纸上反复推演的学生,遇到复杂问题时会深思熟虑,而不是立即给出答案。普通AI追求快速响应,"慢思考"AI则更注重推理过程的准确性,在数学和科学问题上表现更好,准确率能提升30%以上。
Q2:Skywork R1V2会不会出现"视觉幻觉"问题? A:研究团队发现过度强化推理能力确实会增加"视觉幻觉"风险,但他们通过混合训练方法将幻觉率控制在9.1%,比传统方法的12.1%有显著改善。系统会通过"质量检查员"机制来平衡推理能力和视觉准确性。
Q3:普通人能使用Skywork R1V2吗?有什么要求? A:可以使用。Skywork团队已经开源了R1V2模型,用户可以通过https://huggingface.co/Skywork/Skywork-R1V2-38B获取。虽然需要一定的技术基础来部署,但这为开发者构建各种智能应用提供了强大的基础工具。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了SPIRAL框架,通过让AI与自己对弈零和游戏来提升推理能力。实验显示,仅训练AI玩简单扑克游戏就能让其数学推理能力提升8.6%,通用推理提升8.4%,且无需任何数学题目作为训练材料。研究发现游戏中的三种推理模式能成功转移到数学解题中,为AI训练提供了新思路。
同济大学团队开发的GIGA-ToF技术通过融合多帧图像的"图结构"信息,创新性地解决了3D相机噪声问题。该技术利用图像间的不变几何关系,结合深度学习和数学优化方法,在合成数据集上实现37.9%的精度提升,并在真实设备上展现出色泛化能力,为机器人、AR和自动驾驶等领域提供更可靠的3D视觉解决方案。
伊利诺伊大学研究团队通过对比实验发现,经过强化学习训练的视觉语言模型虽然表现出"顿悟时刻"现象,但这些自我纠错行为并不能实际提升推理准确率。研究揭示了AI模型存在"生成-验证差距",即生成答案的能力强于验证答案质量的能力,且模型在自我验证时无法有效利用视觉信息,为AI多模态推理发展提供了重要启示。
MIT等顶尖机构联合提出SparseLoRA技术,通过动态稀疏性实现大语言模型训练加速1.6倍,计算成本降低2.2倍。该方法使用SVD稀疏性估计器智能选择重要计算部分,在保持模型性能的同时显著提升训练效率,已在多个任务上验证有效性。