微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

Skywork AI的多模态推理新突破：让AI像人类一样"慢慢思考"解决复杂问题

多模态推理混合强化学习视觉推理优化

Skywork AI的多模态推理新突破：让AI像人类一样"慢慢思考"解决复杂问题

作者：科技行者

2025-07-15 11:38

分享至：

Skywork AI推出的第二代多模态推理模型R1V2，通过创新的混合强化学习方法，成功解决了AI"慢思考"策略在视觉推理中的挑战。该模型在保持强大推理能力的同时有效控制视觉幻觉，在多项权威测试中超越同类开源模型，某些指标甚至媲美商业产品，为开源AI发展树立了新标杆。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-15 11:38 • 科技行者

这项由Skywork AI公司（隶属昆仑科技）的Chris、魏一晨、彭毅、王晓昆等多位研究人员共同完成的研究，发表于2025年6月6日，研究代号为arXiv:2504.16656v4。感兴趣的读者可以通过论文链接https://huggingface.co/Skywork/Skywork-R1V2-38B获取完整模型和研究详情。

人工智能正在经历一场思维方式的革命。当我们使用ChatGPT或其他AI助手时，它们通常会立即给出答案，就像抢答比赛中的选手一样迅速反应。但真正困难的数学题或科学问题，往往需要深思熟虑才能解决。就像学生考试时遇到难题，需要在草稿纸上反复推演一样，AI也需要学会"慢慢思考"。

传统的AI模型追求速度，被称为"快思考"模型。它们就像那些反应敏捷但有时会匆忙下结论的人。而新一代的"慢思考"模型，则更像是那些遇到问题会仔细分析、反复验证的学者。OpenAI的o1模型、谷歌的Gemini-Thinking，以及国内的Kimi-1.5等，都属于这种新型的"慢思考"模型。它们在数学竞赛和科学推理方面的表现，比传统模型提升了30%以上。

然而，当这种"慢思考"策略从纯文本扩展到图文并茂的多模态领域时，问题变得更加复杂。就像一个人既要看图又要理解文字，还要进行复杂推理一样，多模态AI需要同时处理视觉信息和逻辑推理。令人困惑的是，虽然在复杂的视觉推理任务上表现有所提升，但在简单的图像理解任务上却出现了退步，甚至会产生更多的"视觉幻觉"——也就是看到实际不存在的东西。

为了解决这个棘手问题，Skywork AI团队推出了第二代产品R1V2，这是一个能够平衡复杂推理能力和通用理解能力的多模态AI模型。它就像一个既能解高等数学题，又能准确识别日常物品的全能学生。

一、创新的"混合强化学习"训练方法

R1V2的核心创新在于采用了一种全新的"混合强化学习"训练方法。这就像培养一个学生，不仅要教他解题技巧，还要培养他的判断力和自我纠错能力。

传统的AI训练就像让学生模仿老师的解题过程，这种方法被称为"监督微调"。但R1V2完全跳过了这个阶段，因为研究团队发现，过多的模仿反而会削弱AI的原创思维能力，就像学生过分依赖标准答案而失去了独立思考的能力。

取而代之的是，R1V2采用了一种叫做"混合偏好优化"（MPO）的方法。这种方法就像给AI配备了一个内在的"质量检查员"，能够从三个维度评估自己的回答质量。首先是比较不同答案的相对优劣，就像在多个解题方案中选择最佳的那个。其次是评估单个答案的绝对质量，判断这个答案本身是否达标。最后是学习如何生成高质量的回答过程，掌握正确的"解题套路"。

这个质量检查员的角色由Skywork团队开发的"Skywork-VL奖励模型"来担任。这个奖励模型就像一个经验丰富的老师，既能理解图像内容，又能评判推理过程的正确性。在它的指导下，R1V2能够有效减少重复性的思考过程和过度思考的问题，在一般性视觉任务上表现更加稳定。

二、解决"优势消失"难题的创新机制

为了进一步提升推理能力，研究团队还引入了另一种训练方法——"群体相对策略优化"（GRPO）。这种方法就像组织一场"头脑风暴"比赛，让AI对同一个问题生成多个不同的答案，然后通过比较这些答案的质量来学习改进。

但是这种方法面临一个严重问题，研究人员称之为"消失的优势"现象。随着训练的进行，AI生成的多个答案会逐渐趋于一致，要么都对，要么都错，失去了相互比较的价值。这就像一个班级的学生经过长期训练后，面对某类题目时给出的答案高度相似，老师就很难通过比较来发现问题和改进点了。

为了解决这个问题，Skywork团队创造性地提出了"选择性样本缓冲区"（SSB）机制。这个机制就像建立了一个"珍贵题库"，专门收集那些能够产生不同答案、具有区分度的高质量训练样本。当常规训练样本的区分度下降时，系统会自动从这个题库中调取有价值的样本继续训练。

这种方法的效果非常显著。在训练初期，大约60%的样本都具有很好的区分度，但随着训练推进，这个比例会急剧下降到40%以下。SSB机制通过维持高质量样本的持续供应，确保训练过程始终保持高效率。更重要的是，研究团队发现，提前准备这样的"精选题库"能够将训练效率提升10%以上。

三、巧妙平衡推理能力与视觉准确性

研究过程中，团队发现了一个有趣但需要谨慎处理的现象：过度强化视觉推理能力会导致"视觉幻觉"增加。这就像一个人过分投入复杂的图像分析时，可能会在简单图片中"看到"实际不存在的细节。

这种现象的出现有其深层原因。当AI需要进行复杂的视觉推理时，它必须在视觉元素之间进行更多的"创造性插值"——也就是根据已有信息推测可能的关联。这个过程虽然有助于复杂推理，但也增加了产生错误联想的风险。

为了解决这个问题，研究团队采用了精确的"奖励阈值校准"策略。这就像给AI设置了一个"理性检查点"，防止它在追求复杂推理时偏离现实。通过SSB机制，系统能够在保持多样化学习信号的同时，维持视觉推理和文本推理之间的适当平衡。

四、突破性的模块化架构设计

R1V2在技术架构上也有重要创新。不同于传统的端到端训练方式，它采用了模块化的组装方法。整个系统就像一个精密的相机系统，由三个核心组件构成：负责"看"的视觉编码器（InternViT-6B）、负责"想"的语言推理模型（QwQ-32B），以及连接二者的轻量级适配器。

这种设计的巧妙之处在于，视觉编码器保持冻结状态，专注于提取图像特征。语言模型则保留其强大的推理能力，不受视觉训练的干扰。而适配器则像一个"翻译官"，负责将视觉信息转换为语言模型能够理解的形式。

研究团队通过大量实验发现了一个令人惊讶的现象：文本推理能力和视觉理解能力之间存在很强的"迁移效应"。一个模态的改进会直接惠及另一个模态，就像学会了骑自行车的人更容易学会骑摩托车一样。有趣的是，单独训练视觉编码器收效甚微，而训练适配器或同时训练适配器和语言模型效果显著，这说明跨模态的"对齐"比视觉编码本身更加关键。

五、卓越的实验表现

R1V2在多个权威测试平台上都取得了优异成绩。在文本推理方面，它在2024年美国数学邀请赛（AIME2024）上获得了78.9%的正确率，在编程竞赛LiveCodeBench上达到63.6%，在综合推理测试LiveBench上获得73.2%的成绩。

在多模态推理测试中，R1V2的表现同样出色。在多学科理解测试MMMU上达到73.6%，在数学视觉推理MathVista上获得74.0%，在国际奥林匹克竞赛题目OlympiadBench上取得62.6%的成绩。这些分数不仅在开源模型中名列前茅，甚至可以与一些商业模型相媲美。

特别值得一提的是，R1V2仅有380亿个参数，却能够超越许多720亿参数的大型模型。比如在MMMU测试中，它比Qwen2.5-VL-72B高出3.4个百分点，比QvQ-Preview-72B高出3.3个百分点。在奥林匹克竞赛题目上，这种优势更加明显，R1V2的62.6%远超其他大型模型的40.4%和33.2%。

与商业模型相比，R1V2在某些方面已经达到甚至超越了它们的水平。例如在MMMU测试中，它超过了Claude 3.5 Sonnet的70.4%和Gemini 2 Flash的70.7%。虽然在某些测试中仍与顶级商业模型OpenAI-o4-mini存在差距，但这个差距已经大大缩小，显示出开源模型正在快速追赶商业产品的步伐。

六、深入的技术验证与分析

为了验证各项技术创新的有效性，研究团队进行了详细的对比实验。SSB机制的效果最为显著：在使用SSB的情况下，有效训练样本的比例能够维持在60%以上，而不使用SSB时这个比例会降到40%以下。这直接转化为更好的模型性能——MMMU测试成绩从73.4%提升到73.6%。

在训练策略的比较中，混合方法（MPO+GRPO）展现出最佳的平衡效果。虽然单独使用MPO在某些数学推理任务上能够获得最高分（AIME2024上达到79.0%），但结合GRPO后的混合方法在综合表现上更加稳定，特别是在奥林匹克竞赛题目上从60.6%提升到62.6%。

更重要的是，混合方法有效控制了"视觉幻觉"问题。传统的监督微调方法的幻觉率高达12.1%，而混合方法将这个数字降低到9.1%，MPO单独使用时甚至能降到8.7%。这表明新的训练策略不仅提升了推理能力，还增强了模型的可靠性。

在模块激活策略的测试中，研究团队发现了一个反直觉的结果：仅训练适配器的效果最好，在所有测试中都取得了最高分数（MMMU 73.6%，MathVista 74.0%，OlympiadBench 62.6%）。这说明问题的关键不在于增强视觉编码能力，而在于改善视觉特征与语言处理之间的"沟通"质量。

研究团队还测试了不同的MPO阈值设置对训练效果的影响。他们发现，较高的阈值（如15）能够带来更稳定的训练过程，而较低的阈值虽然在初期可能表现更好，但容易导致后期的性能衰退。这与他们观察到的"奖励过度优化"现象一致——过分追求某个指标可能会损害模型的整体表现。

七、实际应用场景展示

为了展示R1V2的实际能力，研究团队提供了两个具体的应用案例。第一个案例是中国高考物理题，涉及电磁感应和交流发电机的复杂问题。面对包含两个不同匝数线圈的复杂图表，R1V2能够准确识别关键信息，并运用电磁学原理进行推理。

在这个物理问题中，R1V2展现了系统性的分析能力。它首先识别出线圈匝数的差异（n1 > n2），然后正确地指出感应电流的频率取决于磁芯的转速而非线圈匝数。这种分析过程体现了AI能够区分相关因素和无关因素的能力，而不是简单地进行模式匹配。

第二个案例是中国高考数学题，涉及三维几何中球体和四角锥的体积计算。这类问题需要空间想象能力和精确的数学计算。R1V2采用了建立坐标系的策略，将复杂的三维问题转化为可计算的代数问题。更令人印象深刻的是，它在得出答案后还会主动进行验证："让我再仔细检查一下步骤，看看是否有错误..."这种自我检查的行为体现了真正的推理思维。

八、技术局限与改进方向

尽管R1V2在推理任务上表现出色，但在一些通用视觉理解任务上仍有改进空间。在文档理解方面，它在AI2D测试中获得81.3%，在ChartQA和TextVQA上分别达到79.0%和相当水平，虽然表现尚可，但与专门优化的模型相比仍有差距。

在视频理解方面，R1V2在VideoMME上获得60.2%，在MVBench上达到61.5%的成绩。值得注意的是，当视频内容需要时序推理时，它的表现会显著提升（在MMBench-Video上获得1.92分，超过了InternVL2.5-38B的1.82分），这再次证明了其在复杂推理任务上的优势。

研究团队坦诚地指出，这种性能分化反映了当前设计中的一个权衡选择。他们有意识地将资源更多地投入到推理能力的提升上，而在通用视觉理解方面做出了一定的妥协。这是一个工程决策，未来的版本将致力于在保持强大推理能力的同时，提升通用视觉理解的表现。

在幻觉控制方面，虽然混合训练方法已经将幻觉率降低到9.1%，但研究团队认为还有进一步改进的空间。他们发现，激进的推理优化初期确实会增加幻觉现象，但通过MPO方法的干预，最终能够有效控制这个问题。在事实准确性测试RealWorldQA上，R1V2达到68.9%的正确率，表明在保持推理能力的同时维持了合理的事实判断水平。

九、对AI发展的启示意义

R1V2的成功提供了几个重要的技术启示。首先，它证明了"慢思考"策略可以成功地扩展到多模态领域，而不必牺牲太多的通用理解能力。这为未来的AI系统设计提供了新的思路——不同类型的智能任务可能需要不同的处理策略，而关键在于找到合适的平衡点。

其次，模块化的架构设计显示了组合不同预训练模型的巨大潜力。通过精心设计的适配层，可以将专门优化的视觉模型和语言模型有机结合，实现"1+1>2"的效果。这种方法不仅提高了开发效率，还为未来的多模态系统提供了可扩展的框架。

第三，混合强化学习方法的成功表明，复杂的AI能力可能需要多种训练策略的协同作用。单一的训练方法往往难以同时优化多个目标，而精心设计的组合策略能够在不同维度上取得更好的平衡。

最后，SSB这样的技术创新解决了强化学习中的实际问题，为其他研究者提供了有价值的工具。这种机制不仅适用于多模态AI，也可能在纯文本或其他类型的AI训练中发挥作用。

R1V2的开源发布也体现了推动AI民主化的重要意义。通过将先进的多模态推理技术开放给研究社区，Skywork团队为全球的AI发展做出了贡献。这种开放策略有助于加速技术创新，同时也为更多开发者提供了构建智能应用的基础工具。

说到底，R1V2代表了开源AI模型在复杂推理能力上的一次重要突破。它不仅在技术层面实现了多项创新，更重要的是证明了开源模型完全有能力在高端AI应用中与商业产品一较高下。随着更多研究团队在这个基础上继续创新，我们有理由相信，AI的"慢思考"能力将变得更加强大和实用，为解决现实世界中的复杂问题提供更好的工具。

对于普通用户而言，这意味着未来的AI助手将能够处理更加复杂的任务，无论是帮助学生解决数学物理难题，还是协助专业人士进行复杂的分析工作。而对于开发者来说，R1V2提供了一个强大的基础平台，可以在此基础上构建各种专业应用。这项研究不仅推动了技术边界，也为AI的普及应用铺平了道路。

Q&A

Q1：什么是"慢思考"AI，它和普通AI有什么区别？ A："慢思考"AI就像考试时会在草稿纸上反复推演的学生，遇到复杂问题时会深思熟虑，而不是立即给出答案。普通AI追求快速响应，"慢思考"AI则更注重推理过程的准确性，在数学和科学问题上表现更好，准确率能提升30%以上。

Q2：Skywork R1V2会不会出现"视觉幻觉"问题？ A：研究团队发现过度强化推理能力确实会增加"视觉幻觉"风险，但他们通过混合训练方法将幻觉率控制在9.1%，比传统方法的12.1%有显著改善。系统会通过"质量检查员"机制来平衡推理能力和视觉准确性。

Q3：普通人能使用Skywork R1V2吗？有什么要求？ A：可以使用。Skywork团队已经开源了R1V2模型，用户可以通过https://huggingface.co/Skywork/Skywork-R1V2-38B获取。虽然需要一定的技术基础来部署，但这为开发者构建各种智能应用提供了强大的基础工具。

多模态推理混合强化学习视觉推理优化

分享至