微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 Skywork AI的多模态推理新突破:让AI像人类一样"慢慢思考"解决复杂问题

Skywork AI的多模态推理新突破:让AI像人类一样"慢慢思考"解决复杂问题

2025-07-15 11:38
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-15 11:38 科技行者

这项由Skywork AI公司(隶属昆仑科技)的Chris、魏一晨、彭毅、王晓昆等多位研究人员共同完成的研究,发表于2025年6月6日,研究代号为arXiv:2504.16656v4。感兴趣的读者可以通过论文链接https://huggingface.co/Skywork/Skywork-R1V2-38B获取完整模型和研究详情。

人工智能正在经历一场思维方式的革命。当我们使用ChatGPT或其他AI助手时,它们通常会立即给出答案,就像抢答比赛中的选手一样迅速反应。但真正困难的数学题或科学问题,往往需要深思熟虑才能解决。就像学生考试时遇到难题,需要在草稿纸上反复推演一样,AI也需要学会"慢慢思考"。

传统的AI模型追求速度,被称为"快思考"模型。它们就像那些反应敏捷但有时会匆忙下结论的人。而新一代的"慢思考"模型,则更像是那些遇到问题会仔细分析、反复验证的学者。OpenAI的o1模型、谷歌的Gemini-Thinking,以及国内的Kimi-1.5等,都属于这种新型的"慢思考"模型。它们在数学竞赛和科学推理方面的表现,比传统模型提升了30%以上。

然而,当这种"慢思考"策略从纯文本扩展到图文并茂的多模态领域时,问题变得更加复杂。就像一个人既要看图又要理解文字,还要进行复杂推理一样,多模态AI需要同时处理视觉信息和逻辑推理。令人困惑的是,虽然在复杂的视觉推理任务上表现有所提升,但在简单的图像理解任务上却出现了退步,甚至会产生更多的"视觉幻觉"——也就是看到实际不存在的东西。

为了解决这个棘手问题,Skywork AI团队推出了第二代产品R1V2,这是一个能够平衡复杂推理能力和通用理解能力的多模态AI模型。它就像一个既能解高等数学题,又能准确识别日常物品的全能学生。

一、创新的"混合强化学习"训练方法

R1V2的核心创新在于采用了一种全新的"混合强化学习"训练方法。这就像培养一个学生,不仅要教他解题技巧,还要培养他的判断力和自我纠错能力。

传统的AI训练就像让学生模仿老师的解题过程,这种方法被称为"监督微调"。但R1V2完全跳过了这个阶段,因为研究团队发现,过多的模仿反而会削弱AI的原创思维能力,就像学生过分依赖标准答案而失去了独立思考的能力。

取而代之的是,R1V2采用了一种叫做"混合偏好优化"(MPO)的方法。这种方法就像给AI配备了一个内在的"质量检查员",能够从三个维度评估自己的回答质量。首先是比较不同答案的相对优劣,就像在多个解题方案中选择最佳的那个。其次是评估单个答案的绝对质量,判断这个答案本身是否达标。最后是学习如何生成高质量的回答过程,掌握正确的"解题套路"。

这个质量检查员的角色由Skywork团队开发的"Skywork-VL奖励模型"来担任。这个奖励模型就像一个经验丰富的老师,既能理解图像内容,又能评判推理过程的正确性。在它的指导下,R1V2能够有效减少重复性的思考过程和过度思考的问题,在一般性视觉任务上表现更加稳定。

二、解决"优势消失"难题的创新机制

为了进一步提升推理能力,研究团队还引入了另一种训练方法——"群体相对策略优化"(GRPO)。这种方法就像组织一场"头脑风暴"比赛,让AI对同一个问题生成多个不同的答案,然后通过比较这些答案的质量来学习改进。

但是这种方法面临一个严重问题,研究人员称之为"消失的优势"现象。随着训练的进行,AI生成的多个答案会逐渐趋于一致,要么都对,要么都错,失去了相互比较的价值。这就像一个班级的学生经过长期训练后,面对某类题目时给出的答案高度相似,老师就很难通过比较来发现问题和改进点了。

为了解决这个问题,Skywork团队创造性地提出了"选择性样本缓冲区"(SSB)机制。这个机制就像建立了一个"珍贵题库",专门收集那些能够产生不同答案、具有区分度的高质量训练样本。当常规训练样本的区分度下降时,系统会自动从这个题库中调取有价值的样本继续训练。

这种方法的效果非常显著。在训练初期,大约60%的样本都具有很好的区分度,但随着训练推进,这个比例会急剧下降到40%以下。SSB机制通过维持高质量样本的持续供应,确保训练过程始终保持高效率。更重要的是,研究团队发现,提前准备这样的"精选题库"能够将训练效率提升10%以上。

三、巧妙平衡推理能力与视觉准确性

研究过程中,团队发现了一个有趣但需要谨慎处理的现象:过度强化视觉推理能力会导致"视觉幻觉"增加。这就像一个人过分投入复杂的图像分析时,可能会在简单图片中"看到"实际不存在的细节。

这种现象的出现有其深层原因。当AI需要进行复杂的视觉推理时,它必须在视觉元素之间进行更多的"创造性插值"——也就是根据已有信息推测可能的关联。这个过程虽然有助于复杂推理,但也增加了产生错误联想的风险。

为了解决这个问题,研究团队采用了精确的"奖励阈值校准"策略。这就像给AI设置了一个"理性检查点",防止它在追求复杂推理时偏离现实。通过SSB机制,系统能够在保持多样化学习信号的同时,维持视觉推理和文本推理之间的适当平衡。

四、突破性的模块化架构设计

R1V2在技术架构上也有重要创新。不同于传统的端到端训练方式,它采用了模块化的组装方法。整个系统就像一个精密的相机系统,由三个核心组件构成:负责"看"的视觉编码器(InternViT-6B)、负责"想"的语言推理模型(QwQ-32B),以及连接二者的轻量级适配器。

这种设计的巧妙之处在于,视觉编码器保持冻结状态,专注于提取图像特征。语言模型则保留其强大的推理能力,不受视觉训练的干扰。而适配器则像一个"翻译官",负责将视觉信息转换为语言模型能够理解的形式。

研究团队通过大量实验发现了一个令人惊讶的现象:文本推理能力和视觉理解能力之间存在很强的"迁移效应"。一个模态的改进会直接惠及另一个模态,就像学会了骑自行车的人更容易学会骑摩托车一样。有趣的是,单独训练视觉编码器收效甚微,而训练适配器或同时训练适配器和语言模型效果显著,这说明跨模态的"对齐"比视觉编码本身更加关键。

五、卓越的实验表现

R1V2在多个权威测试平台上都取得了优异成绩。在文本推理方面,它在2024年美国数学邀请赛(AIME2024)上获得了78.9%的正确率,在编程竞赛LiveCodeBench上达到63.6%,在综合推理测试LiveBench上获得73.2%的成绩。

在多模态推理测试中,R1V2的表现同样出色。在多学科理解测试MMMU上达到73.6%,在数学视觉推理MathVista上获得74.0%,在国际奥林匹克竞赛题目OlympiadBench上取得62.6%的成绩。这些分数不仅在开源模型中名列前茅,甚至可以与一些商业模型相媲美。

特别值得一提的是,R1V2仅有380亿个参数,却能够超越许多720亿参数的大型模型。比如在MMMU测试中,它比Qwen2.5-VL-72B高出3.4个百分点,比QvQ-Preview-72B高出3.3个百分点。在奥林匹克竞赛题目上,这种优势更加明显,R1V2的62.6%远超其他大型模型的40.4%和33.2%。

与商业模型相比,R1V2在某些方面已经达到甚至超越了它们的水平。例如在MMMU测试中,它超过了Claude 3.5 Sonnet的70.4%和Gemini 2 Flash的70.7%。虽然在某些测试中仍与顶级商业模型OpenAI-o4-mini存在差距,但这个差距已经大大缩小,显示出开源模型正在快速追赶商业产品的步伐。

六、深入的技术验证与分析

为了验证各项技术创新的有效性,研究团队进行了详细的对比实验。SSB机制的效果最为显著:在使用SSB的情况下,有效训练样本的比例能够维持在60%以上,而不使用SSB时这个比例会降到40%以下。这直接转化为更好的模型性能——MMMU测试成绩从73.4%提升到73.6%。

在训练策略的比较中,混合方法(MPO+GRPO)展现出最佳的平衡效果。虽然单独使用MPO在某些数学推理任务上能够获得最高分(AIME2024上达到79.0%),但结合GRPO后的混合方法在综合表现上更加稳定,特别是在奥林匹克竞赛题目上从60.6%提升到62.6%。

更重要的是,混合方法有效控制了"视觉幻觉"问题。传统的监督微调方法的幻觉率高达12.1%,而混合方法将这个数字降低到9.1%,MPO单独使用时甚至能降到8.7%。这表明新的训练策略不仅提升了推理能力,还增强了模型的可靠性。

在模块激活策略的测试中,研究团队发现了一个反直觉的结果:仅训练适配器的效果最好,在所有测试中都取得了最高分数(MMMU 73.6%,MathVista 74.0%,OlympiadBench 62.6%)。这说明问题的关键不在于增强视觉编码能力,而在于改善视觉特征与语言处理之间的"沟通"质量。

研究团队还测试了不同的MPO阈值设置对训练效果的影响。他们发现,较高的阈值(如15)能够带来更稳定的训练过程,而较低的阈值虽然在初期可能表现更好,但容易导致后期的性能衰退。这与他们观察到的"奖励过度优化"现象一致——过分追求某个指标可能会损害模型的整体表现。

七、实际应用场景展示

为了展示R1V2的实际能力,研究团队提供了两个具体的应用案例。第一个案例是中国高考物理题,涉及电磁感应和交流发电机的复杂问题。面对包含两个不同匝数线圈的复杂图表,R1V2能够准确识别关键信息,并运用电磁学原理进行推理。

在这个物理问题中,R1V2展现了系统性的分析能力。它首先识别出线圈匝数的差异(n1 > n2),然后正确地指出感应电流的频率取决于磁芯的转速而非线圈匝数。这种分析过程体现了AI能够区分相关因素和无关因素的能力,而不是简单地进行模式匹配。

第二个案例是中国高考数学题,涉及三维几何中球体和四角锥的体积计算。这类问题需要空间想象能力和精确的数学计算。R1V2采用了建立坐标系的策略,将复杂的三维问题转化为可计算的代数问题。更令人印象深刻的是,它在得出答案后还会主动进行验证:"让我再仔细检查一下步骤,看看是否有错误..."这种自我检查的行为体现了真正的推理思维。

八、技术局限与改进方向

尽管R1V2在推理任务上表现出色,但在一些通用视觉理解任务上仍有改进空间。在文档理解方面,它在AI2D测试中获得81.3%,在ChartQA和TextVQA上分别达到79.0%和相当水平,虽然表现尚可,但与专门优化的模型相比仍有差距。

在视频理解方面,R1V2在VideoMME上获得60.2%,在MVBench上达到61.5%的成绩。值得注意的是,当视频内容需要时序推理时,它的表现会显著提升(在MMBench-Video上获得1.92分,超过了InternVL2.5-38B的1.82分),这再次证明了其在复杂推理任务上的优势。

研究团队坦诚地指出,这种性能分化反映了当前设计中的一个权衡选择。他们有意识地将资源更多地投入到推理能力的提升上,而在通用视觉理解方面做出了一定的妥协。这是一个工程决策,未来的版本将致力于在保持强大推理能力的同时,提升通用视觉理解的表现。

在幻觉控制方面,虽然混合训练方法已经将幻觉率降低到9.1%,但研究团队认为还有进一步改进的空间。他们发现,激进的推理优化初期确实会增加幻觉现象,但通过MPO方法的干预,最终能够有效控制这个问题。在事实准确性测试RealWorldQA上,R1V2达到68.9%的正确率,表明在保持推理能力的同时维持了合理的事实判断水平。

九、对AI发展的启示意义

R1V2的成功提供了几个重要的技术启示。首先,它证明了"慢思考"策略可以成功地扩展到多模态领域,而不必牺牲太多的通用理解能力。这为未来的AI系统设计提供了新的思路——不同类型的智能任务可能需要不同的处理策略,而关键在于找到合适的平衡点。

其次,模块化的架构设计显示了组合不同预训练模型的巨大潜力。通过精心设计的适配层,可以将专门优化的视觉模型和语言模型有机结合,实现"1+1>2"的效果。这种方法不仅提高了开发效率,还为未来的多模态系统提供了可扩展的框架。

第三,混合强化学习方法的成功表明,复杂的AI能力可能需要多种训练策略的协同作用。单一的训练方法往往难以同时优化多个目标,而精心设计的组合策略能够在不同维度上取得更好的平衡。

最后,SSB这样的技术创新解决了强化学习中的实际问题,为其他研究者提供了有价值的工具。这种机制不仅适用于多模态AI,也可能在纯文本或其他类型的AI训练中发挥作用。

R1V2的开源发布也体现了推动AI民主化的重要意义。通过将先进的多模态推理技术开放给研究社区,Skywork团队为全球的AI发展做出了贡献。这种开放策略有助于加速技术创新,同时也为更多开发者提供了构建智能应用的基础工具。

说到底,R1V2代表了开源AI模型在复杂推理能力上的一次重要突破。它不仅在技术层面实现了多项创新,更重要的是证明了开源模型完全有能力在高端AI应用中与商业产品一较高下。随着更多研究团队在这个基础上继续创新,我们有理由相信,AI的"慢思考"能力将变得更加强大和实用,为解决现实世界中的复杂问题提供更好的工具。

对于普通用户而言,这意味着未来的AI助手将能够处理更加复杂的任务,无论是帮助学生解决数学物理难题,还是协助专业人士进行复杂的分析工作。而对于开发者来说,R1V2提供了一个强大的基础平台,可以在此基础上构建各种专业应用。这项研究不仅推动了技术边界,也为AI的普及应用铺平了道路。

Q&A

Q1:什么是"慢思考"AI,它和普通AI有什么区别? A:"慢思考"AI就像考试时会在草稿纸上反复推演的学生,遇到复杂问题时会深思熟虑,而不是立即给出答案。普通AI追求快速响应,"慢思考"AI则更注重推理过程的准确性,在数学和科学问题上表现更好,准确率能提升30%以上。

Q2:Skywork R1V2会不会出现"视觉幻觉"问题? A:研究团队发现过度强化推理能力确实会增加"视觉幻觉"风险,但他们通过混合训练方法将幻觉率控制在9.1%,比传统方法的12.1%有显著改善。系统会通过"质量检查员"机制来平衡推理能力和视觉准确性。

Q3:普通人能使用Skywork R1V2吗?有什么要求? A:可以使用。Skywork团队已经开源了R1V2模型,用户可以通过https://huggingface.co/Skywork/Skywork-R1V2-38B获取。虽然需要一定的技术基础来部署,但这为开发者构建各种智能应用提供了强大的基础工具。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-