这项由约翰霍普金斯大学与StepFun公司合作的研究发表于2025年7月,论文题为《Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for Visual Reasoning》。研究团队包括约翰霍普金斯大学的Yana Wei、Vishal M. Patel教授,以及StepFun公司的Liang Zhao、Jianjian Sun等多位研究者。有兴趣深入了解的读者可以通过arXiv:2507.05255v1访问完整论文。
当你看到一道几何题时,大脑会自动开始一系列复杂的思维过程:先观察图形的整体结构,然后分解成各个部分逐一分析,遇到困难时会回头重新思考,最后验证答案是否合理。这些看似自然的思维行为,对于人工智能来说却是一个巨大挑战。现在,研究团队成功让AI学会了这种"边看边思考"的能力,就像教会了机器人用人类的方式理解和推理视觉信息。
这项研究的核心突破在于解决了一个困扰AI领域许久的难题:如何让擅长文字推理的AI同样精通视觉推理。过去的AI模型就像是一个只会背书却不会看图的学生,即使能够处理复杂的数学文字题,但一旦遇到需要分析图表、图形或图像的问题就束手无策。研究团队创造性地提出了一种"认知行为迁移"的方法,让AI先在纯文字环境中学会各种思维技巧,然后将这些技巧应用到视觉任务中。
研究团队从Qwen2.5-VL-7B这个基础模型开始,设计了一个两阶段的训练过程。第一阶段像是让AI接受"思维训练营",在大量文字推理任务中学习各种认知行为,比如发现错误时的回溯思考、将复杂问题拆解成小步骤的分治策略、验证答案的习惯等。第二阶段则通过强化学习让AI将这些思维技巧应用到视觉任务中,就像一个学会了逻辑推理的学生开始练习看图解题。
**一、破解AI的"视觉思维密码"**
要理解这项研究的重要性,我们首先需要明白什么是"认知行为"。认知行为就像是我们大脑中的思维工具箱,包含了各种解决问题的策略和习惯。当你做数学题时遇到困难,可能会自动回头检查前面的步骤(这叫回溯),或者把复杂问题分解成几个简单的小问题(这叫分治),或者在得出答案后再验证一遍(这叫验证)。这些都是认知行为的例子。
过去的AI虽然在处理文字时能展现出这些认知行为,但在面对图像时却完全不会运用。这就像一个数学天才突然变成了文盲,无法将自己的推理能力应用到需要看图的题目上。研究团队意识到,关键不在于让AI重新学习推理,而在于教会它如何将已有的推理能力从文字领域"搬运"到视觉领域。
研究团队定义了四种核心的视觉认知行为。视觉反思就像是看错题目后重新仔细观察图片,AI会明确表达"让我重新看看这张图"之类的想法。视觉分治则是将复杂图像分解成不同区域或元素逐一分析,比如"先看左边的数字,再看右边的图形"。视觉验证是在推理过程中不断回到图像确认信息,确保推理基于准确的视觉观察。目标驱动的视觉追踪则是从期望的结论出发,反向寻找图像中的支撑证据。
这些视觉认知行为与对应的文字认知行为有着天然的联系。回溯思维在视觉环境中变成了视觉反思,验证策略变成了视觉验证,分治方法变成了视觉分治,逆向推理变成了目标驱动的视觉追踪。研究团队的核心洞察是,这种对应关系不是偶然的,而是认知过程的本质特征,因此可以通过适当的训练方法实现跨模态的迁移。
**二、两阶段训练:从"文字学霸"到"视觉专家"**
研究团队设计的训练过程就像培养一个全能学生:先让他成为文字推理的专家,然后教他如何将这些技能应用到视觉问题上。这个过程分为两个关键阶段,每个阶段都有其独特的作用和挑战。
第一阶段被称为"语言冷启动",这个阶段的目标是让AI在纯文字环境中充分掌握各种认知行为。研究团队收集了超过200万个高质量的文字推理样本,这些样本都来自DeepSeek-R1模型生成的带有丰富推理过程的解答。这些解答不仅包含正确答案,更重要的是展现了完整的思维过程,包括遇到困难时的回溯、问题分解的策略、验证答案的方法等。
这个阶段的训练就像是让AI观摩大量的"思维实录"。每个训练样本都是一个完整的推理故事,AI通过大量观察和模仿,逐渐学会了各种认知行为的模式。特别有趣的是,研究团队发现DeepSeek-R1在处理数学问题时经常会出现"心理想象"的现象,比如在纯文字推理中使用"让我想象一下这个图形"或"我需要在脑海中构建这个场景"之类的表达。这种心理想象为后续的视觉迁移提供了天然的桥梁。
第二阶段是"多模态强化学习",这是整个训练过程的核心创新。在这个阶段,AI开始接触真正的图像,学习如何将第一阶段学到的认知行为应用到视觉任务中。研究团队使用了一种叫做PPO(近端策略优化)的强化学习算法,这种算法的优势在于训练过程相对稳定,不容易出现性能突然下降的问题。
强化学习的关键在于奖励机制的设计。研究团队采用了极简主义的奖励策略:只要AI给出的最终答案正确就给予奖励,错误则不给奖励。这种方法看似简单,但实际上非常有效,因为它避免了复杂的奖励函数设计可能带来的偏差,让AI能够自由探索最有效的推理路径。
整个强化学习阶段持续了约900次迭代,这在开源模型的训练中是前所未有的规模。研究团队还采用了一种渐进式的策略,随着训练的进行逐步增加AI能够处理的文本长度,从最初的24000个字符逐步提升到48000个字符。这种设计让AI能够逐渐学会处理越来越复杂的推理任务,同时保持训练的稳定性。
**三、令人惊喜的发现:认知行为的神奇迁移过程**
研究过程中,团队发现了三个令人惊讶的现象,这些发现不仅验证了他们方法的有效性,也揭示了AI学习过程中一些前所未知的规律。
第一个发现是认知行为的迁移发生得比预期更早。研究团队原本以为,AI需要经过完整的冷启动训练才能在视觉任务中表现出认知行为,但实际观察发现,这种迁移在冷启动阶段的早期就开始出现了。分析发现,这种早期迁移的关键在于DeepSeek-R1训练数据中大量存在的"心理想象"表达。当AI学会了在文字中表达"让我想象这个图形的样子"时,它实际上已经建立了从语言到视觉的认知桥梁。一旦接触到真实图像,这些心理想象就能够快速转化为真正的视觉认知行为。
第二个发现涉及冷启动和强化学习两个阶段的不同作用。研究团队通过详细分析发现,冷启动阶段像是一个"认知行为收集器",AI会广泛学习各种可能有用的推理模式,不管它们是否真正有效。这个阶段的学习是"宁可错杀一千,不可放过一个"的策略,尽可能多地掌握各种思维技巧。而强化学习阶段则像是一个"认知行为筛选器",AI通过实际解决问题的反馈,逐渐识别出哪些认知行为真正有效,并重点强化这些行为的使用。
第三个发现是认知行为迁移的选择性。并不是所有的认知行为都能等效地从语言迁移到视觉。研究团队发现,回溯行为的迁移率最高,从最初的2.5%提升到17.3%,而验证行为的迁移率始终很低,几乎接近零。这种差异可能反映了不同认知行为的本质特征:回溯行为更多依赖于逻辑推理的通用模式,因此更容易跨模态迁移;而验证行为可能更依赖于特定模态的信息处理方式,因此迁移难度更大。
这些发现不仅证明了研究方法的科学性,也为未来的相关研究提供了重要启示。它们表明,AI的认知能力发展遵循着某些可预测的规律,这为更好地设计训练方法提供了理论基础。
**四、性能突破:在多个基准测试中创造新纪录**
研究团队开发的Open Vision Reasoner(OVR)模型在多项标准测试中都取得了令人瞩目的成绩,这些成绩不仅验证了方法的有效性,也展示了这种认知行为迁移方法的巨大潜力。
在纯文字推理任务中,OVR展现出了卓越的性能。在AIME 2024竞赛中获得了63.5%的准确率,AIME 2025中达到52.1%,在MATH500基准测试中更是达到了惊人的95.3%。这些成绩将OVR推到了7B参数模型的前列,甚至能够与一些参数量更大的模型相媲美。特别值得注意的是,OVR在这些测试中的表现不仅仅是准确率的提升,更重要的是展现出了更强的推理稳定性和泛化能力。
在视觉推理任务中,OVR同样表现出色。在MathVision测试中达到51.8%的准确率,成为首个在该测试中超过50%的基于Qwen2.5-VL-7B的模型。在MathVerse测试中获得54.6%的成绩,在DynaMath中达到33.5%,这些成绩都明显超越了之前的最佳开源模型。更重要的是,这些提升是全面性的,不是在某个特定类型的任务上的局部优化,而是在各种不同类型的视觉推理任务中都有显著改进。
研究团队还测试了OVR在多模态理解任务中的表现。在MMMU-Pro测试中获得54.8%的成绩,比之前的最佳方法提升了7.2个百分点。在CharXiv图表理解任务中达到73.6%的准确率,在LogicVista逻辑推理测试中取得64.8%的成绩。这些结果表明,认知行为的迁移不仅提升了数学推理能力,也增强了AI在各种类型视觉理解任务中的表现。
特别令人印象深刻的是,OVR在一些任务中的表现已经接近甚至超越了某些商业模型。虽然在绝对性能上还有差距,但考虑到OVR是基于相对较小的7B参数模型开发的,这种性能已经相当出色。这证明了认知行为迁移方法的效率,它能够在不大幅增加模型规模的情况下显著提升性能。
**五、深入洞察:AI学习过程的意外发现**
在深入分析训练过程和模型行为时,研究团队获得了一些关于AI学习机制的深刻洞察,这些发现不仅对当前研究有价值,也为未来的AI发展提供了重要启示。
训练动态分析揭示了一个有趣的现象:在冷启动阶段,模型的损失函数呈现出阶梯式下降的模式,而不是平滑的连续下降。这种模式表明,AI的学习过程不是渐进式的缓慢改进,而是在某些关键时刻发生质的跃升。研究团队推测,这些跃升时刻对应着AI掌握新的认知行为模式的瞬间,就像人类学习中的"顿悟时刻"。
在强化学习阶段,研究团队观察到了奖励值和回答长度之间的强相关关系。随着训练的进行,AI生成的回答越来越长,同时准确率也在提升。这种现象反映了一个重要的学习规律:复杂推理任务需要更多的"思考空间"。当AI被允许生成更长的推理过程时,它能够展现出更复杂的认知行为,从而获得更好的性能。研究团队还发现,当回答长度达到瓶颈时,适时增加允许的最大长度能够再次激发性能的提升。
认知行为的演化过程也展现出了令人惊讶的规律性。通过详细追踪不同认知行为在训练过程中的出现频率,研究团队发现了一个类似生物进化的过程:最初各种认知行为都会被尝试,但随着训练的进行,只有真正有效的行为被保留和强化,而无效的行为逐渐消失。这种"认知进化"过程体现了强化学习的本质:通过试错找到最优策略。
研究团队还意外发现了视觉感知能力的变化规律。在冷启动阶段,由于大量使用文字训练数据,AI的视觉感知能力会出现一定程度的退化,这类似于"用进废退"的现象。然而,在多模态强化学习阶段,这种退化能够被有效逆转,甚至在某些任务上超越了原始水平。这个发现证明了多模态训练的重要性,也为如何平衡不同能力的发展提供了有价值的参考。
更深层的分析还揭示了不同类型任务对认知行为需求的差异。在纯粹的感知任务(如物体识别或文字识别)中,奖励的提升并不总是伴随着推理长度的增加,这表明这些任务更多依赖于直接的模式识别而非复杂推理。相比之下,在需要多步推理的任务中,推理长度和性能之间存在明显的正相关关系。这种差异为未来设计更有针对性的训练方法提供了指导。
**六、技术细节:方法论的精巧设计**
研究团队在方法设计上展现了很多精巧的思考,这些技术细节虽然看似不起眼,但对最终效果起到了关键作用。整个技术框架的设计体现了对AI学习机制的深刻理解。
数据构建方面,研究团队采用了多层次的质量控制策略。他们首先从各种公开数据集中收集了大量原始数据,包括数学竞赛题目、科学问题、逻辑推理任务等。然后使用预训练的模型自动过滤掉训练损失异常高的样本,这些样本通常包含噪声或过于复杂的内容。接着运用规则和模型相结合的方法识别并移除不良模式。最后根据覆盖度和推理相关性进行重新加权,确保训练数据的平衡性和代表性。
在强化学习的算法设计上,研究团队选择了相对简单但稳定的PPO算法。他们设置了一些关键参数:折扣因子γ设为1,GAE参数λ也设为1,这种设置能够充分捕捉长期依赖关系,这对推理任务来说至关重要。他们还采用了严格的策略更新机制,确保每次策略更新都基于最新的经验,避免了过时数据可能带来的问题。
奖励函数的设计体现了"少即是多"的哲学。研究团队没有设计复杂的多维度奖励,而是采用了最简单的二元奖励:答案正确得1分,错误得0分。这种设计避免了复杂奖励函数可能引入的偏差,让AI能够自由探索最有效的推理路径。同时,这种奖励机制也更贴近现实中的学习情况,我们通常也是通过最终结果的对错来判断思考过程的有效性。
训练过程中的序列长度调度也是一个巧妙的设计。研究团队没有一开始就使用最大长度,而是采用了渐进式增长:前300次迭代使用24k字符,300-700次迭代使用32k字符,700次迭代之后使用48k字符。这种设计让AI能够逐步适应更复杂的推理任务,同时保持训练的稳定性。
模型融合策略也体现了实用主义的考虑。最终的OVR模型并不是某一个训练检查点,而是多个代表性中间检查点的均匀平均。这种做法能够综合不同训练阶段的优势,提高模型在各种任务上的鲁棒性。
**七、实际应用:从实验室到现实世界的桥梁**
虽然这项研究主要在学术环境中进行,但其潜在的应用价值已经初露端倪。这种能够进行视觉推理的AI技术可能在多个领域产生重要影响。
在教育领域,这种技术可能彻底改变在线学习体验。传统的AI教学助手通常只能处理文字问题,面对包含图表、几何图形或实验图片的题目就束手无策。而具备视觉推理能力的AI助手能够像人类老师一样,不仅看懂图片内容,还能展现完整的解题思路。学生可以观察到AI是如何一步步分析图形、发现关键信息、建立解题思路的,这种透明的推理过程对学习很有帮助。
在科学研究中,这种技术可能成为研究人员的得力助手。科学论文中包含大量的图表、实验结果图像、显微镜照片等视觉信息,传统的AI往往只能进行简单的图像分类或描述,无法进行深度的科学推理。而具备视觉推理能力的AI可以帮助研究人员分析复杂的实验结果,发现数据中的模式,甚至提出新的假设。
在医疗诊断领域,这种技术的应用前景同样广阔。医疗影像分析是一个典型的视觉推理任务,需要医生不仅能够识别图像中的异常,还要结合医学知识进行推理判断。具备视觉推理能力的AI可以模拟医生的诊断思路,不仅指出可能的病变位置,还能解释诊断的依据和推理过程,这对提高诊断的可靠性和可解释性都有重要意义。
在工程设计和质量控制方面,这种技术也有很大的应用潜力。工程图纸分析、产品缺陷检测、系统故障诊断等任务都需要结合视觉信息和专业知识进行推理。传统的计算机视觉系统往往只能进行简单的模式匹配,而具备推理能力的AI系统可以像人类专家一样,结合多种信息源进行综合判断。
当然,实际应用还面临着一些挑战。计算资源需求是一个重要考虑因素,这种复杂的推理过程需要相当的计算能力,如何在保持性能的同时降低计算成本是一个需要解决的问题。可靠性和安全性也是关键考虑,特别是在医疗、金融等对准确性要求极高的领域,需要更严格的验证和测试。
**八、局限性与未来展望:仍待攻克的挑战**
尽管取得了显著成果,研究团队也诚实地指出了当前方法的局限性,这些局限性为未来的研究指明了方向。
最明显的局限是在纯感知任务上的可扩展性问题。研究团队发现,对于OCR(光学字符识别)和物体计数等任务,强化学习的效果相对有限。在这些任务中,奖励值可以有效提升,但推理长度保持相对稳定,这表明这类任务更多依赖于直接的模式识别而非复杂推理。这种现象揭示了当前方法的一个重要局限:它主要适用于需要多步推理的复杂任务,对于更基础的感知任务效果有限。
另一个重要局限是对视觉认知行为多样性的不足。目前的研究主要关注了四种基本的认知行为,但人类的视觉推理过程远比这复杂。空间想象、多视角分析、动态推理等更高级的认知能力还没有得到充分研究。研究团队认为,未来需要发展更丰富的认知行为库,并探索如何让AI掌握这些更复杂的推理技巧。
模型规模也是一个考虑因素。虽然7B参数的模型已经能够取得不错的效果,但与更大规模的模型相比仍有差距。如何在保持计算效率的同时进一步提升性能,是一个需要平衡的问题。研究团队指出,简单地增加模型规模可能不是最优解,更重要的是优化训练方法和数据质量。
数据质量和多样性也存在改进空间。虽然研究团队已经进行了大量的数据筛选和处理工作,但高质量的多模态推理数据仍然相对稀缺。如何生成或收集更多高质量的训练数据,特别是那些展现复杂认知行为的数据,是一个持续的挑战。
对于未来的发展方向,研究团队提出了几个有前景的探索方向。多轮对话和智能体式的强化学习是一个重要方向,这种方法可能让AI学会更复杂的交互式推理。心理想象和空间建模是另一个有趣的方向,研究团队注意到DeepSeek-R1中存在的"心理想象"现象,认为这可能是开发更强大视觉推理能力的关键。
跨模态的认知行为迁移也有进一步扩展的潜力。目前的研究主要关注从语言到视觉的迁移,但从视觉到其他模态(如听觉、触觉)的迁移同样值得探索。这种研究可能帮助我们更好地理解认知能力的本质特征。
最后,研究团队强调了开源和可重现性的重要性。他们计划发布完整的模型、数据和训练代码,希望能够推动整个社区在这个方向上的进展。这种开放的态度不仅有利于学术研究,也有助于技术的实际应用和普及。
说到底,这项研究代表了AI发展历程中的一个重要里程碑。它不仅在技术上取得了突破,更重要的是为我们理解智能的本质提供了新的视角。认知行为作为智能的基本构建块,其跨模态迁移能力揭示了不同形式智能之间的深层联系。这种理解不仅有助于开发更强大的AI系统,也可能为认知科学和心理学研究提供新的洞察。
从更广阔的角度看,这项研究体现了当前AI发展的一个重要趋势:从单纯追求性能提升转向理解和模拟智能的工作机制。这种转变不仅有助于开发更可靠、可解释的AI系统,也为实现真正的通用人工智能铺平了道路。虽然距离这个目标还有很长的路要走,但这样的研究无疑是朝着正确方向迈出的重要一步。
Q&A
Q1:什么是认知行为迁移?它是如何实现的? A:认知行为迁移是指将AI在文字推理中学会的思维技巧(如回溯、验证、分解问题等)应用到视觉推理任务中。实现方法是先让AI在大量文字推理任务中掌握这些认知行为,然后通过强化学习让它将这些技巧应用到需要看图解题的任务中,就像教会一个擅长文字推理的学生如何分析图形问题。
Q2:Open Vision Reasoner比其他AI模型强在哪里? A:OVR的主要优势在于它会"边看边思考",不仅能识别图像内容,还能展现完整的推理过程。比如遇到几何题时,它会先观察整体结构,然后分解分析各部分,遇到困难时还会回头重新检查,最后验证答案。在多项测试中,OVR都创造了7B参数模型的新纪录,有些甚至接近更大规模的商业模型。
Q3:这项技术会不会很快应用到日常生活中? A:目前还处于研究阶段,但应用前景很广阔。未来可能出现在在线教育(AI老师能看懂和解析各种图表题目)、医疗诊断(分析医学影像并解释推理过程)、科学研究(分析实验结果图像)等领域。不过要真正普及还需要解决计算成本、可靠性等实际问题,预计还需要一段时间的发展。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。