微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 AI视觉推理新突破:中国团队让机器像人一样"慢思考",仅用5千个文本案例就追平顶级商业系统

AI视觉推理新突破:中国团队让机器像人一样"慢思考",仅用5千个文本案例就追平顶级商业系统

2025-09-15 11:06
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-15 11:06 科技行者

这项令人振奋的研究来自中国人民大学高瓴人工智能学院、百川智能以及北京智源人工智能研究院的合作团队。论文由杜亦凡、刘子康、李亦凡等研究人员共同完成,其中赵鑫教授为通讯作者。研究成果于2025年2月发表在arXiv预印本平台(论文编号:arXiv:2501.01904v2),感兴趣的读者可以通过https://github.com/RUCAIBox/Virgo获取相关资源和代码。

人工智能正在经历一场悄然而深刻的变革。就像人类在面对复杂问题时会停下来仔细思考一样,最新的AI系统也开始学会"慢思考"。当我们遇到一道复杂的数学题时,不会立即给出答案,而是会在脑海中反复推演、验算、检查,这种思维过程被称为"慢思考"。近期,OpenAI的o1模型和其他一些商业系统已经在文字处理方面展现出了这种能力,它们能够像人类一样进行长时间的推理思考。

然而,当涉及到既需要"看"又需要"想"的视觉推理任务时,情况就变得复杂多了。比如解一道几何题,AI不仅需要理解图形,还要进行复杂的数学推理。这就好比一个人既要当翻译官又要当数学家,难度可想而知。

正是在这样的背景下,中国研究团队开发出了名为Virgo(Visual reasoning with long thought,视觉长思维推理)的系统。这个系统最令人惊讶的地方在于,研究团队发现了一个几乎违反直觉的现象:要让AI在视觉推理上变聪明,最有效的方法竟然不是给它看大量的图片和推理过程,而是让它学习纯文字的思考案例。

这种发现就像发现学钢琴最好的方法不是反复练习钢琴,而是先学会读谱和理解音乐理论一样令人意外。研究团队仅仅使用了大约5000个纯文字的思维推理案例,就让Virgo在多个极具挑战性的视觉推理测试中达到了与顶级商业系统相当甚至更好的表现。

这一发现的重要性不仅仅在于技术突破本身,更在于它揭示了AI思维能力的一个深层规律:推理能力具有跨模态的通用性。换句话说,在文字世界中培养的思考技巧,可以无缝转移到视觉理解中。这为未来AI系统的训练提供了一条更加经济高效的路径。

一、突破传统认知:纯文本训练缔造视觉推理奇迹

要理解这项研究的革命性意义,我们首先需要明白什么是"慢思考"AI系统。传统的AI就像一个训练有素的客服人员,无论你问什么问题,它都会立即给出答案。而慢思考AI更像一位深思熟虑的专家,它会先在"脑海"中进行长时间的分析、推理、验证,然后才给出最终答案。

以解决一道复杂的几何题为例,传统AI可能会这样工作:看到题目,直接计算,给出答案。而慢思考AI的工作过程则完全不同:它会首先仔细观察图形,描述看到的内容,然后分析题目要求,制定解题策略,逐步进行计算,甚至还会回头检查自己的推理过程是否正确。

研究团队面临的核心问题是:如何让AI系统在处理视觉问题时也能进行这样的深度思考?按照常理,最直接的方法应该是收集大量包含图片的推理案例,让AI学习如何在看图的同时进行思考。但这种方法成本极高,需要人工标注大量的视觉推理过程,而且效果往往不尽如人意。

研究团队选择了一条完全不同的道路。他们大胆假设:既然多模态大语言模型(MLLM)的推理能力主要来自其语言模型核心,那么纯文字的推理训练应该也能提升视觉推理能力。这就好比认为一个人的逻辑思维能力是通用的,无论是分析文字材料还是解读图表,用的都是同一套思维方法。

为了验证这个假设,研究团队从DeepSeek-R1-Lite-Preview和QwQ-32B-preview两个开源的慢思考系统中收集了大约5000个高质量的文本推理案例。这些案例涵盖了数学、科学、编程和逻辑推理等多个领域,其中数学领域的案例占大多数,因为数学问题通常需要更长的推理过程。

每个训练案例都包含两个部分:思考过程和最终解答。思考过程就像是AI的"内心独白",记录了它从理解题目到得出结论的整个心路历程,用特殊的标记符号包围起来。最终解答部分则是经过深思熟虑后给出的正式回答。

接下来,研究团队选择了Qwen2-VL-72B-Instruct作为基础模型。这个选择很有讲究:它需要足够强大以支撑复杂的推理任务,同时在视觉理解方面已有良好的基础。训练过程相对简洁:只更新语言模型和跨模态连接器的参数,而视觉编码器保持不变,学习率设为7e-6,批次大小为128,训练10个轮次后选择第5个轮次的模型作为最终版本。

这种训练策略的巧妙之处在于,它没有试图从零开始教会AI如何"看",而是专注于提升AI的"思考"能力。就像给一个已经会开车的人培训高级驾驶技巧一样,重点是提升判断和决策能力,而不是重新学习基础操作。

令人惊喜的是,这种看似简单的方法取得了出人意料的效果。在四个极具挑战性的评测基准上,Virgo都表现出色。以MathVision数学视觉推理测试为例,基础模型的准确率只有26.1%,而经过文本推理训练的Virgo准确率达到了38.8%,提升了近13个百分点。更让人震惊的是,在最困难的OlympiadBench奥林匹克竞赛级别测试中,Virgo的表现从11.2%跃升到29.9%,提升了18个百分点以上。

这些数字背后的意义远比表面看起来更重要。它们证明了一个重要理论:推理能力确实具有跨模态的通用性。无论是处理文字还是图像,AI使用的都是同一套底层的逻辑思维框架。这一发现为AI系统的训练开辟了新的可能性,使得我们可以用更经济的方式构建更强大的多模态AI系统。

二、深入机制探索:文本推理如何点亮视觉智能

为了更全面地验证文本推理训练的效果,研究团队还探索了另一条技术路线:直接从现有的视觉慢思考系统中提取推理案例。这就好比既可以通过阅读推理小说来培养逻辑思维,也可以通过观摩真实的案例分析来学习。

在视觉推理数据的构建上,研究团队展现了严谨的科学态度。他们精心挑选了八个不同领域的数据集,涵盖几何学、表格图表分析和物体识别等多个方面。具体来说,几何领域包括Geos、GeoQA+、Geometry3K和UniGeo四个数据集,表格图表领域包括TabMWP、FigureQA和ChartQA三个数据集,还有一个专门的物体识别数据集CLEVR。每个数据集都提供了数百个精心标注的问题,总计超过4000个视觉推理案例。

在生成视觉推理过程时,研究团队采用了两种策略。第一种是直接使用商业化的QVQ系统来生成推理轨迹,就像请一位经验丰富的老师来示范解题过程。第二种更有创意:使用已经经过文本推理训练的Virgo模型来进行"自我蒸馏",让它为视觉问题生成推理过程。这种做法的巧妙之处在于形成了一个自我改进的循环:文本训练提升推理能力,推理能力反过来帮助生成更好的视觉推理案例,而这些案例又能进一步提升系统的表现。

为了确保训练数据的质量,研究团队设定了严格的筛选标准。他们使用随机采样的方法让模型多次尝试解决同一个问题,只保留那些能够在合理尝试次数内正确解决的问题。这种做法确保了训练数据既有一定的难度,又在模型的能力范围之内,避免了过于简单或过于困难的极端情况。

实验结果显示了一个有趣的现象:纯文本推理训练的效果往往优于或至少不逊于视觉推理数据的训练效果。在多个测试中,仅使用5000个文本案例训练的模型表现甚至超过了使用6600个视觉案例训练的模型。这个发现进一步证实了研究团队的核心假设:推理能力的核心在于逻辑思维框架,而不在于具体的输入模态。

更深入的分析揭示了这种现象背后的原因。研究团队发现,许多看似需要复杂视觉推理的问题,实际上更多依赖感知能力而非推理能力。比如一个简单的图表读数问题,主要挑战在于准确识别数字,而不是进行复杂的逻辑推理。相比之下,纯文本的数学问题往往包含更长、更复杂的推理链条,为AI提供了更好的推理训练素材。

研究团队还尝试了混合训练策略,即同时使用文本和视觉推理数据进行训练。结果显示,这种方法能够在一定程度上结合两种数据类型的优势,但改进效果相对有限。这进一步证明了文本推理训练已经能够有效地提升视觉推理能力,额外的视觉数据主要起到补充作用。

为了验证方法的普适性,研究团队还在规模更小的7B参数模型上重复了实验。结果显示,在小模型上,视觉推理数据的效果相对更好,特别是在某些特定任务上。这个发现提示我们,模型规模可能会影响不同训练策略的有效性。对于计算资源有限的应用场景,混合使用文本和视觉推理数据可能是更好的选择。

这些实验不仅验证了核心方法的有效性,更重要的是为我们理解AI推理能力的本质提供了宝贵的洞察。它们表明,推理能力更多是一种抽象的认知技能,而不是依赖特定输入模态的专门技术。这为未来开发更加通用、更加高效的AI推理系统指明了方向。

三、细致入微的性能解剖:数据背后的深层洞察

为了深入理解Virgo系统的能力边界和工作机制,研究团队进行了一系列精心设计的分析实验,就像医生为病人做全面体检一样,每个细节都不放过。

首先,研究团队发现了一个引人深思的规律:越困难的任务,越能从慢思考训练中获益。他们通过分析不同测试任务中AI生成回答的平均长度发现,那些需要更长推理过程的任务往往也是AI提升最明显的任务。比如在奥林匹克竞赛级别的OlympiadBench测试中,AI的回答平均长度最长,同时性能提升也最为显著。相比之下,在相对简单的MMMU测试中,AI的回答较短,性能提升也相对有限。

这个发现就像揭示了一个学习规律:对于需要深度思考的复杂问题,系统性的推理训练能够带来显著的改进;而对于主要依赖记忆或简单判断的问题,推理训练的作用就比较有限。这也解释了为什么Virgo在某些测试中的表现令人印象深刻,而在另一些测试中的改进则相对温和。

为了进一步验证这个假设,研究团队对MMMU测试进行了更细致的分析。他们按照问题难度将测试样本分为简单、中等和困难三个等级。结果发现,在困难问题上,Virgo的准确率达到54.7%,明显超过了商业系统QVQ的48.6%。而在简单和中等难度的问题上,Virgo的表现则略逊于QVQ。这个现象进一步证实了慢思考训练对复杂推理任务的特殊价值。

接下来,研究团队探索了训练数据的推理长度对系统性能的影响。他们将文本推理案例按照长度分为三个区间:短推理(2000字符以内)、中等推理(2000-4000字符)和长推理(4000-8000字符),分别训练不同的模型版本。结果显示,使用中等长度推理数据训练的模型表现最好,而使用过长推理数据的模型性能反而有所下降。

这个发现很有启发性。就像烹饪时火候的把控一样,推理过程也需要恰到好处的"火候"。过短的推理过程可能无法充分展现复杂的思维链条,而过长的推理过程则可能包含冗余信息,甚至误导模型学习。研究团队通过分析发现,过长的推理案例主要集中在数学领域,这些案例虽然展现了详尽的计算过程,但对于视觉推理任务来说可能过于复杂,超出了实际需要的推理深度。

在数据规模的影响方面,研究团队进行了系统性的规模实验。他们分别使用1000、3000和5000个文本推理案例进行训练,观察性能随数据量的变化趋势。结果显示,增加训练数据量通常能够带来性能提升,但不同任务的敏感度不同。比如在MathVision测试中,从1000个案例增加到5000个案例,72B模型的性能提升了约8个百分点,而7B模型的提升幅度相对较小。

一个特别有趣的观察是关于视觉推理数据难度的影响。研究团队尝试了三种不同难度级别的视觉推理数据:中等难度(基础模型能在多次尝试中大部分时候解决)、高难度(基础模型只能偶尔解决)和随机难度(不考虑基础模型的解决能力)。令人意外的是,这三种不同难度的数据在最终的模型性能上没有显示出显著差异。

这个结果提示我们,对于视觉推理训练来说,数据的质量可能比难度分布更重要。换句话说,关键不在于问题有多难,而在于推理过程有多清晰、多完整。这为未来的数据构建策略提供了重要指导:与其花大量精力去平衡数据难度,不如专注于确保每个推理案例都能提供清晰、有价值的思维示范。

研究团队还分析了不同领域训练数据的贡献。他们发现数学领域的推理案例占了训练数据的绝大部分,这主要是因为数学问题往往需要更长、更复杂的推理过程。科学、编程和逻辑推理等其他领域虽然案例数量较少,但也为模型提供了多样化的推理模式。这种多样性可能是模型能够成功迁移到视觉推理任务的关键因素之一。

通过这些详细的分析,研究团队不仅验证了方法的有效性,更重要的是深入理解了影响系统性能的各种因素。这些洞察为未来开发更高效的多模态推理系统提供了宝贵的指导原则,也为其他研究团队复现和改进这一方法奠定了坚实基础。

四、实战案例解析:AI思维过程的精彩展示

为了让读者更直观地理解Virgo系统的工作原理和能力表现,研究团队提供了几个典型的案例分析,就像解剖麻雀一样,让我们看清AI思维的每一个细节。

第一个案例展示了Virgo的成功表现。这是一道关于计算三个半圆积分的数学题,题目给出了一个包含三个不同大小半圆的图形。传统的基础模型在解决这个问题时,直接开始计算每个半圆的半径和圆心,但在确定圆心位置时出现了错误,最终得出了错误的答案18π。

相比之下,经过慢思考训练的Virgo展现了完全不同的解题策略。它首先花时间仔细观察和描述图形:"我看到这个图形包含三个半圆,x轴范围从0到12,y轴高度达到5。每个半圆都标有不同的数学表达式,最小的在左边标记为√(2x-x?),中间的标记为√(-12+8x-x?),最大的在右边标记为√(-72+18x-x?)。"

接下来,Virgo开始了系统性的数学分析。它将第一个表达式√(2x-x?)重新整理为√(1-(x-1)?)的形式,从而识别出这是一个以(1,0)为圆心、半径为1的半圆。对于其他两个半圆,它同样进行了仔细的代数变换和分析。

更令人印象深刻的是,Virgo还表现出了自我反思的能力。在完成初步计算后,它会回头检查自己的推理过程:"让我再次确认一下我的理解是否正确。题目要求使用圆的公式来计算积分,这意味着我需要找到每个半圆的面积,然后求和。"最终,它正确地得出了答案7π。

这个案例完美展示了慢思考训练带来的三个关键能力提升:详细的视觉描述能力、系统性的数学推理能力,以及自我检查和验证的元认知能力。这些能力的结合使得AI不仅能够解决复杂问题,更重要的是能够以人类可以理解和信任的方式解决问题。

然而,研究团队也诚实地展示了Virgo的局限性。第二个案例是一道关于失业统计图表的分析题,要求找出高中毕业生和未完成高中学业人员失业人数差距最小的月份。在这个问题上,Virgo犯了一个典型的错误:感知错误导致推理失败。

具体来说,Virgo错误地读取了9月份未完成高中学业人员的失业人数,将其误认为11万而不是正确的8万。基于这个错误的感知,它进行了完全正确的推理过程,甚至表现出了自我质疑的能力:"从这个分析来看,8月和9月的差距都是最小的,这似乎有些奇怪,让我重新检查一下我的推理过程。"

但是,关键的问题在于,Virgo只检查了推理逻辑,而没有重新审视自己的感知结果。它重复了相同的感知错误,最终得出了错误的结论。这个案例揭示了当前慢思考系统的一个重要局限:它们在推理逻辑方面表现出色,但在感知反思方面还有待提升。

这种局限性的根源可以追溯到训练数据的特点。由于Virgo主要使用纯文本推理数据进行训练,它学会了如何进行深度的逻辑思考,但没有充分学会如何质疑和重新审视视觉感知结果。这就像一个数学天才,在逻辑推理方面无懈可击,但在读题和理解题意方面可能还会犯错误。

这些案例分析不仅展示了Virgo的能力和局限,更重要的是为未来的改进方向提供了明确的指导。它们表明,下一代多模态慢思考系统需要在保持强大推理能力的同时,发展出更强的感知反思能力,能够像人类一样不仅质疑自己的推理过程,也质疑自己的观察和理解。

通过这些具体而生动的案例,我们可以看到AI推理能力的发展既令人鼓舞又任重道远。每一个成功的案例都展示了AI在模拟人类思维方面取得的进步,而每一个失败的案例都为我们指明了继续努力的方向。这种诚实而全面的分析正是科学研究的价值所在:不仅要展示成就,更要指出问题,为后续的发展铺平道路。

五、技术影响与未来展望:开启AI推理新纪元

这项研究的意义远远超越了技术本身的突破,它实际上为整个AI领域提出了一个全新的思考框架:推理能力的模态无关性。这个发现就像发现了学习能力的底层规律,告诉我们思维技能是可以跨领域迁移的通用能力。

从实用角度来看,这项研究为AI系统的开发提供了一条更加经济高效的路径。传统上,要让AI具备视觉推理能力,需要收集大量昂贵的标注数据,每个样本都需要专业人员精心设计视觉推理过程。而Virgo证明了,仅仅使用相对容易获得的文本推理数据,就能达到相当甚至更好的效果。这就像发现了一条通往目的地的高速公路,不仅更快,成本也更低。

在商业应用层面,这种方法的潜力巨大。教育技术公司可以利用这种技术开发更智能的在线辅导系统,能够像优秀的家教一样,不仅给出答案,还能展示完整的解题思路。医疗诊断领域也可能受益于这种技术,AI系统可以在分析医学影像时展现详细的推理过程,帮助医生更好地理解和验证诊断结果。

科学研究领域同样充满机遇。研究人员可以利用这种技术开发智能助手,帮助分析复杂的实验数据和图表。这些助手不仅能提供分析结果,还能展示推理过程,让研究人员更好地理解数据背后的含义。在工程设计领域,AI可以协助分析技术图纸和设计方案,提供详细的评估意见和改进建议。

然而,研究团队也清醒地认识到当前方法的局限性。最主要的问题是感知反思能力的不足。当前的系统虽然在逻辑推理方面表现出色,但在重新审视和纠正感知错误方面还有很大改进空间。这就像一个逻辑思维很强但观察不够仔细的学生,需要在观察技能方面进一步训练。

为了解决这个问题,未来的研究可能需要开发更加综合的训练策略。一种可能的方向是引入专门的感知反思训练数据,教会AI系统如何质疑和验证自己的观察结果。另一种可能是开发多阶段的推理框架,让AI系统在推理过程中多次回到感知层面进行验证。

从更宏观的角度看,这项研究揭示了AI能力发展的一个重要规律:高级认知技能往往具有跨模态的通用性。这个发现可能会影响未来AI系统的架构设计。与其为每种模态单独开发专门的推理模块,不如开发通用的推理引擎,然后通过适当的接口连接到不同的感知模块。

在数据效率方面,这项研究也开辟了新的可能性。它表明,我们可能不需要为每种新的应用场景都收集大量的专门训练数据。相反,通过在一个领域培养的推理能力可以有效迁移到其他领域。这种发现对于资源有限的研究机构和初创公司来说具有特别重要的意义。

当然,这项研究也提出了一些值得深入思考的问题。比如,推理能力的迁移是否有边界?什么类型的推理技能最容易跨模态迁移?如何才能更好地平衡推理能力和感知能力的发展?这些问题的答案将决定未来多模态AI系统的发展方向。

研究团队在论文中坦承,当前的工作还只是初步探索。未来需要在更大规模的数据集上验证方法的有效性,也需要探索更多样化的应用场景。同时,如何将这种方法与其他AI技术相结合,开发出更加强大和实用的系统,也是一个值得探索的方向。

说到底,这项研究最重要的贡献不仅仅是提出了一种新的训练方法,更是为我们理解AI智能的本质提供了新的视角。它告诉我们,智能可能不是模态特异的技能集合,而是更加抽象和通用的认知能力。这种理解可能会深刻影响未来AI系统的设计理念,推动我们朝着更加通用、更加高效的人工智能目标前进。这项研究就像在AI发展的道路上点燃了一盏明灯,照亮了前进的方向,也让我们对未来充满了期待。

Q&A

Q1:Virgo系统是什么?它有什么特殊能力?

A:Virgo是中国研究团队开发的视觉推理AI系统,它最特殊的能力是仅通过学习纯文本推理案例就能在视觉推理任务上表现出色。就像一个只读过推理小说的人也能成为优秀的案例分析师一样,Virgo用5000个文本推理案例就达到了与顶级商业AI系统相当的视觉推理水平。

Q2:为什么文本训练比视觉训练更有效?

A:研究发现推理能力具有跨模态的通用性,就像逻辑思维技能是通用的一样。文本推理案例通常包含更长、更复杂的思维链条,为AI提供了更好的推理训练素材。而许多视觉问题实际上更依赖感知能力而非推理能力,所以纯文本的深度推理训练反而能更好地提升AI的思考能力。

Q3:Virgo在哪些测试中表现最好?有什么局限性?

A:Virgo在需要复杂推理的任务中表现最出色,比如在奥林匹克竞赛级别的OlympiadBench测试中准确率从11.2%提升到29.9%。但它的主要局限是缺乏感知反思能力,虽然逻辑推理很强,但在重新检查视觉观察结果方面还有不足,可能因为看错图表数据而推出错误结论。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-