微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 香港科技大学团队突破性发现:AI视觉模型也能像人一样推理数学题!

香港科技大学团队突破性发现:AI视觉模型也能像人一样推理数学题!

2025-07-09 15:44
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-09 15:44 科技行者

这项由香港科技大学的张景涵、何俊贤教授,联合香港城市大学的陈诗淇、新加坡国立大学的朱同耀、熊淼,以及西北大学的李曼玲等研究者共同完成的突破性研究,于2025年5月发表在第41届机器学习国际会议(ICML 2025)上。有兴趣深入了解的读者可以通过论文代码库 https://github.com/shiqichen17/VLM_Merging 访问完整研究内容。

这项研究解决了一个困扰AI领域已久的问题:为什么那些能"看懂"图片又能"理解"文字的AI模型,在处理数学推理题时表现却差强人意?就像一个学生虽然能看懂题目中的图表,也认识所有的文字,但就是不会做数学题一样。研究团队发现了一个巧妙的解决方案——通过"模型融合"技术,把专门擅长数学推理的语言模型的"数学天赋"移植到视觉语言模型中,让它们既保持原有的"视觉理解"能力,又获得强大的"数学推理"能力。

这个发现的意义不仅在于技术突破,更在于它为我们理解AI的内在工作机制打开了一扇新窗户。研究团队通过深入分析发现,AI模型就像人的大脑一样,不同的"技能"存储在不同的"区域"——视觉感知能力主要集中在神经网络的前层,而数学推理能力则藏在中后层。这一发现不仅帮助我们更好地理解AI的工作原理,也为未来设计更强大的AI系统提供了重要指导。

一、AI的"偏科"难题:看得懂却算不对

当前的视觉语言模型就像一个聪明但"偏科"的学生。它们在处理日常的视觉问答任务时表现出色,能够准确识别图片中的物体、理解场景内容,甚至回答关于图片的复杂问题。然而,一旦遇到需要数学推理的视觉问题,比如分析图表中的数据趋势、计算几何图形的面积,或者解决包含图像的数学应用题,这些模型就开始"掉链子"了。

这种现象的根本原因在于训练数据的稀缺性。相比于纯文本的数学推理数据,包含视觉元素的数学推理数据极其有限。这就像让一个只在室内练习过的篮球运动员突然到户外比赛,环境的变化让原本熟练的技能变得生疏。更进一步说,即使有足够的多模态数学数据,从零开始训练一个既能"看"又能"算"的模型,所需的计算资源和时间成本也是天文数字。

与此形成鲜明对比的是,纯文本的大语言模型在数学推理方面已经取得了令人瞩目的进展。这些模型能够处理复杂的数学证明、解决多步骤的代数问题,甚至进行高级的逻辑推理。这种反差让研究者们开始思考:能否找到一种方法,把语言模型的数学推理能力"转移"到视觉语言模型中,而不需要从头开始训练?

二、模型融合:AI界的"技能移植手术"

研究团队提出的解决方案可以比作一种精妙的"技能移植手术"。在医学中,器官移植需要仔细匹配供体和受体,确保移植后的器官能够正常工作。在AI模型中,这个过程同样需要精确的"手术"技巧。

模型融合的核心思想建立在一个重要假设之上:如果两个模型都是从同一个"基础模型"出发,通过不同的训练任务发展出各自的专长,那么它们在参数空间中应该存在某种可连接性。这就像两个从同一所大学毕业的学生,一个成为了画家,另一个成为了数学家,虽然专业不同,但他们的基础知识结构有相通之处。

具体的操作过程可以这样理解:研究团队首先提取每个模型相对于基础模型的"差异向量",这个向量记录了模型在特定训练过程中学到的所有变化。接下来,他们使用加权平均的方法,将视觉语言模型的"视觉理解能力"和数学专业模型的"推理能力"按照一定比例混合。这个过程不需要任何额外的训练,就像调制鸡尾酒一样,通过精确的配比创造出全新的"口味"。

权重参数的选择至关重要。研究团队通过大量实验发现,当给视觉语言模型分配90%的权重,给数学推理模型分配10%的权重时,能够达到最佳的平衡效果。这个比例既保持了原有的视觉理解能力,又成功注入了数学推理能力。

三、实验验证:从理论到实践的华丽转身

为了验证这种"技能移植"方法的有效性,研究团队设计了一系列全面的实验。他们选择了三个代表性的视觉语言模型作为"患者":LLaVA-Next、Idefics2和InternVL2,这些模型的规模从8B到76B参数不等,代表了当前技术的不同层次。

作为"供体"的数学推理模型同样经过精心挑选,包括Dart-Math、MetaMath、MAmmoTH等专门针对数学问题训练的语言模型。这些模型就像不同专科的医生,各自在特定的数学领域有着深度的专业知识。

实验结果令人振奋。以LLaVA模型为例,在与Dart数学模型融合后,它在MathVista数学相关子集上的表现提升了3.6个百分点,在MathVerse的纯视觉模式下也获得了1.4个百分点的提升。更令人惊喜的是,即使在题目完全以图像形式呈现的情况下,融合后的模型依然能够展现出更强的推理能力。

这种改进并非偶然现象。研究团队在多个不同的基准测试中都观察到了一致的性能提升,证明了方法的普适性和稳定性。特别值得注意的是,对于那些主要依赖视觉感知的任务,融合过程几乎没有造成性能损失,说明"手术"过程非常精准,没有"误伤"到原有的能力。

四、深入内部:AI大脑的"功能分区"地图

这项研究最令人兴奋的发现之一,是首次揭示了视觉语言模型内部的"功能分区"。就像人类大脑中不同区域负责不同功能一样,AI模型的不同层次也承担着截然不同的任务。

通过一系列巧妙的"敲除实验",研究团队绘制出了AI模型的功能地图。他们发现,模型的前几层主要负责视觉感知和基础的世界知识处理,这些层次就像大脑的视觉皮层,专门处理来自"眼睛"的信息。当这些层次被干扰时,模型在识别图像内容和回答基础视觉问题方面会出现明显困难。

相比之下,模型的中后层则承担着更加抽象和复杂的推理任务。数学推理能力主要集中在这些深层网络中,它们负责进行多步骤的逻辑推导、数值计算和抽象概念的操作。这种分工模式与人类认知过程有着惊人的相似性——我们也是先通过感官收集信息,然后在大脑的高级区域进行复杂的推理和判断。

模型融合过程的分析揭示了另一个有趣现象:融合后的模型在几乎所有层次都获得了增强的数学推理能力,而视觉感知能力的分布基本保持不变。这说明数学推理能力的注入是全方位的,就像给整个神经网络都安装了"数学思维模块",而不仅仅是在特定层次进行局部改进。

五、推理能力的量化证据:从简短回答到深度思考

研究团队还发现了一个意想不到的现象:融合后的模型在回答数学问题时,答案长度显著增加,这直接反映了推理能力的提升。这种变化不是简单的"话变多了",而是模型开始展现出类似人类的"思考过程"。

在几何推理、代数计算等需要多步骤思考的任务中,融合后的模型能够生成详细的解题步骤,就像一个细心的数学老师在黑板上一步步展示解题过程。答案长度的增加与准确率的提升呈现出明显的正相关关系,证明了更长的推理链条确实带来了更好的解题效果。

这种现象在推理密集型任务中尤为明显。对于几何问题求解、代数推理等任务,融合后模型的平均回答长度超过了原始长度的250%。而对于主要依赖视觉理解的任务,如图片问答,答案长度变化很小,甚至略有减少。这种差异化的表现进一步证实了融合过程的精准性——它只在需要的地方增强了能力,而没有在不必要的地方增加冗余。

六、局限性与未来方向:技术进步的下一站

尽管取得了令人瞩目的成果,研究团队也诚实地承认了当前方法的局限性。最主要的限制是,这种"技能移植"主要对文本推理任务有效,对于那些严重依赖视觉感知的复杂推理任务,改进效果相对有限。

这个现象其实很好理解:当一个数学问题的关键信息都嵌入在复杂的图像中时,即使拥有再强的数学推理能力,如果无法准确"看懂"图像内容,也难以得出正确答案。这就像一个数学天才面对一张模糊不清的题目图片,再强的推理能力也无用武之地。

另一个有趣的发现是,融合不同类型的推理模型会产生不同的效果。专门针对数学训练的模型融合效果最好,而通用推理模型的融合效果相对一般。这提示我们,未来可能需要开发更加专业化、针对性更强的"供体模型",以实现更精准的能力转移。

研究团队还探索了跨域推理能力的转移可能性。他们尝试将逻辑推理模型与视觉语言模型融合,结果发现这种跨域的"技能移植"同样可行,暗示了这种方法具有更广阔的应用前景。未来,我们或许能够看到融合了多种专业能力的"全能型"AI模型。

七、技术细节:融合方法的深度对比

在技术实现层面,研究团队对比了多种不同的融合策略。除了主要使用的线性融合方法外,他们还测试了TIES融合等更复杂的技术。结果显示,虽然某些复杂方法在特定任务上可能表现更好,但简单的线性融合在整体性能和实现复杂度之间达到了最佳平衡。

这个发现具有重要的实践意义。在实际应用中,简单可靠的方法往往比复杂精巧的方案更有价值。线性融合不仅计算效率高,而且参数调节相对简单,降低了技术应用的门槛。

研究团队还发现,融合权重的选择需要根据具体的基础模型进行微调。对于不同规模、不同架构的模型,最优的融合比例可能有所差异。但总体而言,给视觉语言模型分配80-90%的权重通常能够获得较好的效果。

八、实际应用:从实验室到现实世界

这项研究的意义远不止于学术层面的突破。在教育领域,融合后的模型可以成为更强大的AI家教,能够理解包含图表、几何图形的复杂数学题,并提供详细的解题步骤。学生可以拍照上传题目,获得不仅仅是答案,更是完整的思考过程。

在科研和工程领域,这种技术可以帮助分析包含视觉元素的科学数据,如从实验图片中提取数值信息并进行统计分析,或者从工程图纸中理解设计参数并进行计算验证。金融分析师可以利用这种技术分析包含图表的财务报告,自动提取关键数据并进行趋势分析。

更进一步,这种"技能移植"的思想可能催生全新的AI开发模式。未来的AI系统可能不再需要从零开始训练,而是通过融合不同专业模型的方式,快速获得多样化的能力。这将大大降低AI开发的成本和时间,让更多组织和个人能够构建符合自己需求的专业AI系统。

研究团队通过大量实验证明,这种方法不仅在8B参数的中等规模模型上有效,在76B参数的大型模型上同样表现出色。这种规模无关性为技术的广泛应用奠定了基础,无论是资源受限的边缘设备还是云端的大型服务器,都可以从这种技术中受益。

说到底,这项研究为我们展示了AI发展的一个新方向:不是简单地追求更大的模型和更多的数据,而是通过巧妙的技术手段,让现有的AI系统发挥出更大的潜力。就像一个优秀的教练能够发掘运动员的潜在能力一样,模型融合技术让我们能够挖掘AI模型的隐藏才能。

这种方法的成功也提醒我们,AI的进步不一定要走"大力出奇迹"的路线。有时候,聪明的组合和精巧的设计比单纯的规模扩张更有价值。正如这项研究所展示的,通过理解AI的内在机制,我们可以用更少的资源获得更好的效果。

更重要的是,这项研究为理解AI的工作原理提供了新的视角。通过揭示不同能力在模型中的分布规律,我们对人工智能有了更深入的认识。这种认识不仅有助于改进现有技术,也为设计下一代AI架构提供了重要启发。

归根结底,这项由香港科技大学、香港城市大学、新加坡国立大学和西北大学联合完成的研究,不仅解决了视觉语言模型数学推理能力不足的实际问题,更为整个AI领域提供了一种全新的思考方式。它告诉我们,AI的未来可能不在于构建更大的模型,而在于更聪明地组合和利用现有的模型能力。

Q&A

Q1:模型融合是什么?它能解决什么问题? A:模型融合是一种将不同AI模型的能力进行组合的技术,就像把数学天才的推理能力移植给视觉专家一样。它能解决当前视觉AI模型虽然能"看懂"图片却不会做数学题的问题,让AI既能理解视觉内容又能进行复杂的数学推理。

Q2:这种技术会不会影响AI模型原有的视觉能力? A:研究显示影响非常小。融合过程非常精准,主要在模型的中后层增强数学推理能力,而视觉感知能力主要集中在前层,两者分工明确。实验中视觉相关任务的性能基本保持不变,有些甚至略有提升。

Q3:普通人能用上这种技术吗?有什么实际用途? A:目前这还是研究阶段的技术,但应用前景很广阔。未来可能出现在AI家教软件中,帮学生解答包含图表的数学题;在工程软件中分析技术图纸;在金融应用中自动分析包含图表的财务报告等。研究团队已在GitHub开源相关代码。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-