微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 上海交大团队发现:让AI"看得更清楚"就能算得更准确!视觉扰动让多模态数学推理大提升

上海交大团队发现:让AI"看得更清楚"就能算得更准确!视觉扰动让多模态数学推理大提升

2025-06-17 12:35
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-17 12:35 科技行者

想象一下,你正在帮助一个孩子做几何题。这个孩子很聪明,能够准确地描述图形中的每一个细节——三角形的角度、线段的长度、圆的半径等等。但奇怪的是,当需要运用这些信息来解题时,他却经常算错。这种现象听起来很熟悉吗?这正是目前人工智能在处理数学问题时遇到的困境。

这项由上海交通大学计算机科学学院的李雨婷、魏来、郑开鹏、黄敬渊团队,联合中关村研究院、北京通用人工智能研究院以及理海大学的黄维然教授共同完成的研究,发表于2025年6月的arXiv预印本平台。感兴趣的读者可以通过arXiv:2506.09736v1访问完整论文,研究代码已在GitHub开源:https://github.com/YutingLi0606/Vision-Matters。

研究团队在实验中发现了一个令人惊讶的现象。他们让纯文本的大语言模型(比如Qwen2.5-7B)阅读图片的文字描述来解数学题,结果竟然能达到甚至超过那些能直接"看到"图片的多模态模型(比如Qwen2.5-VL-7B)的表现。这就像是一个只能听别人描述棋局的象棋选手,竟然下得比能亲眼看到棋盘的选手还要好。

更有趣的是,当他们给这些纯文本模型提供图片描述时,表现还会进一步提升。在MathVision数学测试中,原本得分25.4分的多模态模型,当换成只看文字描述的语言模型时,得分竟然提升到了28.5分。这种现象就像是一个学生通过阅读别人的笔记反而比直接看教科书学得更好。

这个发现揭示了一个重要问题:当前的多模态AI虽然能够"看到"图片,却没有有效地将视觉信息整合到推理过程中。它们就像是拥有完美视力但缺乏视觉注意力的学生,能看清每个细节,却不知道哪些信息对解题真正重要。

基于这个洞察,研究团队提出了一个巧妙的解决方案:通过给AI的"眼睛"增加一些"噪音"和"干扰",反而能让它学会更好地"看"。这听起来有点反直觉,就像是故意给学生的眼镜上添加一些斑点,结果却让他们看得更清楚。

一、视觉扰动的三个"训练招式"

研究团队设计了三种视觉扰动策略,每一种都像是给AI进行的不同类型的"视觉训练"。

第一种训练叫做"分心物拼接"。想象你正在考试,老师故意在你的试卷旁边放了一张无关的漫画。如果你能在这种干扰下仍然专注于解题,那你的注意力就得到了很好的训练。研究团队就是这样做的——他们在原始的数学题图片旁边横向拼接一张完全无关的图片,迫使AI学会忽略干扰信息,专注于真正重要的内容。

第二种训练叫做"保持主导的混合"。这就像是在一杯清水中滴入几滴墨水,水的本质没有改变,但颜色略有不同。研究团队将原始图片与一张无关图片按照8:2或9.5:0.5的比例进行混合,让原始图片仍然占主导地位,但添加了一些视觉"噪音"。这种训练帮助AI学会提取图片中最重要、最稳定的特征,而不是过分依赖细微的纹理细节。

第三种训练叫做"随机旋转"。就像我们有时需要转动手机来更好地看清照片一样,研究团队将图片随机旋转小角度(比如正负15度),让AI学会无论图形处于什么角度都能正确理解。这对几何题特别有用,因为三角形不管怎么转,它的本质属性都不会改变。

这三种训练方法的巧妙之处在于,它们都保留了图片的核心信息,只是增加了一些"挑战",就像是在健身房里增加重量来让肌肉变得更强壮。

二、令人瞩目的实验成果

研究团队进行了一系列大规模实验,结果令人印象深刻。他们在四个重要的数学推理测试平台上验证了这种方法:MathVision、MathVista、MathVerse和We-Math。这些测试就像是AI界的"数学奥林匹克竞赛",涵盖了从基础几何到复杂的图表分析等各种题型。

实验覆盖了三种不同的AI训练方法。第一种叫做监督微调(SFT),就像是给学生提供标准答案让他们学习模仿。第二种叫做直接偏好优化(DPO),类似于告诉学生什么样的答案是好的,什么样的是不好的。第三种叫做群体强化学习(GRPO),更像是让学生们互相竞争,通过比较来提升水平。

在所有测试中,添加了视觉扰动的模型都表现得更好。以GEOQA几何数据集为例,使用GRPO训练方法的模型,在添加视觉扰动后,平均分数从53.3%提升到了54.4%,提升了2.1个百分点。虽然听起来不多,但在AI领域,这样的提升已经相当显著了,就像是奥运会上百米赛跑提升0.1秒一样珍贵。

更有趣的是,研究团队还测试了这种方法在已经很先进的AI模型上的效果。他们发现,即使是那些已经经过精心训练的顶级模型,在应用了视觉扰动技术后,性能仍然能够进一步提升。这就像是即使是职业运动员,通过特殊的训练方法仍然能够突破个人最佳成绩。

三、不同问题类型的"个性化"提升

研究团队深入分析发现,不同类型的视觉扰动对不同类型的数学问题有着不同的效果,这个发现特别有趣。

对于几何问题,"随机旋转"训练效果最好。研究显示,几何题的正确率从428道题目中答对变成了443道,提升了3.5%。这很容易理解——当AI习惯了从各种角度看图形后,它就不会被图形的朝向所迷惑,能够更好地理解空间关系。就像一个经常转动魔方的人,无论魔方处于什么角度,都能快速识别出每个面的模式。

对于科学类问题和计数问题,"分心物拼接"训练最有效。科学题的正确率从724道提升到745道,增长了2.9%;计数题从379道提升到389道,增长了2.6%。这是因为这类问题往往包含很多复杂的视觉元素,AI需要学会在众多信息中筛选出真正重要的部分,就像在嘈杂的环境中专注听某个人说话的能力。

对于表格类问题,情况则有所不同。虽然"分心物拼接"仍然有帮助,但"随机旋转"反而会降低表现。这也很好理解——表格是有固定阅读顺序的,如果把表格转个角度,确实会增加阅读难度。

这些发现告诉我们,AI的"视觉训练"需要针对不同任务进行定制,就像不同的体育项目需要不同的训练方法一样。

四、技术实现的巧妙设计

研究团队在技术实现上也展现了很高的智慧。他们设计的视觉扰动系统就像是一个灵活的"训练器械",可以很容易地集成到现有的AI训练流程中,不需要改变AI的基础架构或者收集新的训练数据。

在具体操作上,训练过程就像是烹饪时调味料的添加——每次训练时,系统会随机选择三种扰动方法中的一种应用到图片上。这种随机性确保AI能够接触到各种不同的视觉挑战,就像一个全面的体能训练计划。

更重要的是,这种方法的成本很低。它不需要额外的计算资源或者昂贵的硬件设备,只需要在现有的训练过程中添加一个简单的图像处理步骤。这就像是在健身时只需要改变一下动作角度,就能锻炼到更多肌肉群,而不需要购买新的器械。

研究团队还贴心地开源了他们的代码,这意味着全世界的AI研究者都可以免费使用这种技术,就像是分享了一个有效的健身方法。

五、更深层的科学发现

这项研究最有价值的地方不仅仅是提出了一种新的训练方法,更重要的是它揭示了多模态AI的一个根本性问题:当前的AI系统在视觉信息处理上还有很大的改进空间。

研究团队通过"有效秩"这个指标来衡量AI模型的知识容量。他们发现,经过视觉扰动训练的模型,其有效秩显著提升了。在MathVision测试中,从73.6提升到85.7;在MathVerse测试中,从62.4提升到77.6。这个数值的提升意味着AI的"大脑"变得更加丰富和灵活,能够存储和处理更多样化的信息。

这个发现有点像是发现了大脑的一个新规律:通过适当的"困难训练",不仅能提升特定能力,还能增强整体的认知容量。这为未来的AI发展指明了一个重要方向。

研究还发现,那些破坏图像信息的扰动方法(比如高斯模糊、随机裁剪等)会降低AI的表现,这进一步证实了他们方法的科学性。这就像是区分了"有益的挑战"和"有害的干扰"——前者能让你变得更强,后者只会拖累你的表现。

六、对AI未来发展的启示

这项研究带来的启示远超出了数学推理的范畴。它告诉我们,在AI的发展过程中,"看得更好"与"想得更清楚"是密不可分的。过去,很多研究专注于改进AI的"思考"算法,但这项研究提醒我们,改进AI如何"观察"世界同样重要。

研究团队提出的"更好的推理始于更好的观察"这一理念,可能会改变整个AI领域的研究方向。未来的AI系统不仅需要更强大的推理能力,还需要更敏锐的感知能力。

这种方法的普适性也很强。虽然这项研究专注于数学推理,但视觉扰动的思路可以应用到其他需要视觉理解的任务中,比如医学图像分析、自动驾驶、机器人视觉等领域。就像一个好的教育方法不仅能提升数学成绩,还能培养学生的整体学习能力。

更有趣的是,这种方法对于AI的"泛化能力"有很大帮助。经过视觉扰动训练的AI模型,在面对新的、没见过的图像时,表现得更加稳定可靠。这就像是一个经过多样化训练的运动员,在面对各种比赛环境时都能发挥出稳定的水平。

说到底,这项来自上海交通大学的研究为我们揭示了一个简单而深刻的道理:有时候,让事情变得稍微困难一点,反而能让我们变得更强。在AI的世界里,通过巧妙设计的视觉"挑战",我们可以训练出更聪明、更可靠的人工智能系统。

这个发现对普通人意味着什么呢?随着这种技术的推广应用,我们可能很快就会看到更智能的AI助手,它们不仅能够理解我们展示的图片和图表,还能从中准确提取信息并进行复杂的推理。无论是帮助学生解决数学题,还是协助医生分析医学影像,这种"看得更清楚、想得更明白"的AI都将为我们的生活带来实实在在的改变。

最后,值得思考的是:如果适当的"困难"能让AI变得更聪明,那么在人类的学习和成长过程中,我们是否也应该主动寻求一些有益的挑战呢?这项研究不仅推进了AI技术的发展,也为我们理解学习和智能的本质提供了新的视角。如果读者对这项研究的技术细节感兴趣,可以通过GitHub链接查看开源代码,或访问arXiv平台阅读完整的学术论文。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-