微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 浙江大学团队推出GSM8K-V:让AI在看图解数学题时露出真面目

浙江大学团队推出GSM8K-V:让AI在看图解数学题时露出真面目

2025-10-23 12:15
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-23 12:15 科技行者

这项由浙江大学袁帆、严雨晨等研究人员组成的团队在2025年1月发表的研究成果,揭示了一个让人意想不到的发现。该研究发表在arXiv预印本平台上,论文编号为2509.25160v1,有兴趣深入了解的读者可以通过这个编号查询完整论文。

当我们谈论人工智能有多聪明时,往往会拿数学推理能力作为衡量标准。就像我们评判一个学生是否聪明,除了看他能背多少诗词,更要看他能不能解开复杂的数学题。目前最先进的视觉语言模型(可以理解为既能看图又能读文字的AI)在处理纯文字数学题时表现相当出色,有些甚至能达到95%以上的正确率。然而,当同样的数学题变成图片形式呈现时,这些"聪明"的AI竟然表现得像换了个人似的。

想象一下这样的场景:一个学生在纸质考试中能考95分,但当题目变成电子屏幕上的图片时,同一个学生只能考47分。这听起来是不是很不可思议?但这正是研究团队在测试最先进AI模型时发现的惊人现象。以谷歌的Gemini-2.5-Pro为例,它在处理文字版GSM8K数学题时能达到95.22%的准确率,但面对同样内容的图片版本时,准确率急剧下降到仅有46.93%。

这种巨大的差异促使浙江大学的研究团队深入思考一个问题:现有的视觉数学推理测试是否足够严格和全面?他们发现,目前的测试基准存在几个明显的局限性。大多数测试主要集中在几何问题上,就像只考察学生画图能力而忽略了文字题解题能力。这些测试很少涉及需要从多张图片中提取信息并进行综合推理的情况,也缺乏对现实世界数学应用场景的覆盖。

为了填补这个空白,研究团队开发了一个名为GSM8K-V的新测试基准。这个基准的巧妙之处在于,它将广泛使用的文字数学推理测试GSM8K中的每一道题目都转换成了纯视觉形式。就像将一本文字小说改编成连环画一样,每个数学问题都被重新包装成一系列相互关联的图片,形成一个完整的视觉故事。

这种转换过程可以比作制作一部无声电影。研究团队需要将原本用文字描述的数学情境转化为生动的视觉场景。比如说,原本的题目可能是"维奥莱塔想买新蜡笔,她需要5种不同颜色的蜡笔,准备了20美元。一支蜡笔2美元,她能找回多少钱?"在GSM8K-V中,这个问题被转换成一系列卡通风格的图片:第一幅图显示商店助理指着价格表,第二幅图显示维奥莱塔选择蜡笔,第三幅图显示她准备的20美元钞票,最后一幅图中维奥莱塔询问能找回多少零钱。

创建这样一个视觉化测试基准并非易事。研究团队设计了一个三阶段的自动化流程来确保转换的准确性和一致性。第一个阶段是信息分解和分配,就像将一个复杂的故事拆解成若干个关键情节。他们使用GPT-4.1模型来识别每道题目中的数学信息,并将这些信息归类为13个不同的类别,包括重量、距离、价格、计数等。这个过程确保了每个数学要素都能得到适当的视觉表现。

第二个阶段是场景描述生成。研究团队为每种数学信息类别都设计了专门的描述策略。比如,时间相关的信息会通过时钟来表示,价格信息会通过标价牌来展示,重量会通过电子秤来呈现。这些策略就像电影制作中的视觉语言规范,确保观众能够准确理解每个画面想要传达的信息。

第三个阶段是图像生成,使用GPT-Image-1模型根据详细的场景描述生成高质量的图片。为了确保生成的图像准确无误,研究团队还实施了严格的人工审核流程。这个过程遵循三个核心原则:一致性,确保视觉场景忠实保存原始文本中的实体、数量和约束;完整性,确保解决问题所需的所有信息都在视觉上可获得;合规性,确保图像符合安全和格式标准。

经过这样精心制作,GSM8K-V最终包含了1319个高质量的样本,每个样本平均包含4.05张图片。这些图片采用皮克斯风格的卡通渲染,色彩鲜明,线条清晰,非常适合AI模型的视觉识别。

当研究团队使用这个新基准测试各种先进的AI模型时,结果令人震惊。几乎所有模型在面对视觉化的数学题时都表现出了显著的性能下降。即使是表现最好的Gemini-2.5-Pro,其准确率也从文字版的95.22%骤降至图片版的46.93%。其他模型的表现更是惨不忍睹,大多数开源模型的准确率都在30%以下。

这种巨大的性能差异揭示了当前AI技术的一个根本性问题。虽然这些模型在处理纯文字信息时表现出色,但当需要从视觉信息中提取数学概念并进行推理时,它们就暴露出了明显的不足。这就像一个只会在安静教室里考试的学生,一旦环境发生变化就无法发挥正常水平。

研究团队进一步分析了AI模型失败的原因,发现了两个主要的错误类型。第一类是感知-计算错误,这类错误通常发生在需要精确计数或识别相似物体时。比如,当图片中出现多个视觉上相似的物品时,AI可能会数错数量,或者将不同类别的物品混淆,导致后续计算全盘皆错。就像一个人在嘈杂的市场里试图数清楚苹果的数量,很容易被周围的干扰因素影响。

第二类是仪器读数错误,这在GSM8K-V中表现得特别突出。许多数学题需要从时钟、仪表盘、图表等日常工具中读取数值信息。然而,AI模型在识别和解释这些视觉线索时经常出错。比如,它们可能会误读时钟上的时间,或者错误地解释饼图中的比例关系。这类错误暴露了AI在视觉化数值理解方面的根本性弱点。

为了更深入地理解这些问题,研究团队还进行了多项对比实验。他们发现,当明确提供文字问题描述时,AI的表现会有所改善,但仍然远低于纯文字版本的水平。这说明问题的核心不在于AI无法理解问题本身,而在于它们难以从视觉信息中准确提取必要的数学要素。

另外,研究团队还测试了单张图片与多张图片输入的差异。结果显示,多张图片的设置能够稍微提升AI的表现,因为这样可以更好地保持时间顺序和逻辑关系。相比之下,将所有信息压缩到单张图片中往往会掩盖关键的序列依赖关系,特别是在涉及时间推理的问题中。

研究团队还测试了不同视觉风格对AI表现的影响。他们将部分问题重新渲染成吉卜力工作室风格,结果发现视觉风格的变化对模型性能的影响很小。这表明问题的根源在于AI对视觉化数学概念的理解能力,而非特定的视觉表现形式。

最令人印象深刻的对比来自人类表现的基准测试。研究团队邀请经过充分训练的标注员直接根据生成的图片解决数学问题,结果显示人类能够达到91.15%的平均准确率。这与AI模型的表现形成了鲜明对比,进一步证明了问题出现在AI的视觉推理能力上,而非测试题目本身的难度。

更有趣的是,人类和AI在不同类别问题上的表现模式完全不同。人类在各个类别上都能保持相对均衡的高准确率,而AI模型则呈现出明显的不平衡性。比如,某些模型在标牌识别类问题上表现相对较好,但在其他类别的问题上却一败涂地。这种不均衡性暗示AI模型可能依赖于特定的视觉线索或模式,而缺乏人类那种灵活的视觉理解能力。

这项研究的意义远不止于揭示AI的局限性。它为整个AI研究社区提供了一个重要的警示:我们不能仅仅根据AI在某个特定任务上的表现就判断其整体能力。GSM8K-V基准测试表明,即使是在数学推理这样相对成熟的领域,当任务的呈现方式发生变化时,AI的表现也可能出现剧烈波动。

从实际应用的角度来看,这个发现具有重要的现实意义。在许多真实世界的场景中,数学信息往往是通过视觉方式呈现的,比如图表、仪表、标签等。如果AI系统无法准确处理这些视觉化的数学信息,那么它们在实际应用中的可靠性就会大打折扣。这提醒我们,在部署AI系统时需要更加谨慎地考虑输入信息的多样性和复杂性。

研究团队的工作还揭示了一个更深层次的问题:当前的AI训练和评估方法可能过于狭窄。大多数AI模型都是在特定格式的数据上训练的,当面对不同的信息呈现方式时,它们往往无法很好地泛化。这就像一个只在标准考场里练习过的学生,当考试环境发生变化时就容易发挥失常。

为了解决这些问题,研究团队提出了几个可能的改进方向。首先,未来的AI训练应该包含更多样化的视觉数学内容,不仅仅是几何图形,还要包括各种日常生活中的数学场景。其次,需要开发更好的视觉-数学概念绑定技术,帮助AI模型建立视觉元素与数学含义之间的可靠联系。最后,可能需要重新思考多模态推理的架构设计,确保视觉信息和数学推理能够更好地整合。

GSM8K-V基准测试的另一个重要贡献是提供了一个标准化的评估工具。研究团队已经将完整的数据集和评估代码开源,使得其他研究者可以使用相同的标准来测试和比较不同的AI模型。这种标准化对于推动整个领域的进步至关重要,就像有了统一的尺子才能准确比较不同物体的长度。

从技术发展的角度来看,这项研究指出了AI技术的下一个重要突破方向。虽然当前的AI在处理结构化文本信息方面已经相当成功,但在理解和推理复杂视觉场景方面仍有很大的提升空间。这不仅仅是一个技术挑战,更是人工智能向真正的通用智能迈进的必经之路。

值得注意的是,这个研究也展现了国内AI研究的实力和创新能力。浙江大学团队不仅识别了一个重要的研究空白,还开发出了高质量的解决方案,为全球AI研究社区贡献了宝贵的资源。这种基础性的研究工作往往不如应用型成果那样引人注目,但对于推动整个领域的发展却至关重要。

说到底,GSM8K-V所揭示的问题反映了人工智能发展中的一个根本性挑战:如何让AI真正理解世界,而不仅仅是记忆和匹配模式。当我们人类看到一张包含数学信息的图片时,我们能够灵活地提取相关信息,理解其含义,并进行推理。但对于现在的AI来说,这个看似简单的过程实际上涉及复杂的视觉理解、概念抽象和逻辑推理的协同工作。

这项研究的发布时机也很有意义。当整个科技行业都在为AI的快速发展而兴奋时,这样的研究提醒我们保持清醒的头脑,认识到现有技术的局限性。只有准确了解AI的能力边界,我们才能更好地利用这项技术,避免过度依赖或盲目信任。

对于普通用户来说,这个发现意味着在使用AI工具处理涉及视觉数学信息的任务时需要格外谨慎。比如,当让AI帮助分析包含图表或仪表读数的文档时,最好同时提供文字说明,或者对AI的分析结果进行人工验证。这并不是说AI没有用处,而是说我们需要了解它的强项和弱点,合理地安排人机协作。

展望未来,GSM8K-V基准测试很可能会成为AI研究领域的一个重要里程碑。它不仅为当前模型的评估提供了新的标准,更为未来的技术发展指明了方向。随着更多研究者使用这个基准测试来评估和改进他们的模型,我们有望看到AI在视觉数学推理方面的能力得到显著提升。

这项研究最终告诉我们,人工智能的发展道路比我们想象的更加复杂和充满挑战。每当我们以为AI在某个领域已经接近人类水平时,总会有新的测试揭示出意想不到的差距。但这种挑战恰恰是推动技术进步的动力。正如浙江大学研究团队通过GSM8K-V所做的工作,真正的科学进步往往来自于那些敢于质疑现状、挖掘深层问题的研究。对于任何想要深入了解这项开创性研究的读者,都可以通过论文编号2509.25160v1在arXiv平台上查找完整的技术细节和实验数据。

Q&A

Q1:GSM8K-V测试基准是什么?它与普通的数学测试有什么不同?

A:GSM8K-V是浙江大学团队开发的一个视觉数学推理测试基准,它将传统的文字数学题转换成了连环画式的图片形式。与普通数学测试不同的是,AI需要从多张相互关联的图片中提取数学信息并进行推理,而不是直接阅读文字描述。这种测试方式更接近现实世界中人们从图表、标签、仪表等视觉信息中获取数学数据的场景。

Q2:为什么先进的AI模型在图片版数学题上表现这么差?

A:主要有两个原因:一是感知-计算错误,AI在识别和计数视觉相似的物体时容易出错;二是仪器读数错误,AI难以准确理解时钟、图表、仪表盘等日常工具显示的数值信息。这表明当前AI虽然擅长处理结构化的文字信息,但在从复杂视觉场景中提取和理解数学概念方面还存在根本性不足。

Q3:这项研究对普通用户使用AI有什么实际意义?

A:这提醒用户在让AI处理包含视觉数学信息的任务时要格外小心。比如分析包含图表或数据可视化的文档时,最好同时提供文字说明或对AI的结果进行人工验证。了解AI的这个局限性有助于我们更合理地安排人机协作,在发挥AI优势的同时避免过度依赖。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-