微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 百度等机构联合推出MathReal:真实世界里的AI数学能力究竟如何?

百度等机构联合推出MathReal:真实世界里的AI数学能力究竟如何?

2025-08-18 10:18
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-18 10:18 科技行者

这项由百度公司、南洋理工大学、小鹏汽车、中国人民大学和北京航空航天大学联合开展的研究,发表于2025年8月,相关数据和代码已在GitHub平台公开(https://github.com/junfeng0288/MathReal)。有兴趣深入了解的读者可以通过论文预印本网站访问完整研究内容。

当我们谈论人工智能有多聪明时,经常会听到一些令人印象深刻的数字:某个AI模型在数学竞赛中获得了接近人类水平的成绩,或者在标准化测试中表现优异。然而,当你真的拿起手机拍下孩子的数学作业,向AI求助时,结果往往让人失望。这就像是一位在实验室里表现完美的厨师,一旦走进真实的家庭厨房,面对各种不完美的食材和工具时,却手忙脚乱起来。

这种差距的根本原因在于,现有的AI数学能力测试大多基于清晰、标准化的图片和文本,就像是在理想环境下进行的考试。而现实生活中,当学生用手机拍摄作业题目时,照片往往是倾斜的、模糊的,或者有阴影遮挡。教科书页面可能有折痕,习题册上可能有手写的答案和涂抹痕迹。这些"不完美"的真实条件,恰恰是AI在实际应用中必须面对的挑战。

研究团队意识到了这个问题的重要性。他们发现,尽管多模态大语言模型在各种数学推理基准测试中表现出色,但这些测试都基于经过清理和处理的图像输入,很少考虑真实世界K-12教育用户提供的图像情况。当学生们用手持移动设备拍摄教科书页面或作业问题寻求帮助时,AI模型的表现往往大打折扣。

为了填补这一空白,研究团队创建了MATHREAL数据集,这是一个包含2000道数学题的综合测试平台。这些题目全部来自真实的教育场景,每一张图片都是用手机在自然条件下拍摄的。研究人员将这些真实世界的挑战系统地分为三大类:图像质量退化、视角变化和无关内容干扰,并进一步细化为14个子类别。

图像质量退化就像是在不同光线条件下拍照产生的问题。当光线不足时,照片会变得模糊不清,就像在昏暗的房间里拍摄作业一样。过度曝光会让部分内容看不清楚,就像在强烈阳光下拍照时产生的炫光。阴影覆盖则像是有人的手或其他物体挡住了部分题目,造成内容缺失。这些都是学生在日常拍摄作业时经常遇到的情况。

视角变化涉及拍摄角度和方向的问题。旋转是最常见的情况,学生可能无意中将手机倾斜了90度或180度来拍摄。平面内倾斜指的是轻微的角度偏差,就像书本没有完全放平时的效果。非平面拍摄则是当书页有弯曲或折叠时产生的透视扭曲。背景扭曲可能来自于纸张本身的弯曲变形,这些都会影响AI对内容的准确识别。

无关内容干扰则包含了各种可能出现在真实作业环境中的额外信息。手写题目是指学生或老师用手写形式添加的问题文字,这些手写内容的识别难度通常比印刷体要大得多。反面内容是指纸张背面的文字或图形透过来产生的干扰。题目标记包括学生用笔圈出重要部分或做的各种记号。图形标记是在几何图形上添加的辅助线或注释。对于选择题,可能会有学生已经填写的手写答案,而对于解答题,页面上可能显示完整的手写解答过程。

这个数据集不仅仅是图片的集合,更是一个完整的评估体系。每道题目都经过专业标注,包含五个核心知识和能力类别:平面几何、立体几何、逻辑推理、函数图像和统计图表。题目类型涵盖了三种常见形式:选择题、填空题和解答题。难度分为小学、初中和高中三个层次,确保能够全面评估AI模型在不同教育阶段的表现。

为了确保数据质量,研究团队建立了严格的三阶段人工标注流程。第一阶段是重新筛选,确保每个样本都包含单个完整的问题,且图形对于解题是必需的。第二阶段是对图像条件进行详细标注,按照预定义的分类体系对每种真实世界场景类型进行分级。第三阶段是问题级元数据标注,包括问题内容、类型、教育阶段、知识类别、图形描述和正确答案。所有标注工作都经过完全的人工验证,确保最终数据集既反映了多样化的真实世界条件,又保持了高质量的语义和结构标准。

一、真实世界与理想测试的巨大差距

当研究团队使用MATHREAL对当前最先进的AI模型进行测试时,结果令人震惊。即使是表现最好的模型Doubao-1.5-thinking-vision-pro,在相对简单的K-12场景中也只达到了53.9%的准确率。这与这些模型在传统数学基准测试中接近人类甚至竞赛级别的表现形成了鲜明对比,凸显了实际应用能力的巨大差距。

这种差距就像是一个在标准化考场中表现优异的学生,突然被要求在嘈杂的环境中、使用不完整的材料来解决同样的问题时,表现大幅下降。研究结果表明,现有的多模态大语言模型在面对真实教育场景时仍然远未达到可靠应用的水平。

更深入的分析显示,这种性能下降主要源于三个方面的挑战。首先是视觉感知能力的脆弱性。当图像出现模糊、倾斜或光线不均时,模型往往无法准确提取文字和识别几何图形。这就像是一个人戴着有度数偏差的眼镜看书,基础信息的获取就出现了问题。

其次是多步推理的不稳定性。研究发现,即使模型能够正确识别图像内容,在进行复杂的数学推理时也容易出错。特别是对于需要多个步骤才能得出答案的问题,任何一个中间环节的小错误都可能导致最终结果的完全错误。

最后是对真实世界噪音的适应性不足。传统训练数据中的图像大多经过清理和标准化处理,缺乏对各种真实世界干扰因素的充分训练。当面对手写标记、阴影遮挡或背景干扰时,模型往往表现出明显的不适应。

二、不同类型问题的表现差异

研究团队对不同类型问题的分析揭示了AI模型能力的微妙差异。在统计图表类问题上,模型表现相对最好,最高准确率可达48.5%。这类问题通常具有结构化的布局和相对清晰的几何形状,使得信息提取相对容易。就像是阅读一份设计良好的信息图表,即使在不完美的条件下也能获取到主要信息。

相比之下,逻辑推理和函数图像是最具挑战性的类别。逻辑推理需要抽象的符号推断能力,即使是顶级模型也只能达到39.1%的严格准确率。函数图像问题则需要精确的空间对齐,将视觉特征与数学表达式准确匹配,这对当前的AI技术来说仍然非常困难。

平面几何和立体几何的表现处于中等水平,但也暴露了模型在处理几何关系时的局限性。特别是当几何图形出现扭曲、部分遮挡或手绘标记时,模型往往难以准确理解空间关系和角度信息。

在问题类型方面,填空题的整体表现最好,最高可达67.7%的准确率。这类问题通常有明确的数值答案,较少涉及复杂的文字表述。解答题的表现适中,顶级模型可达51.8%,但这类问题需要完整的推理链条和结构化的答案组织。选择题的表现最差,只有大约42%的上限,这可能是因为选择题更依赖于精确的视觉识别来区分不同选项。

三、封闭源码与开源模型的性能鸿沟

研究结果显示,封闭源码模型在所有评估指标和任务类型上都显著优于开源模型,而这种性能差距在嘈杂的视觉输入条件下进一步放大。在严格准确率指标下,表现最好的封闭源码模型Doubao-1.5-thinking-vision-pro达到了41.0%的平均准确率,而表现最好的开源模型ERNIE-4.5-Turbo-VL-Preview只达到17.1%,差距超过20个百分点。

这种差距背后反映了不同类型模型在设计理念和训练资源上的根本差异。封闭源码模型通常拥有更大的计算资源、更精细的数据策展和更深度的工程优化。它们在处理真实世界的视觉挑战时表现出更强的鲁棒性,能够在一定程度上应对图像质量下降、视角变化等问题。

开源模型虽然在透明度和可访问性方面有优势,但在处理复杂的多模态任务时仍显不足。特别是专门的推理模型,表现更加落后,最强的推理模型MiMo-VL-7B-RL在严格准确率下只达到13.5%,大多数其他推理模型都低于10%。这突出了将推理管道与鲁棒视觉感知相结合的困难,也强调了封闭源码模型中端到端、良好对齐架构在处理真实世界视觉挑战时的优势。

然而,研究也发现了一些有趣的例外情况。某些开源模型在特定类别上表现出色,比如InternVL-3-78B在逻辑推理方面达到了15.2%的成绩,这在开源模型中是相当不错的表现。这表明通过针对性的优化和训练,开源模型仍有进一步提升的空间。

四、OCR准确性与数学推理的关系

研究团队设计了六种不同的实验设置来系统分析模型的感知和推理能力。这些设置从纯图像输入逐步过渡到提供人工标注的问题文本和图形描述,就像是为模型提供了不同程度的"辅助工具"。

结果显示,模型性能在这些设置下表现出明显的层次化提升。当从纯图像输入(I)切换到提供准确文本和图形描述的设置(I+QG+DG)时,大多数模型的准确率都有显著提升。例如,Grok-4模型从5.4%提升到57.7%,这种巨大的性能跃升表明该模型在纯文本推理方面能力很强,但视觉感知环节存在严重瓶颈。

有趣的是,不同模型表现出了不同的能力特征。Claude-sonnet-4-thinking在OCR和图形理解方面表现较弱,从I设置下的16.5%只提升到I+QM(模型自生成文本)下的15.6%,甚至在I+QM+DM(添加模型自生成图形描述)下降至13.5%。只有在提供准确的人工标注输入时,性能才显著提升,这表明该模型的视觉-文本提取能力较弱。

相比之下,Gemini-2.5-pro-thinking展现出更强的内部感知能力。它从I设置下的51.1%稳步提升到I+QM下的59.3%,再到I+QM+DM下的61.9%。即使在提供准确输入的情况下,提升幅度相对较小,这表明该模型已经具备了相对强大的内部感知和理解能力。

这些发现揭示了当前多模态模型的一个关键问题:大多数模型在处理清晰文本时表现良好,但从真实视觉输入中进行鲁棒提取和结构化仍然是一个重大挑战。这就像是一个优秀的数学家,如果给他完整准确的题目描述,他能很好地解决问题,但如果让他从模糊不清的照片中提取题目信息,就会遇到困难。

五、真实图像与清洁图像的对比实验

为了量化图像质量对模型性能的具体影响,研究团队选择了175个问题,同时获取了这些问题的真实拍摄版本和清洁版本进行对比测试。结果显示,大多数模型在清洁图像上的表现都有显著提升,但不同模型的提升幅度差异很大。

Llama-4-Maverick模型表现出最大的性能差距,在清洁图像上比真实图像高出12.0个百分点。Claude-sonnet-4-thinking的差距也达到了11.8%,这表明视觉噪声严重限制了这些模型在真实图像上的性能。这种现象类似于某些人在安静环境中能够专注思考,但在嘈杂环境中就难以集中注意力。

然而,也有一些令人意外的发现。Doubao-1.5-thinking-vision-pro在真实图像上的表现实际上比清洁图像还要好0.21个百分点。这可能是因为该模型的视觉主干网络在大量真实移动设备拍摄的数据上进行了充分训练,使其能够利用真实世界的光照、阴影和纹理线索来更好地理解内容。

具体的噪声类型分析揭示了不同干扰因素的影响程度。模糊是最严重的问题,因为它会削弱OCR文本提取和精细视觉特征识别所需的高频细节。旋转会破坏空间对齐,迫使模型依赖隐式的几何变换能力。有趣的是,图形标记和手写答案干扰有时反而能带来轻微的性能提升,这可能是因为这些标记突出了关键区域或提供了解题线索。

六、错误模式的深入分析

研究团队对两个顶级模型Doubao-1.5-thinking-vision-pro和Gemini-2.5-pro-thinking各随机抽取100个失败案例进行详细的错误分析,发现了一致的错误分布模式。推理错误占据了最大比例,超过三分之一,这表明即使在感知大致正确的情况下,模型仍经常无法构建有效的逻辑链条或应用正确的数学原理。

视觉理解问题是另一个主要失败来源。图形感知错误和OCR错误合计占到40-50%的失败案例,这反映了多模态数学任务对准确视觉解码的强烈依赖。当模型误读数字、错误解释几何结构或忽略关键的视觉信息时,后续的推理过程即使完全正确也无法得出正确答案。

计算错误、幻觉错误和拒绝错误的出现频率相对较低,但仍然值得关注。幻觉错误通常发生在模型编造不存在的数值或假设时,而拒绝错误反映了模型在面对不确定性时未能产生有意义答案的情况。

这种错误分布揭示了多模态数学推理的两个主要挑战:在不完美输入条件下的鲁棒视觉理解,以及在嘈杂或模糊内容上的一致多步推理。仅仅解决其中一个方面是不够的,未来多模态大语言模型的进步需要在感知、解析和推理组件之间实现紧密集成的改进。

七、不同模型家族的特色表现

深入分析各个模型家族的表现特点,可以发现不同的技术路线和设计理念带来的差异。Doubao家族在几何和结构化推理任务上表现出强大的能力,Doubao-1.5-thinking-vision-pro在平面几何(43.3%)、立体几何(43.2%)和统计图表(48.5%)上都取得了最高的严格准确率,这表明其在需要空间理解和正式视觉解析的任务上具有优势。

在Doubao家族内部,非思维版本Doubao-seed-1.6在某些抽象推理任务上反而超越了思维版本。在逻辑推理类别中,非思维版本达到32.6%,而思维版本只有17.4%,这表明更长的推理链条在视觉噪声环境下可能反而会影响性能。这种现象类似于在嘈杂环境中,简单直接的思考方式有时比复杂的分析更有效。

Gemini家族展现出一致强劲且平衡的性能。Gemini-2.5-pro-thinking在各项任务中都排名前列,在统计图表上达到48.5%,在平面几何和立体几何上都超过40%。即使在最具挑战性的逻辑推理类别中,它也达到了39.1%,显示出稳定的多模态推理能力。这种平衡性表明Gemini在不同类型的视觉-数学任务上都有良好的适应性。

InternVL模型表现出了有趣的逆向扩展模式。InternVL-3-78B在逻辑推理方面取得了开源模型中的最佳成绩(15.2%),但在统计图表任务上却不如InternVL-3-38B,这可能是由于过拟合或在更大规模下视觉泛化能力的退化。

Qwen2.5VL家族在结构化视觉任务上表现出色。32B模型在函数图像(18.6%)和统计图表(30.3%)上领先,显示出在视觉-文本对齐方面的优势。然而,扩展到72B时,特别是在复杂推理任务上,性能提升有限,这表明单纯的模型规模扩大在处理真实世界视觉挑战时可能存在收益递减的问题。

八、严格评估揭示的推理稳定性问题

研究采用了两种评估标准来全面衡量模型性能。宽松准确率允许部分正确,按照每个问题中正确回答的子问题比例计算。严格准确率则要求问题中的所有子答案都必须正确才能得分,任何一个子答案错误都会导致整个问题被标记为错误。

这两种评估方式之间的差距揭示了模型在多步推理中的稳定性问题。许多在宽松评估下表现不错的模型,在严格评估下出现显著下降。例如,Gemini-2.5-pro-thinking在宽松准确率下达到48.1%,但在严格评估下下降到42.9%,反映出小的推理失误或不完整的逻辑链条。

更明显的例子是InternVL-3-14B,它在宽松准确率下达到19.0%,但严格准确率只有10.9%,差距超过8个百分点。这突出表明该模型在完整任务一致性方面存在困难,经常能够部分解决问题但无法完全正确。

严格评估标准更好地反映了模型是否能够完全解决多步骤问题的能力,这与教育标准更加一致。在真实的教育场景中,部分正确的答案往往不能满足学习需求,学生和教师需要的是完整、准确的解题过程。因此,严格评估揭示的推理稳定性问题是现有模型需要重点改进的方向。

这种评估方式的对比也为模型改进提供了方向。那些在两种评估方式下差距较小的模型,通常具有更稳定的推理能力和更好的错误容忍性。而差距较大的模型,则需要重点提升推理链条的完整性和一致性。

研究结果表明,MATHREAL不仅提供了一个更真实的评估环境,也为多模态大语言模型在实际教育应用中的部署指出了明确的改进方向。当前的模型虽然在标准化测试中表现出色,但在面对真实世界的复杂性和不确定性时,仍有很大的提升空间。

说到底,这项研究就像是给AI模型安排了一次"实战考试",结果发现这些在"标准考场"中表现优异的模型,在面对真实世界的"野外环境"时还有很多不足。不过,这正是科学进步的价值所在,通过发现问题来推动技术的不断改进。对于普通用户来说,这意味着在使用AI辅导工具时,可能还需要一些耐心,同时也提醒我们,技术的发展是一个渐进的过程,真正实用的AI教育助手还需要更多的技术突破和优化。

这项研究的意义不仅在于揭示了当前AI技术的局限性,更在于为未来的改进方向提供了清晰的路线图。相信随着更多研究者关注这些实际应用中的挑战,我们将看到更加实用和可靠的AI教育工具的出现。对于有兴趣深入了解技术细节的读者,可以通过GitHub平台访问完整的数据集和代码,为这个重要的研究领域贡献自己的力量。

Q&A

Q1:MATHREAL数据集和普通的AI数学测试有什么不同?

A:MATHREAL使用的是真实学生用手机拍摄的作业照片,包含模糊、倾斜、阴影等真实情况,而不是清晰的标准化图片。就像是让AI在真实的"野外环境"而不是"标准考场"中答题,更能反映实际使用中的表现。

Q2:为什么AI在真实拍摄的数学题上表现这么差?

A:主要有三个原因:首先是图像质量问题,模糊、倾斜的照片让AI难以准确识别文字和图形;其次是多步推理不稳定,任何一个环节出错都可能导致最终答案错误;最后是缺乏对真实世界噪音的适应训练,AI习惯了清晰标准的输入。

Q3:这项研究对普通用户使用AI学习工具有什么启示?

A:研究表明目前的AI教育工具在处理手机拍摄的作业时还不够可靠,准确率只有50%左右。用户在使用时需要保持耐心,尽量提供清晰、正面拍摄的图片,同时不要完全依赖AI答案,最好结合人工检查。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-