微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

港大团队推出数学AI新突破：让计算机"画图思考"解决数学难题

人工智能计算机视觉数学教育

港大团队推出数学AI新突破：让计算机"画图思考"解决数学难题

作者：科技行者

2025-11-18 13:38

分享至：

这项由港大、美团、港中大联合开展的研究提出了CodePlot-CoT系统，让AI通过生成绘图代码来进行数学视觉推理。该系统解决了现有AI无法有效处理需要画图辅助的数学题难题，在专门构建的Math-VR数据集上取得21%的性能提升，为AI数学推理开辟了新方向。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-11-18 13:38 • 科技行者

这项由香港大学（HKU）、美团、香港中文大学（CUHK）联合开展的研究发表于2025年10月，论文编号为arXiv:2510.11718v1。研究团队包括香港大学的段成奇、孙凯月等学者，美团的张漫远、冯艳等研究人员，以及香港中文大学的方荣耀、李宏升等专家。有兴趣深入了解的读者可以通过该论文编号查询完整研究内容。

解数学题时，我们经常需要在纸上画图来帮助思考——画几何图形来理解空间关系，绘制函数图像来分析变化趋势。这种"边画边想"的方式对人类来说再自然不过，但对人工智能来说却是个巨大挑战。目前的AI数学助手虽然能处理复杂运算，但在需要视觉辅助的数学题面前往往束手无策。

研究团队发现了一个有趣的现象：现有的AI模型在解数学题时就像被蒙住眼睛的学生，只能靠纯文字推理，无法"看到"几何关系和函数变化。这就好比让人闭着眼睛组装复杂的立体拼图，难度可想而知。更关键的是，即使那些能生成图像的AI模型，在数学图形方面也表现得相当糟糕——它们画出的几何图形往往不够精确，角度偏差、比例失调，根本无法为数学推理提供可靠支撑。

为了解决这个问题，研究团队提出了一个巧妙的解决方案：既然直接让AI画图很困难，那为什么不让它写代码来画图呢？这就像教会AI使用"绘图工具"一样。他们开发的CodePlot-CoT系统能够在解题过程中生成绘图代码，然后自动执行这些代码生成精确的数学图形，最后将这些图形作为"视觉思路"重新输入给AI进行后续推理。

这种方法的核心优势在于代码的精确性。代码就像一套严格的绘图指令，每个点的坐标、每条线的角度都是精确定义的，不会出现手绘时的误差。当AI需要画一个30度角时，代码会准确地画出30度，而不是29度或31度。这种精确性对数学推理至关重要。

为了训练和评估这样的系统，研究团队还构建了Math-VR数据集，这是第一个专门针对数学视觉推理的大规模数据库。该数据集包含178000个需要视觉推理的数学题目，涵盖几何、代数、微积分等多个领域。每道题都不是简单的计算题，而是需要通过画图或视觉分析才能有效解决的复杂问题。

一、让AI学会"看图说话"的技术突破

传统的AI数学系统就像一个只会背公式的学生，遇到需要画辅助线或绘制函数图像的题目就犯难。研究团队的CodePlot-CoT系统则像是给这个学生配备了一套专业的绘图工具和使用方法。

这套系统的工作流程颇为巧妙：当AI遇到一道几何题时，它首先会用自然语言分析问题，就像我们平时做题时的思考过程。然后，当发现需要画图辅助理解时，AI不是直接尝试画图，而是生成一段Python绘图代码。这段代码就像是给绘图软件的详细指令，告诉它在哪里画点、如何连线、怎样标注。

代码执行后会产生一幅精确的数学图形，AI再将这幅图像作为新的信息输入，继续进行后续的推理分析。整个过程就像人类解题时"先画图，再分析"的思维模式，但借助了代码的精确性来确保图形的准确。

以一道典型的几何题为例：已知四边形ABCD中AB=4，BC=3，DC=12，AD=13，∠B=90°，求四边形面积。传统AI可能会陷入复杂的文字推理中，而CodePlot-CoT系统会先生成代码画出这个四边形，然后通过观察图形发现可以将其分解为两个三角形来计算面积，最终得出正确答案24。

这种方法的另一个优势是可解释性。通过查看AI生成的绘图代码，我们能清楚了解AI的推理思路，就像看到学生在草稿纸上的演算过程一样。这对于数学教育和AI可信性都具有重要意义。

二、破解图像转代码的技术难题

要让AI学会用代码画图，首先需要解决一个基础问题：如何将现有的数学图形转换为相应的绘图代码？这就像要教会AI看懂图纸并写出制作说明书。

研究团队开发了一个名为MatplotCode的专门转换器，它能够分析数学图形并生成相应的matplotlib代码。这个过程比想象中要复杂得多，因为同一个几何图形可以用多种不同的代码实现，而AI需要学会选择最合适、最清晰的代码写法。

MatplotCode的训练过程就像培养一个专业的技术制图员。它需要学会识别各种几何形状、理解空间关系、掌握绘图语法，还要保证生成的代码既能正确执行，又能准确还原原图的几何特征。在测试中，MatplotCode在1000个样本中有554个获得了最佳重构评价，明显超过了其他现有的转换工具。

更重要的是，MatplotCode生成的代码几乎都能成功运行，这意味着AI不会因为代码错误而中断推理过程。相比之下，一些商业大模型如GPT-o3和Gemini-2.5-Pro在类似任务上的成功率只有79.6%和86.2%，经常产生无法执行的代码。

这个转换器的成功为整个CodePlot-CoT系统奠定了基础。有了可靠的图像-代码转换能力，研究团队就能构建大量的训练样本，教会AI在什么情况下需要画图、应该画什么图、如何用代码实现。

三、Math-VR：专为视觉推理设计的数学题库

为了训练和评估需要视觉推理的AI数学系统，研究团队构建了Math-VR数据集。这不是普通的数学题集合，而是专门收集那些必须通过画图或视觉分析才能有效解决的数学问题。

Math-VR包含178150个双语（中英文）数学题目，其中29%是纯文本题目但需要视觉思维，71%是包含图形的多模态题目。这些题目涵盖了中学到大学初级水平的各个数学分支，其中几何题占到81%的比例，这并不意外，因为几何本身就是最需要视觉辅助的数学领域。

数据集的构建过程颇为严谨。研究团队首先从公开网站收集了90万道包含图形解析的数学题，然后使用AI筛选出真正需要数学图形辅助的题目，排除了那些图形纯粹装饰性的题目。每道题都经过了质量检查，确保问题描述完整、解答逻辑清晰。

与现有数学数据集不同，Math-VR强调的是"推理与图像"，而不是"理解给定图像"。传统数学AI测试更像是"看图回答问题"，而Math-VR测试的是"画图解决问题"的能力。比如一道关于等腰三角形的题目，AI不仅要理解题目描述，还要能画出对应的几何图形，分析不同的可能情况，最终得出正确结论。

为了确保评估的客观性，研究团队设计了两套评分标准。答案正确性（AC）采用严格的对错判断，只有完全正确的答案才能得满分。过程得分（PS）则会根据解题步骤给予部分分数，即使最终答案错误，如果推理过程中用对了某些关键方法，也能获得相应分数。

四、实验验证：CodePlot-CoT的实际表现如何

研究团队在Math-VR数据集上测试了CodePlot-CoT与众多现有AI模型的表现。结果显示，这种"代码驱动的视觉推理"方法确实带来了显著提升。

在开源模型中，CodePlot-CoT相比基础模型提升了21%的答案正确率，这个提升幅度相当可观。更有意思的是，CodePlot-CoT在某些方面甚至超越了参数规模更大的模型，说明巧妙的方法设计比单纯增加模型大小更有效。

闭源商业模型的表现也很有启发性。最强的Gemini-2.5-Pro在Math-VR上达到了64.7%的答案正确率和80.8%的过程得分，这已经相当不错，但仍然意味着大约三分之一的视觉推理数学题对当前AI来说仍是挑战。这恰恰说明了Math-VR数据集的价值——它确实捕捉到了现有AI系统的薄弱环节。

特别值得注意的是那些"思维链"模型的表现。这些模型通过更长的文本推理过程来提升解题能力，在Math-VR上确实比普通模型表现更好。但CodePlot-CoT表明，结构化的视觉推理可能比单纯延长文本推理链更有效。

研究团队还专门比较了代码驱动方法与直接图像生成方法的差异。结果显示，让AI直接画图的方法虽然也有一定效果，但远不如代码驱动方法稳定可靠。这验证了研究团队的核心假设：对于数学推理来说，精确性比像素级的图像真实性更重要。

为了验证自动评估的可靠性，研究团队还进行了人工评估对比。15名STEM专业学生对3000个模型答案进行了人工评分，结果与GPT-4.1的自动评分显示出很强的一致性，答案正确性评判的一致性达到75%，过程得分的相关性达到70%以上。

五、从效率角度看CodePlot-CoT的优势

除了准确性提升，CodePlot-CoT在计算效率方面也表现出色。传统的"思维链"方法往往需要生成大量文本来进行推理，而CodePlot-CoT通过精确的视觉信息减少了冗余的文字描述。

在2500个测试题目上，CodePlot-CoT平均每题生成1691.8个token（包括文本和代码），而基础模型需要生成3847.3个token。这意味着CodePlot-CoT不仅更准确，还更高效。每个生成的图像平均需要820.9个token的代码，看起来不少，但考虑到这些图像能显著提升推理效果，这个代价是值得的。

图像渲染的时间成本也很低。每张图片的渲染时间不到1秒，在整个推理过程中几乎可以忽略不计。而且，由于图像是通过代码生成的，不需要复杂的图像生成模型，整个系统的部署和维护都相对简单。

这种效率优势在实际应用中很重要。无论是在线数学辅导系统，还是智能教育平台，都需要在保证准确性的同时控制计算成本。CodePlot-CoT提供了一个很好的平衡点。

六、技术局限与未来展望

当然，CodePlot-CoT系统也存在一些局限性。最主要的问题是MatplotCode转换器还没有达到100%的准确率，这意味着有时生成的图形可能存在细微偏差。比如在一些复杂几何构造中，某个点可能没有完全落在预期的位置上，虽然不影响整体推理，但在需要极高精度的场合可能会有问题。

另一个限制是当前系统主要针对平面几何和函数图像，对于更复杂的三维几何、动态几何或者交互式图形的处理能力还有待提升。随着数学教育向更高层次发展，这些能力的重要性会日益凸显。

从更宏观的角度看，CodePlot-CoT代表了AI数学推理的一个新方向。它表明，单纯增加模型参数或延长推理链条可能不是最优解，更重要的是找到符合数学思维特点的表示和推理方法。代码作为一种结构化、精确的表示方式，在数学推理中有着天然的优势。

未来的发展方向可能包括更强大的图形-代码转换能力、对更多数学分支的支持、以及与符号计算系统的深度集成。随着这些技术的成熟，我们可能会看到真正能够"像数学家一样思考"的AI系统。

七、对数学教育的启发意义

CodePlot-CoT的研究成果不仅在技术层面有价值，对数学教育也有重要启发。它清晰地展示了视觉化在数学学习中的重要作用，以及如何将这种视觉化过程系统化、标准化。

传统的数学教学中，老师经常强调"画图"的重要性，但很少有人系统分析过什么时候需要画图、应该画什么图、如何画出有效的图。CodePlot-CoT通过AI系统的训练过程，实际上建立了一套"画图推理"的规范化流程。

这对开发智能教学系统很有价值。未来的数学学习软件不仅能够批改作业，还能在学生遇到困难时主动生成恰当的辅助图形，帮助学生理解抽象的数学概念。而且，由于整个过程是代码化的，系统还能解释为什么要画这样的图，每个图形元素代表什么含义。

同时，这项研究也提醒我们，在AI辅助教学中不能忽视数学思维的多样性。纯文本的数学推理虽然严谨，但视觉化推理同样重要，两者结合才能构成完整的数学思维能力。

说到底，这项研究揭示了一个简单而深刻的道理：解决复杂问题往往需要多种思维方式的配合。CodePlot-CoT通过让AI学会"边画边想"，不仅提升了数学推理能力，更为我们展示了如何构建更智能、更全面的AI系统。就像人类在面对复杂问题时会调动各种感官和思维工具一样，未来的AI也需要具备这种综合运用不同推理模式的能力。

这项研究最终告诉我们，技术的突破往往来自对人类思维过程的深入理解和巧妙模拟。当我们真正理解了人类是如何思考和解决问题的，才能开发出真正智能的AI系统。对于有兴趣进一步了解技术细节的读者，可以查阅研究团队发布的完整论文和开源代码，探索这个激动人心的研究领域。

Q&A

Q1：CodePlot-CoT系统是如何让AI画图解数学题的？

A：CodePlot-CoT不是让AI直接画图，而是让AI写绘图代码。当AI遇到需要画图的数学题时，它会生成一段Python代码来描述如何画图，然后执行这段代码生成精确的数学图形，最后用这个图形来辅助后续推理。这样避免了直接画图时的精度问题。

Q2：Math-VR数据集与普通数学题库有什么不同？

A：Math-VR专门收集需要视觉推理的数学题，包含178150个题目。与传统数学数据集不同，它强调的是"画图解决问题"而不是"看图回答问题"。每道题都需要通过绘制几何图形、函数图像等视觉辅助才能有效解决，涵盖几何、代数、微积分等多个领域。

Q3：CodePlot-CoT相比传统AI数学系统有多大提升？

A：实验结果显示，CodePlot-CoT比基础模型提升了21%的答案正确率。更重要的是，它在某些方面甚至超越了参数规模更大的模型，同时生成的内容更简洁高效，平均每题生成1691个token，比基础模型的3847个token少了一半以上。

人工智能计算机视觉数学教育

分享至