2025年6月5日,香港中文大学多媒体实验室(CUHK MMLab)的研究团队发表了一项突破性研究。由陈欣燕和张仁瑞共同第一作者领导的团队提出了MINT-CoT,一种全新的方法,旨在改进人工智能在处理数学视觉问题时的推理能力。这项研究已在arXiv上发布(arXiv:2506.05331v1),有兴趣深入了解的读者可通过GitHub(https://github.com/xinyan-cxy/MINT-CoT)访问其代码和数据集。
想象一下,当你解一道几何题时,你会怎么做?你可能会先看图,然后指着特定的角度、线段或形状,一边思考一边用手指引导自己的思路。传统的AI模型在解决这类问题时却像是"盲人摸象"——它们能看到整张图,但难以精确定位和关注问题中的关键元素。这就是当前AI在处理数学视觉问题时面临的挑战。
这个问题其实很像我们在陌生城市导航时的情况。传统AI相当于只能看到整个城市地图,却不知道应该关注哪个街区或路口;或者只能圈出大致区域,却无法精确定位到具体的拐角或地标。MINT-CoT则像是一个能够精确指向"在第五大道和橡树街交叉口的那个红色邮筒"的导航系统,让AI能够在推理过程中精确地关注数学图形中的关键元素。
研究团队指出,现有的方法在处理数学图像时主要存在三个问题:首先,它们依赖于粗粒度的矩形区域选择,这对于捕捉数学图像中复杂的结构(如线段、角度等)效果不佳;其次,主流视觉编码器在处理数学内容方面的感知能力有限,因为它们主要是基于自然图像训练的;最后,一些方法依赖外部工具来修改或生成图像,这增加了额外的复杂性和成本。
为了解决这些问题,研究团队开发了MINT-CoT(数学交织令牌思维链推理)方法。这种方法就像是给AI装上了一个精准的"数学显微镜",使它能够在思考过程中自动选择并关注与当前推理步骤最相关的图像部分,而且这种选择不限于矩形区域,可以是任意形状。
这项技术的核心是一个名为"交织令牌"(Interleave Token)的特殊标记,它就像是AI的"注意力指挥官"。在推理过程中,它会计算图像中每个视觉元素与当前思考步骤的相关性,然后挑选出最重要的视觉信息融入到推理中。这就像是数学老师在讲解题目时,用手指精确地指向图中的特定元素一样自然。
为了训练这种能力,研究团队构建了包含54,000个数学问题的MINT-CoT数据集。这些数据不仅包含问题和答案,还包含详细的推理步骤和每一步对应的视觉区域标注。这种精细的标注是通过一个四步流程自动生成的:首先将图像分割成网格;然后使用OCR技术识别图像中的文字并映射到网格;接着提取推理步骤中的关键词;最后,使用先进的多模态大语言模型将这些关键词与对应的图像区域对齐。
在训练方面,团队采用了一个三阶段的策略:首先是纯文本思维链训练,帮助模型学习基本的推理格式;然后是交织思维链监督微调,训练模型学习将视觉内容融入推理过程;最后通过强化学习进一步优化模型的交织推理能力。这种渐进式的训练方法就像是教孩子学习解题:先教基本解题思路,再教如何结合图表信息,最后通过大量练习提升综合应用能力。
研究团队使用这种方法训练了一个7B参数的模型(MINT-CoT-7B),并在多个数学视觉推理基准上进行了评估。结果令人振奋:在MathVista基准测试上,MINT-CoT-7B比基线模型提升了32.59%;在GeoQA基准上提升了26.92%;在MMStar数学子集上提升了23.2%。值得注意的是,这个模型在几何推理、代数推理和几何问题解决等多个方面都取得了显著进步。
以一个具体例子来说明MINT-CoT的优势:当面对一个关于圆中直径、切线和角度的几何问题时,传统模型可能会产生错误的答案,因为它无法精确定位关键的几何元素。而MINT-CoT能够精确地关注到题目中的直径、切线、角度等关键元素,并在推理的每一步都引入相关的视觉信息,从而得出正确答案。
这项研究的意义远不止于提高数学问题的解答准确率。它代表了AI系统在理解和处理结构化视觉信息方面的一个重要进步。在未来,类似的技术可能被应用到教育领域,帮助学生理解复杂的数学概念;或者应用到科学研究中,辅助分析复杂的图表和数据可视化。
总的来说,MINT-CoT为AI系统提供了一种更加精细、更加智能的方式来处理数学视觉推理问题。它不仅仅是看到了图像,更是学会了如何有策略地关注图像中的关键部分,这正是人类在解题过程中自然而然会做的事情。随着这类技术的不断发展,我们可以期待未来的AI系统在处理复杂视觉信息方面会变得越来越人性化和智能化。
好文章,需要你的鼓励
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。
谷歌DeepMind团队开发的GraphCast是一个革命性的AI天气预测模型,能够在不到一分钟内完成10天全球天气预报,准确性超越传统方法90%的指标。该模型采用图神经网络技术,通过学习40年历史数据掌握天气变化规律,在极端天气预测方面表现卓越,能耗仅为传统方法的千分之一,为气象学领域带来了效率和精度的双重突破。