2025年6月5日,香港中文大学多媒体实验室(CUHK MMLab)的研究团队发表了一项突破性研究。由陈欣燕和张仁瑞共同第一作者领导的团队提出了MINT-CoT,一种全新的方法,旨在改进人工智能在处理数学视觉问题时的推理能力。这项研究已在arXiv上发布(arXiv:2506.05331v1),有兴趣深入了解的读者可通过GitHub(https://github.com/xinyan-cxy/MINT-CoT)访问其代码和数据集。
想象一下,当你解一道几何题时,你会怎么做?你可能会先看图,然后指着特定的角度、线段或形状,一边思考一边用手指引导自己的思路。传统的AI模型在解决这类问题时却像是"盲人摸象"——它们能看到整张图,但难以精确定位和关注问题中的关键元素。这就是当前AI在处理数学视觉问题时面临的挑战。
这个问题其实很像我们在陌生城市导航时的情况。传统AI相当于只能看到整个城市地图,却不知道应该关注哪个街区或路口;或者只能圈出大致区域,却无法精确定位到具体的拐角或地标。MINT-CoT则像是一个能够精确指向"在第五大道和橡树街交叉口的那个红色邮筒"的导航系统,让AI能够在推理过程中精确地关注数学图形中的关键元素。
研究团队指出,现有的方法在处理数学图像时主要存在三个问题:首先,它们依赖于粗粒度的矩形区域选择,这对于捕捉数学图像中复杂的结构(如线段、角度等)效果不佳;其次,主流视觉编码器在处理数学内容方面的感知能力有限,因为它们主要是基于自然图像训练的;最后,一些方法依赖外部工具来修改或生成图像,这增加了额外的复杂性和成本。
为了解决这些问题,研究团队开发了MINT-CoT(数学交织令牌思维链推理)方法。这种方法就像是给AI装上了一个精准的"数学显微镜",使它能够在思考过程中自动选择并关注与当前推理步骤最相关的图像部分,而且这种选择不限于矩形区域,可以是任意形状。
这项技术的核心是一个名为"交织令牌"(Interleave Token)的特殊标记,它就像是AI的"注意力指挥官"。在推理过程中,它会计算图像中每个视觉元素与当前思考步骤的相关性,然后挑选出最重要的视觉信息融入到推理中。这就像是数学老师在讲解题目时,用手指精确地指向图中的特定元素一样自然。
为了训练这种能力,研究团队构建了包含54,000个数学问题的MINT-CoT数据集。这些数据不仅包含问题和答案,还包含详细的推理步骤和每一步对应的视觉区域标注。这种精细的标注是通过一个四步流程自动生成的:首先将图像分割成网格;然后使用OCR技术识别图像中的文字并映射到网格;接着提取推理步骤中的关键词;最后,使用先进的多模态大语言模型将这些关键词与对应的图像区域对齐。
在训练方面,团队采用了一个三阶段的策略:首先是纯文本思维链训练,帮助模型学习基本的推理格式;然后是交织思维链监督微调,训练模型学习将视觉内容融入推理过程;最后通过强化学习进一步优化模型的交织推理能力。这种渐进式的训练方法就像是教孩子学习解题:先教基本解题思路,再教如何结合图表信息,最后通过大量练习提升综合应用能力。
研究团队使用这种方法训练了一个7B参数的模型(MINT-CoT-7B),并在多个数学视觉推理基准上进行了评估。结果令人振奋:在MathVista基准测试上,MINT-CoT-7B比基线模型提升了32.59%;在GeoQA基准上提升了26.92%;在MMStar数学子集上提升了23.2%。值得注意的是,这个模型在几何推理、代数推理和几何问题解决等多个方面都取得了显著进步。
以一个具体例子来说明MINT-CoT的优势:当面对一个关于圆中直径、切线和角度的几何问题时,传统模型可能会产生错误的答案,因为它无法精确定位关键的几何元素。而MINT-CoT能够精确地关注到题目中的直径、切线、角度等关键元素,并在推理的每一步都引入相关的视觉信息,从而得出正确答案。
这项研究的意义远不止于提高数学问题的解答准确率。它代表了AI系统在理解和处理结构化视觉信息方面的一个重要进步。在未来,类似的技术可能被应用到教育领域,帮助学生理解复杂的数学概念;或者应用到科学研究中,辅助分析复杂的图表和数据可视化。
总的来说,MINT-CoT为AI系统提供了一种更加精细、更加智能的方式来处理数学视觉推理问题。它不仅仅是看到了图像,更是学会了如何有策略地关注图像中的关键部分,这正是人类在解题过程中自然而然会做的事情。随着这类技术的不断发展,我们可以期待未来的AI系统在处理复杂视觉信息方面会变得越来越人性化和智能化。
好文章,需要你的鼓励
这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题:如何让AI既能写出高质量内容,又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法,他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感,最终训练出的模型在保持顶级质量的同时,创作多样性接近人类水平,为AI创意写作开辟了新方向。
上海AI实验室联合多所高校开发出VisualPRM系统,这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程,显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准,实现了在七个推理基准上的全面性能提升,即使是最先进的大型模型也获得了5.9个百分点的改进。
上海AI实验室团队通过LEGO积木设计了创新评测基准LEGO-Puzzles,系统测试了20个先进多模态大语言模型的空间推理能力。研究发现即使最强AI模型准确率仅57.7%,远低于人类93.6%的表现,揭示了当前AI在三维空间理解和多步序列推理方面的重大不足,为机器人、自动驾驶等应用发展提供重要参考。
字节跳动团队突破了AI图像生成领域的三大难题:身份识别不准确、文字理解偏差和图片质量不佳。他们开发的InfiniteYou技术采用创新的InfuseNet架构和多阶段训练策略,能够根据用户照片和文字描述生成高质量个性化图像。实验显示该技术在身份相似度、文本匹配度和图像质量方面均超越现有最佳方案,并具备出色的兼容性,为个性化内容创作开辟了新道路。