微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 用"难题负样本"教大型视觉语言模型如何读懂几何图形——清华大学开发全新对比学习方法提升几何推理能力

用"难题负样本"教大型视觉语言模型如何读懂几何图形——清华大学开发全新对比学习方法提升几何推理能力

2025-05-29 16:17
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-29 16:17 科技行者

在多模态人工智能领域,几何数学推理一直是衡量大型多模态模型(LMM)能力的重要指标。然而,即使是当前最先进的模型如GPT-4o、Claude-3和Qwen2.5-VL,在处理几何问题时仍然会出现幻觉,比如凭空创造不存在的几何元素或错误理解空间关系。这一现象引起了清华大学研究团队的关注。由孙凯、白宇时、杨震、张家杰、齐冀、侯磊和李娟子组成的研究小组于2025年5月在arXiv(arXiv:2505.20152v1)上发表了一篇题为《Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models》的研究论文,提出了一种创新的硬负样本对比学习框架,显著提升了大型多模态模型在几何理解和推理方面的能力。

想象一下,如果你正在教一个孩子识别不同的几何图形。你可能会先展示一个正方形,并告诉他"这是正方形"。但仅仅知道正方形的样子是不够的,孩子还需要学会辨别什么不是正方形——比如长方形、菱形等相似但有区别的图形。这就是"负样本学习"的基本思想。而在这项研究中,清华团队采用了类似的方法,但难度更高——他们不是使用明显不同的图形作为负样本,而是创造了"硬负样本",即与正确图形非常相似但在关键细节上有差异的图形,迫使模型学会识别细微的几何特征。

目前大多数多模态模型使用的视觉编码器(如CLIP)主要是在自然场景图像上训练的,这些图像与几何图形有很大不同。就像一个只在城市里生活的人可能对森林中的植物辨识能力有限一样,这些视觉编码器在处理精细的几何元素时表现不佳。清华团队开发的方法就像是专门为这些模型提供了一门"几何识别特训课",通过精心设计的难题来提升它们的几何理解能力。

让我们深入了解这个研究团队是如何让人工智能更好地"看懂"几何图形的。

一、为什么现有模型在几何推理上表现不佳?

当前最先进的多模态模型在处理几何问题时常常会犯错,这就像一个学生在解题时看错了题目中的图形信息。研究人员在论文中展示了一个简单的平行线问题,即使是顶尖模型如GPT-4o、Claude-3和Qwen2.5-VL都会出现幻觉,生成不存在的几何元素(如△ABC和△ABE)或错误理解空间关系。

这一问题的根本原因在于这些模型的"眼睛"——视觉编码器(通常是CLIP模型)——主要是在普通自然场景图像上训练的,而不是专门针对几何图形进行优化。这就像是让一个只学过识别动物的人去辨认几何图形一样,缺乏专门的训练和经验。

虽然有研究者尝试通过在专门的数学数据集上进行微调或使用大量图像-文本对来增强模型的视觉感知能力,但这些方法仍有局限性。特别是,许多图像描述(caption)是由现有的LMM生成的,可能本身就包含幻觉或错误信息。仅仅使用这些正样本(正确的图像-文本对)进行训练,可能会导致模型学习到错误的关联。

想象一下,如果你只给学生展示正确的答案,而不告诉他们哪些解题方法是错误的,那么学生很容易在遇到稍微不同的问题时犯错。同样,要让模型真正理解几何信息,不仅需要正确的例子,还需要专门设计的"陷阱"或"难题"来强化学习。

二、硬负样本对比学习:教模型区分细微差异的新方法

清华团队提出的核心创新是一种硬负样本对比学习框架,包括两大类负样本构建方法:基于图像的和基于文本的。

### 基于图像的负样本构建

想象你是一位几何教师,不仅展示正确的几何图形,还会展示一些看起来很像但实际上有错误的图形,让学生学会辨别细微差异。清华团队的方法也是如此。

研究团队首先使用大语言模型(如GPT-4o)为给定的几何问题生成详细的描述和相应的图形生成代码,这些代码可以精确地绘制出符合问题描述的几何图形,形成"正样本"。然后,研究人员会让大语言模型对这些代码进行微小的修改,生成视觉上非常相似但在几何上不正确的图形,作为"硬负样本"。

举个例子,对于一个包含直角三角形的问题,系统可能会生成一个看起来几乎相同但角度略有变化的图形,使其不再是直角三角形。这种微小但关键的变化迫使模型学会关注几何图形的本质特征,而不是简单的外观。

### 基于文本的负样本构建

除了图像,研究团队还开发了两种创建文本负样本的策略:

1. 基于检索的方法:研究团队使用SimANS模型对大量几何领域的文本进行编码,计算相似度,并检索出与正样本描述词汇相似但内容不同的文本作为负样本。这就像找出那些描述看起来很像但实际上在讲不同事物的文本。

2. 基于规则的方法:研究团队分析了模型在MM-MATH数据集上的错误,识别出四种主要的图像元素识别错误类型,然后根据这些错误类型设计了对应的规则来构建负样本:

- 几何元素顺序:修改几何图形中字母的顺序,如将ABCD改为CDAB(但确保新顺序不是原始顺序的循环变换)。

- 形状属性:改变属性,如将正方形改为长方形,或将直角三角形改为等腰三角形。

- 几何关系:修改关系,如将两条线的平行关系改为其他关系,或改变三角形之间的相似关系。

- 数值:调整描述中的数值,如修改角度或线段长度。

### MMCLIP:处理任意数量负样本的新方法

传统的CLIP训练通常采用批内负采样,这限制了其对精细图像理解的能力。清华团队提出了MMCLIP训练策略,专注于单个图像及其对应的硬负样本进行训练,完全抛弃了传统的批内负样本。

这就像是为每个学生提供一套专门的习题,而不是让所有学生做同一套题。在这种方式下,视觉编码器被迫学会区分所有情况下的细微差异,从而增强其精细化的几何理解能力。

研究团队在实验中证明,不同类型的硬负样本对模型性能的提升各不相同,其中基于真实考试图像构建的负样本效果最为显著——仅使用4K个图像负样本的效果就超过了100K个文本负样本。这表明,质量比数量更重要,精心设计的高质量负样本可以更有效地提升模型性能。

三、MMGeoLM:经过硬负样本训练的几何理解模型

基于上述方法,研究团队训练了一个名为MMGeoLM的模型,并与现有的开源和闭源模型进行了广泛比较。

### 模型架构与训练细节

MMGeoLM采用LLaVA架构,包括三个部分:视觉编码器、2层MLP适配器和大语言模型主干。研究团队使用了两种LLM主干:Mammoth2-7B和Qwen2.5-7B-Instruct,视觉编码器基于AltCLIP,配置为最大长度512个标记,模型大小为0.5B参数。

训练过程分为三个阶段: 1. 视觉-文本对齐阶段:首先在400K MAVIS图像-文本对齐数据集上预训练AltCLIP,然后使用MMCLIP策略在100K硬文本负样本(每个包含10个基于规则和30个基于检索的负样本)和4K硬图像负样本(每个包含10个负几何图)上进行微调。

2. 第二阶段:使用67K G-LLAVA图像-文本对齐数据调整MLP适配器。

3. 第三阶段:在300K MAVIS指令数据、117K G-LLaVA指令数据和17K开放式几何问题(包括团队收集的12K问题和随机抽样的5K MM-MATH几何问题)上进行监督式微调。

### 实验结果

研究团队在四个几何基准上评估了MMGeoLM的表现:

1. 多项选择类基准: - GeoQA:一个基于平面几何的几何问题回答任务 - We-Math:一个包含不同难度问题的视觉数学推理任务 - MathVista:广泛用于评估LMM性能的基准

2. 开放式问题基准: - MM-MATH:一个具有高区分度的二级学校水平问题集

实验结果令人瞩目:MMGeoLM在MathVista和MM-MATH基准上达到了最先进的性能。在GeoQA基准上,MMGeoLM-Qwen2.5-7B仅比Chimera-Reasoner-8B低0.4%,但后者是专门在GeoQA上训练的。值得注意的是,即使只有7B的规模,MMGeoLM也能在某些任务上与GPT-4o等强大的闭源模型相媲美。

研究人员还进行了详细的消融实验,分析了不同类型的硬负样本对几何推理性能的影响。实验结果显示,通过真实考试图像构建的负样本效果最为显著——仅使用4K图像负样本的效果就超过了100K文本负样本。此外,增加硬负样本的数量可以提高性能,但超过一定阈值后会出现收益递减甚至性能下降的情况。

四、研究意义与未来展望

这项研究的重要意义在于,它提供了一种新的方法来增强大型多模态模型的几何理解能力。通过专门设计的硬负样本对比学习,模型能够学会辨别几何图形中的细微差异,从而更准确地进行几何推理。

这种方法不仅适用于几何理解,还可能扩展到其他需要精细视觉理解的领域,如医学图像分析、工程图纸识别等。通过为模型提供既相似又有关键差异的样本,可以显著提升模型的细粒度识别能力。

然而,研究团队也指出了方法的局限性。尽管基于扰动Python脚本构建的图像硬负样本效果显著,但该方法在很大程度上依赖于LLM生成的代码和描述的准确性。这些合成构建中的任何系统性偏差都可能引入与人类设计的几何问题不同的人工制品。因此,模型在真实世界视觉输入上的表现仍需进一步验证。

未来的研究方向可能包括进一步优化负样本构建方法,扩展到更多几何领域,以及将类似的硬负样本学习策略应用到其他视觉理解任务中。随着这些技术的发展,我们可以期待未来的多模态模型能够像人类几何教师一样,精确理解和解决复杂的几何问题。

总的来说,清华大学研究团队的这项工作为提升人工智能在精细几何理解方面的能力提供了一个强有力的新方法,展示了负样本学习在教授AI"看懂"世界方面的重要性。正如学习识别错误对人类学习几何一样重要,学习辨别"几乎正确但实际错误"的样本对AI理解几何同样至关重要。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-