微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

智谱AI和清华大学联手打造GLM-4.1V-Thinking：让AI像人类一样深度思考的神奇模型

多模态AI强化学习视觉推理

智谱AI和清华大学联手打造GLM-4.1V-Thinking：让AI像人类一样深度思考的神奇模型

作者：科技行者

2025-07-03 14:00

分享至：

智谱AI和清华大学联合发布GLM-4.1V-Thinking视觉语言模型，通过创新的推理导向训练框架，让AI学会像人类一样深度思考后再回答。该模型在多个基准测试中超越了规模更大的竞争对手，并首次在开源社区提供了完整的多模态推理解决方案，为AI技术的实际应用开辟了新路径。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-03 14:00 • 科技行者

这项由智谱AI公司与清华大学联合开展的突破性研究于2025年7月1日发表在arXiv平台上（论文编号：arXiv:2507.01006v1），研究团队包含了来自智谱AI公司和清华大学的数十位研究人员。有兴趣深入了解的读者可以通过https://github.com/THUDM/GLM-4.1V-Thinking访问完整的代码、模型和详细信息。

当你和朋友聊天时，有没有注意到一个有趣的现象：当朋友问你一个复杂问题时，你通常不会立刻脱口而出答案，而是会先在心里默默思考一番，理清思路后再开口回答。这种思考过程包括了分析问题、回忆相关知识、权衡不同选择，甚至可能推翻之前的想法重新思考。然而，传统的AI模型就像一个过于急躁的学生，总是立刻给出答案，缺乏这种深度思考的能力。

智谱AI和清华大学的研究团队意识到了这个问题，他们开发了一个名为GLM-4.1V-Thinking的视觉语言模型。这个模型最大的特点就是会"思考"，就像一个慎重的学者一样，在给出最终答案之前会先进行详细的内心独白和推理过程。

研究团队发现，让AI学会思考并不简单。就像教一个孩子学会深度思考一样，需要经过多个阶段的训练。他们采用了一种叫做"推理导向训练框架"的方法，这个框架包含三个关键阶段：预训练、监督微调和强化学习。

在预训练阶段，研究团队就像为AI准备一个丰富的图书馆，里面包含了大量的图像文本配对数据、学术文献、文档图表、教学视频等各种类型的信息。这个"图书馆"的规模是惊人的，仅图像文本配对数据就超过100亿对。为了确保数据质量，研究团队设计了一套严格的筛选流程，就像图书管理员会仔细挑选高质量书籍一样。他们使用CLIP模型来计算图像和文本的相似度，只保留相似度高于0.3的配对，还采用了概念平衡重采样策略来减少数据中的偏见。

更有趣的是，研究团队还开发了一个"重新描述"模型，专门用来改善原始数据中的文字描述。这个模型就像一个细心的编辑，会将原本嘈杂、不准确的图片描述重新写成更精确、更详细的版本，同时保持事实的准确性。

在处理多模态交错数据时，研究团队面临了一个巨大挑战：网络上的数据往往质量参差不齐，很多样本缺乏真正的图文对应关系。为了解决这个问题，他们设计了专门的处理流程。对于网页数据，他们首先聚合来自大规模开源数据集的原始内容，然后进行多阶段清理和过滤。他们会丢弃与文章内容语义无关的图片，移除广告和二维码等噪音元素，并使用启发式规则和专用图像分类器来提高处理精度。

在学术书籍处理方面，研究团队收集了超过1亿本数字化书籍，重点筛选科学、技术、工程和数学领域的内容。他们使用PDF解析工具进行深度解析，提取高质量的图文交错内容。这就像是将一座巨大的图书馆数字化，并且确保每一页的图片和文字都能完美对应。

为了增强模型的文字识别能力，研究团队构建了一个包含2.2亿张图片的OCR数据集。这个数据集包括三个部分：合成文档图像、自然场景文字图像和学术文档。合成文档图像是通过将语言预训练语料库中的文本渲染成不同字体、大小、颜色和方向的图片制作而成的。自然场景文字图像则是通过Paddle-OCR工具处理大量自然图像，自动提取文本内容和对应的边界框获得的。学术文档部分采用了类似Nougat的处理方法，将arXiv论文的LaTeX源代码标准化并转换为HTML格式，最终分割成页面并渲染。

在视觉定位方面，研究团队构建了一个混合定位数据集，涵盖自然图像和图形用户界面两个主要领域。对于自然图像，他们使用LAION-115M作为基础数据集，利用GLIPv2模型解析每张图片的标题并自动预测每个名词短语对应的边界框。对于GUI领域，他们从CommonCrawl快照中提取URL并捕获相应的网页截图，使用Playwright框架深度交互网页，编译和解析所有可见的DOM元素及其精确渲染的边界框。

在视频理解方面，研究团队构建了一个大规模、高质量的视频文本数据集。为了解决标准标题中常见的幻觉和遗漏问题，他们开发了一个精细的人工标注流程，准确捕捉复杂的动作和场景中的文字。此外，为了编码更深层的视觉叙事，他们使用人机协作工作流程标注关键的电影元素，如摄像机运动和镜头构图。

在模型架构设计上，GLM-4.1V-Thinking采用了三个核心组件：视觉编码器、MLP适配器和大语言模型解码器。研究团队使用AIMv2-Huge作为视觉编码器，GLM作为语言模型。为了处理视频输入，他们将原始的2D卷积替换为3D卷积，实现了2倍的时间下采样，从而提高模型效率。

为了支持任意图像分辨率和纵横比，研究团队引入了两个关键改进。首先，他们集成了2D-RoPE技术，使模型能够有效处理极端纵横比（超过200:1）或高分辨率（超过4K）的图像。其次，为了保持预训练ViT的基础能力，他们保留了原始的可学习绝对位置嵌入。在训练过程中，这些嵌入通过双三次插值动态适应可变分辨率输入。

对于视频输入的时间建模，研究团队在每个帧标记后插入时间索引标记，其中时间索引通过将每帧的时间戳编码为字符串来实现。与多图像输入不同，视频帧形成时间上连贯的序列。这种设计明确告知模型真实世界的时间戳和帧之间的时间距离，从而提升其时间理解和定位能力。

在监督微调阶段，研究团队的目标是将基础视觉语言模型转换为能够进行长链式思维推理的模型。他们精心策划了一个长思维链语料库，涵盖可验证领域（如STEM问题）和不可验证任务（如指令遵循、开放式写作）。与以往将SFT应用于短思维链数据的工作流程不同，他们故意省略了这一步骤。他们认为SFT的作用不是注入新知识，而是将模型现有的视觉语言理解与更有效的思考和回应风格对齐。

在回应格式设计上，每个回应都遵循标准化结构： {思考内容} {回答内容} 。思考部分捕捉模型的推理过程，包括反思、回溯、重试和验证等策略。回答部分呈现简洁、完整且逻辑合理的解决方案。对于有特定最终答案的可验证任务，答案部分的最终结果需要用<|begin_of_box|>和<|end_of_box|>包装，并且只接受一个框标跨度。

研究团队发现，冷启动数据集的质量对RL训练的稳定性至关重要。在实践中，他们发现构造不当的数据可能导致训练不稳定甚至崩溃。为了缓解这个问题，他们实施了严格的数据清理流程，强制严格遵守格式约定（如正确使用和标签），并移除推理风格不一致或嘈杂的示例。

强化学习阶段是整个训练过程的关键。在这个阶段，研究团队主要依靠强化学习来提升模型性能。他们采用了可验证奖励强化学习（RLVR）和人类反馈强化学习（RLHF）的组合，在所有多模态域和能力上进行大规模RL训练，包括STEM问题求解（如数学、物理、化学）、定位、光学字符识别（OCR）、视频理解、GUI代理、图表和文档理解、逻辑推理以及指令遵循。

在奖励系统设计上，研究团队建立了一个兼容RLVR和RLHF的奖励系统，并为每个多模态域进行了定制。对于RLVR任务，系统首先从生成输出中提取包含最终答案的片段，然后将这个关键答案与参考答案进行比较以确定正确性，最后返回二进制（0/1）或连续形式的奖励值。对于RLHF任务，系统直接获取输出的答案片段，并使用奖励模型进行评分。

研究团队发现，在训练统一的VLM处理不同技能时，即使某个单一能力的奖励信号存在任何弱点，都可能破坏整个训练过程。他们通过实验发现，即使STEM子域提供了高质量奖励，但多图像QA任务的奖励缺陷也会导致所有域的模型崩溃。这强调了稳定、有效的RL需要在每个域中都有精心调整、抗黑客攻击的验证器。

为了应对这个挑战，研究团队设计了一个领域特定的奖励系统，具有以下特点：共享验证函数（如格式验证、框内容提取和精确匹配等常见检查被实现为可重用函数）、领域特定模块（每个域都有自己的子模块，支持复杂验证逻辑，包括分支工作流、功能评估和由自定义判断提示和超参数驱动的基于模型的判断）以及单元测试（为了验证每个域中的奖励系统，他们定义了针对该域输出分布的单元测试，并基于测试结果迭代改进奖励逻辑）。

研究团队提出了一种名为"带课程采样的强化学习"（RLCS）的创新方法。这种方法的核心思想是动态调整训练样本的难度，以匹配模型不断发展的能力。就像为学生安排学习进度一样，太简单的题目无法促进学习，太难的题目又会让学生挫败，只有适中难度的题目才能最大化学习效果。

在RLCS框架中，研究团队采用了自适应课程，持续调整训练样本的难度以匹配模型不断发展的能力。他们既评估样本的离线难度也评估在线难度。在训练前，他们通过对整个数据集运行多个成熟视觉语言模型（或早期RL检查点）的pass@k评估，并将这些定量分数与专家人类难度标注合并，来评估每个样本的固有难度。这个过程产生了一组细粒度的难度标签，将数据分为从非常简单到非常困难的多个层次。

在训练过程中，研究团队执行在线难度分级。对于每个生成的展开，他们记录pass@k结果，将其映射到相应的难度层，并将这些结果与离线标签合并。这种在线难度分布也为模型当前性能提供了有价值的见解。通过利用这些难度标签以及模型的子类别性能，他们在训练迭代的粒度上持续重新权衡不同难度类别的采样比例。

为了提高强化学习的有效性，研究团队实施了几个关键改进。他们采用了更大的批量大小，当在训练期间混合多域多模态数据时，推荐相对较大的批量大小以在长期内实现更高的性能上限。他们还开发了通过比率EMA进行动态采样扩展的方法。在GRPO中，当同时移除熵损失和KL损失时，完全由正确或完全由错误样本组成的展开批次不提供有用的梯度。换句话说，全正确/错误提示减少了可用批量大小。随着这些全正确或全错误批次的比例增长或波动，有效批量大小可能剧烈变化，降低训练稳定性。

研究团队还实施了强制回答机制。当思考过程变得过长时，可能会被展开长度限制截断。因为模型随后无法产生答案，通常会被分配零奖励。然而，这种冗长的推理不一定是错误的——对于困难问题，过长思考路径的已生成部分可能是完全有效的。以这种方式截断不仅浪费了展开预算，还向训练注入了噪音。为了解决这个问题，他们通过插入标记后跟标记来强制截断，这促使模型发出最终答案并允许他们为其推理给予公平奖励。

在训练稳定性方面，研究团队识别了几个显著影响整个训练流程稳定性的关键因素。他们发现冷启动SFT数据的质量对训练稳定性有重要影响，因此强烈建议将冷启动数据质量维持在某个阈值之上。他们移除了熵损失，因为发现加入熵损失来促进多样性可能导致模型产生乱码输出，最终导致训练崩溃。在展开过程中，他们使用top-p = 1而不是更小的值来产生更稳定的RL训练。

在基础设施优化方面，研究团队广泛优化了RL基础设施，专注于几个关键组件。他们实现了跨DP等级的序列长度负载平衡，因为每个样本的展开长度事先未知，一些等级可能被分配许多极长序列（如视频或长文档提示，或具有长回应的困难问题）。他们还采用了序列打包和梯度累积的等级内训练方法，因为RL中样本长度的不可预测变化使得无法提前知道每个DP等级将执行多少次前向传递。

在评估方面，研究团队对GLM-4.1V-9B-Thinking进行了全面评估，涵盖28个公共基准测试，包括八个不同类别：通用VQA、STEM、OCR和图表、长文档、视觉定位、GUI代理、编程和视频理解。评估结果显示，GLM-4.1V-9B-Thinking在10B参数以下的模型中在23个基准测试上创造了新的最先进性能，展现了在广泛多模态任务谱上的一致且强劲的性能。

在通用VQA领域，GLM-4.1V-9B-Thinking在五个广泛使用的基准测试上超越了所有10B以下的竞争开源模型，涵盖单图像和多图像设置。在STEM类别中，该模型在MMMU_Val、MMMU_Pro、VideoMMMU和AI2D等具有挑战性的科学和工程基准测试上取得了最高性能。在OCR和图表领域，GLM-4.1V-9B-Thinking在ChartQAPro和ChartMuseum上创造了新的最先进分数。对于长文档理解，GLM-4.1V-9B-Thinking在MMLongBench上超越了所有其他模型。

值得注意的是，尽管GLM-4.1V-9B-Thinking的规模相对较小，但在28个基准测试中的18个上超越了规模大得多的Qwen2.5-VL-72B模型，包括MMStar、MUIRBENCH、MMMU_Pro和ChartMuseum等特别具有挑战性的任务。与专有的GPT-4o相比，GLM-4.1V-9B-Thinking在大多数任务上取得了优异结果，尽管GPT-4o具有显著更大的规模和闭源优势。

为了探索多域强化学习中的跨域泛化现象，研究团队选择了四个代表性域：STEM、OCR和图表、定位和GUI代理。实验结果表明，强化学习展现了强大的跨域泛化和相互促进。在一个域上的训练提升了其他域的性能，而跨域联合训练在每个域中产生了更大的改进。这种协同效应可能是GLM-4.1V-9B-Thinking卓越性能的基础。

研究团队也坦诚地讨论了当前研究的局限性。首先，虽然RL提高了任务完成率，但并不一致地改善推理质量。在某些情况下，模型产生正确答案但依赖错误的推理步骤。这个问题的出现是因为当前的奖励模型通常评估最终结果而不评估中间推理步骤。因此，如果有缺陷或幻觉的推理链产生正确答案，可能会被无意中强化。

其次，RL训练可能表现出不稳定性。早期实验表明，设置上的微小变化可能导致推理深度或输出风格的显著变化。尽管后期版本的改进（如改进的奖励设计和增强的冷启动数据）使训练更加稳定，但剩余的敏感性表明大规模RL优化中的更深层挑战。

第三，尽管GLM-4.1V-9B-Thinking在各种任务上表现强劲，但在复杂场景中仍有困难。涉及杂乱图像、遮挡物体或模糊视觉细节的情况可能导致模型出现感知错误，从而损害其推理能力。在这些条件下，模型可能诉诸猜测或一般假设，而不是进行基于根据的推理。

展望未来，研究团队认为一个关键方向是改进模型推理的监督和评估方式。未来的奖励模型应该不仅评估最终答案，还要评估中间推理步骤，积极检测幻觉和标记逻辑不一致。对于具有主观评估的任务，探索防止奖励黑客攻击的策略也是朝向通用智能的必要步骤。

研究团队还对多模态训练对纯文本推理任务的潜在益处感兴趣。例如，理解视觉推理任务（如解释图像中的代码）是否能增强纯文本编程任务的性能是一个有前景的研究方向。探索视觉和语言模态如何相互强化可能会带来通用推理能力的重大进展。

随着模型能力的提高，评估框架也必须相应发展。许多当前基准测试正接近饱和或无法有效识别关键错误，如推理链中的幻觉。未来的基准测试应该既更具挑战性又更具诊断性，专门设计用于检测更多失败模式，如捷径推理或幻觉。

总的来说，GLM-4.1V-9B-Thinking代表了朝向通用多模态推理的重要一步。通过推理导向的训练框架，该模型学会了在视觉、文本、数学、科学和代理域中进行推理。研究团队将GLM-4.1V-9B-Thinking开源，以支持多模态推理的进一步研究。这项工作不仅推进了人工智能的技术边界，也为未来开发更智能、更可靠的AI系统奠定了坚实基础。

Q&A

Q1：GLM-4.1V-Thinking的"思考"功能是什么意思？它真的会思考吗？ A：GLM-4.1V-Thinking的"思考"指的是模型在给出最终答案前会先生成详细的推理过程，就像人类解决问题时的内心独白。虽然这不是真正意义上的人类思考，但模型会展示完整的分析步骤、考虑不同可能性、甚至推翻之前的想法重新思考，让整个推理过程更加透明和可靠。

Q2：这个模型有什么实际用途？普通人能用到吗？ A：GLM-4.1V-9B-Thinking在多个领域都有实际应用价值，包括帮助学生解决数学物理题、协助医生分析医疗图像、辅助程序员调试代码、帮助设计师生成UI界面等。研究团队已经开源了这个模型，普通人可以通过GitHub（https://github.com/THUDM/GLM-4.1V-Thinking）获取相关资源，不过使用起来可能需要一定的技术背景。

Q3：GLM-4.1V-Thinking比其他AI模型强在哪里？ A：最大的优势是它具备深度推理能力，不会急着给出答案而是先仔细思考。在性能上，这个只有90亿参数的模型在很多任务上甚至超越了720亿参数的大型模型，特别是在数学解题、视频理解、图表分析等复杂任务上表现突出。更重要的是，它的推理过程是透明的，用户可以看到模型是如何一步步得出结论的。

多模态AI强化学习视觉推理

分享至