微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

小米发布MiMo-VL-7B：一款令人惊艳的开源视觉语言模型，通用性能与推理能力双双突破

人工智能视觉语言模型多模态推理

小米发布MiMo-VL-7B：一款令人惊艳的开源视觉语言模型，通用性能与推理能力双双突破

作者：科技行者

2025-07-07 17:34

分享至：

小米LLM-Core团队开源了两款强大的视觉语言模型MiMo-VL-7B-SFT和MiMo-VL-7B-RL，在通用视觉理解和多模态推理领域创下新纪录。仅有7B参数的MiMo-VL-7B-RL在40项评测中的35项上超越Qwen2.5-VL-7B，在OlympiadBench上达到59.4分，超越了参数量达78B的模型。研究采用四阶段预训练与混合在线策略强化学习相结合的方法，处理了2.4万亿个标记。研究发现，预训练阶段纳入高质量推理数据至关重要，而混合强化学习虽提升性能但存在多任务同步优化挑战。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-07 17:34 • 科技行者

近日，小米公司旗下的LLM-Core团队发布了一项重磅研究成果——MiMo-VL-7B系列视觉语言模型。这项研究于2025年6月4日在arXiv预印本平台发布，论文标题为《MiMo-VL Technical Report》，有兴趣深入了解的读者可以通过https://github.com/XiaomiMiMo/MiMo-VL访问完整论文和模型代码。

一、小小模型，大大能耐：MiMo-VL-7B的惊人实力

想象一下，你有一位只有7岁的小朋友，却能解答大学生都头疼的数学题，还能精准理解各种图像内容，甚至帮你操作电脑完成复杂任务。这听起来不可思议，但小米团队正是创造了这样一个"小个子大智慧"的AI模型。

MiMo-VL-7B系列包含两个版本：经过监督微调的MiMo-VL-7B-SFT和经过强化学习优化的MiMo-VL-7B-RL。虽然它们都只有7B参数（可以理解为AI的"大脑容量"只有7B个神经元连接），但性能却异常出色，甚至超越了许多拥有更大"大脑"（高达78B参数）的模型。

具体来说，MiMo-VL-7B-RL在40项评测任务中的35项上超过了同等规模的Qwen2.5-VL-7B模型。在数学奥林匹克级别的多模态推理基准测试OlympiadBench上，它获得了59.4分的高分，超越了许多参数量高达78B的大模型。更令人惊讶的是，在图形界面交互能力测试OSWorld-G上，它以56.1分的成绩创下新标准，甚至超过了专门为此类任务设计的专用模型如UI-TARS。

这就像一位小学生不仅在普通考试中拿满分，还能在大学奥数比赛中击败大学生，同时还是电脑操作的高手——这样的全能型人才在AI世界中也是极为罕见的。

二、独特的训练方法：像教育天才儿童一样培养AI

小米团队是如何打造出这款超能力模型的呢？他们采用了一种多阶段、多方法结合的训练策略，就像培养一个天才儿童需要精心设计的教育计划一样。

首先是四阶段的预训练过程，就像孩子从幼儿园到高中的系统学习：

第一阶段：投射器热身阶段。这就像教孩子认字之前先教会他们辨认形状和颜色。模型通过处理图像-文本配对数据，学习将视觉概念映射到语言模型的表示空间。

第二阶段：视觉-语言对齐阶段。这相当于孩子开始学习将看到的事物与语言描述对应起来。在这个阶段，研究团队解冻了视觉变换器(ViT)，并引入了穿插数据以进一步加强视觉-语言对齐能力。

第三阶段：多模态预训练阶段。这就像青少年开始接触各种知识和技能，从体育到音乐，从科学到艺术。此时，所有参数都可训练，模型接触到更多样化的数据和任务，包括OCR（光学字符识别）、定位、视频和GUI（图形用户界面）数据，总计处理了1.4万亿个标记，以增强模型的通用多模态能力。

第四阶段：长上下文监督微调阶段。这相当于高中阶段的深入学习。训练序列长度从8K扩展到32K标记，引入了额外的数据类型，如长纯文本、高分辨率图像、长文档、扩展视频和长推理数据，以增强其长上下文处理能力。

这四个阶段的训练消耗了总计2.4万亿个标记，相当于模型"阅读"了人类历史上所有书籍的数百倍。这个预训练过程产生了MiMo-VL-7B-SFT模型。

接下来，研究团队采用了一种创新的混合在线策略强化学习（MORL）框架进行后训练，就像让天才学生参加特殊的奥林匹克训练营。这个框架无缝集成了具有可验证奖励的强化学习（RLVR）和基于人类反馈的强化学习（RLHF），覆盖感知准确性、视觉定位精度、逻辑推理能力和人类偏好等多种能力的培养。

这种训练方法有点像同时请多位不同领域的专家（数学家、艺术家、心理学家等）来指导一个全能型学生，各自关注学生的不同能力发展。最终产生的是MiMo-VL-7B-RL模型，一个在各方面都表现出色的"AI全能冠军"。

三、数据就是力量：丰富多样的"知识食粮"

在培养这个AI天才的过程中，"吃什么"和"怎么吃"同样重要。小米研究团队精心策划了一套丰富多样的训练数据集，就像为成长中的孩子提供全面均衡的营养餐。

图像说明数据：通过多阶段处理，研究团队构建了一个平衡、高质量、多样化的图像说明数据集。他们首先聚合了大量公开可用的说明数据，然后进行严格的去重和筛选。随后，他们使用专门的模型重新生成说明，并采用MetaCLIP方法构建双语（中文和英文）元数据，以优化说明分布，减少高频条目的过度表示和数据噪音。

穿插数据：团队编译了来自网页、书籍和学术论文的大量穿插图像-文本数据。他们使用先进的PDF解析工具包提取和清理内容，优先保留丰富的世界知识，如教科书、百科全书、手册、指南、专利和传记。文本部分基于知识密度和可读性等指标进行评估，图像部分则应用过滤器排除尺寸过小、比例异常、不安全内容和视觉信息最少的图像。

OCR和定位数据：为增强模型在OCR和物体定位方面的能力，团队编译了大量OCR和定位数据。OCR图像包含各种文本内容，从文档、表格到一般场景和数学公式。为增加学习难度，他们特意纳入了包含手写文本、排版变形文本和模糊/遮挡文本的图像。定位数据则涵盖了单一和多物体场景，使用复杂的物体表达式来提高模型理解复杂参考意图的能力。

视频数据：该数据集主要来自公开可用的在线视频，涵盖各种领域、类型和时长。团队设计了一个视频重新说明流程，生成密集、细粒度的事件级描述，每个说明都有精确的开始和结束时间戳。他们还收集了视频分析数据，总结视频的全局语义，如叙事结构、风格元素和隐含意图。

图形用户界面数据：为增强模型在GUI导航方面的能力，团队收集了涵盖移动、网页和桌面平台的开源预训练数据。他们还设计了一个合成数据引擎，以弥补开源数据的局限性并增强模型特定能力。对于GUI定位，他们收集了元素定位和指令定位数据；对于GUI操作，他们收集了大量长GUI操作轨迹，并将不同平台的操作统一到标准化的操作空间中。

合成推理数据：团队广泛收集了开源问题，涵盖感知问答、文档问答、视频问答和视觉推理任务，辅以从网络内容和文学作品中派生的问答对。他们使用大型推理模型生成整合显式推理的答案，并进行严格的多阶段质量控制，评估思维清晰度，消除冗余，确保格式一致。

这些多样化的数据就像为AI学生提供了丰富的"营养餐"，既有基础"主食"（如图像说明数据），也有各种"营养补充剂"（如OCR、GUI和推理数据），确保它在各种任务上都表现出色。

四、两个关键发现：改变未来AI训练方式的启示

在这项研究过程中，小米团队有两个重要发现，可能会对未来AI模型的训练方式产生深远影响。

第一个发现：在预训练阶段就纳入高质量、广泛覆盖的推理数据至关重要。这就像从小就培养孩子的思考能力，而不是等到高中才开始训练逻辑思维。

研究团队发现，传统的问答(QA)数据，因其直接、简短的答案，往往将模型局限于肤浅的模式匹配，容易导致过拟合。相比之下，合成的推理数据配合长链式思考(CoT)能够让模型学习复杂的逻辑关系和可泛化的推理模式，提供更丰富的监督信号，显著提高性能和训练效率。

为利用这一优势，团队通过识别多样化的查询，使用大型推理模型重新生成带有长链式思考的响应，并应用拒绝采样来确保质量，构建了高质量的推理数据。更重要的是，他们不是将这些数据作为补充微调数据，而是直接将大量合成推理数据纳入后期预训练阶段，在那里延长训练产生了持续的性能改进，没有出现饱和现象。

第二个发现：混合在线策略强化学习进一步提升了模型性能，但同时实现稳定的同步改进仍然具有挑战性。这就像一个全能型学生同时接受多位不同领域专家的训练，虽然整体能力提高了，但各个领域的进步速度并不均衡。

研究团队在各种能力上应用了RL，包括推理、感知、定位和人类偏好对齐，跨越文本、图像和视频等模态。虽然这种混合训练方法进一步释放了模型的潜力，但数据域之间的干扰仍然是一个挑战。响应长度增长趋势和任务难度水平的差异阻碍了所有能力的稳定、同步改进。

这些发现不仅对小米团队自身的研究有指导意义，也为整个AI研究社区提供了宝贵的经验和启示。

五、全面评估：从多个角度检验模型实力

为了全面评估MiMo-VL-7B的能力，研究团队在50多个任务上进行了广泛测试，涵盖了从基本视觉理解到复杂多模态推理的各个方面。

在基本视觉感知任务上，MiMo-VL-7B-RL达到了同等规模开源VLM中的最先进性能，在MMMU上得分66.7，在35项评估任务中的35项上优于Qwen2.5-VL-7B。这就像一个小学生在各种识别测试中获得满分，展示出超强的观察力和理解力。

对于复杂的多模态推理，MiMo-VL-7B-RL表现出色，在OlympiadBench上得分59.4，超越了参数量高达72B的模型。这相当于这个"小学生"能够解决大学生级别的复杂数学问题，展示出深厚的逻辑思维能力。

在GUI定位方面，该模型创下新标准，在OSWorld-G上得分为54.7，甚至超过了像UI-TARS这样的专门模型。这就像这个"小学生"不仅学习成绩好，还精通电脑操作，能够帮助人们高效完成各种计算机任务。

在用户体验和偏好方面，MiMo-VL-7B-RL在研究团队的内部用户偏好评估中获得了所有开源VLM中的最高Elo评分，与专有模型如Claude 3.7 Sonnet的表现相当。这意味着用户与这个AI互动时，感觉它的回应既有帮助性又很自然，就像与一个知识渊博、表达清晰的朋友交谈一样。

这些评估结果证实了小米团队的方法是有效的：通过将强感知、复杂推理和精确定位能力结合在他们的MORL框架中，MiMo-VL-7B-SFT和MiMo-VL-7B-RL为开源视觉语言模型确立了新的标准。

六、实际应用案例：看看MiMo-VL-7B能做什么

为了让我们更直观地了解MiMo-VL-7B的能力，论文中展示了几个实际应用案例。

在一个例子中，模型展示了强大的剧情理解能力，成功地将复杂的剧情转换为结构良好的markdown表格。这就像一个学生能够将一部复杂的小说情节整理成清晰的大纲，展示出对文本的深刻理解和组织能力。

另一个例子中，模型展示了在STEM任务中的卓越推理能力。它能够在单个响应中有效地解决多个STEM问题，就像一个数学天才能够轻松解决一套复杂的数学试卷一样。

更令人印象深刻的是，MiMo-VL-7B还展示了强大的代理能力。在一个案例中，它成功地导航网站，将小米SU7添加到愿望清单中，并自定义了油漆和内饰选项。这就像一个非常熟练的个人助理，能够帮你在网上完成复杂的购物任务，包括选择颜色、配置等细节。

这些实际应用案例生动地展示了MiMo-VL-7B的多功能性和实用性，从学术任务到日常生活应用，它都能提供有价值的帮助。

七、结语：开源的力量与未来展望

小米团队不仅创造了这款出色的视觉语言模型，还选择将其开源，包括模型检查点和完整的评估套件，这对整个AI社区来说是一个重大贡献。

MiMo-VL-7B的成功证明，即使是相对"小型"的模型，只要训练方法得当，数据选择恰当，也能达到甚至超越许多大型模型的性能。这对于希望在有限计算资源下部署高性能AI系统的研究人员和开发者来说，是一个极大的鼓舞。

该研究的发现，特别是关于在预训练阶段纳入推理数据的重要性，以及混合强化学习策略的挑战与机遇，为未来的AI模型训练提供了宝贵的见解和指导。

随着这些技术的进一步发展和应用，我们可以期待看到更多强大、高效且易于访问的AI系统出现，为各行各业带来变革性的影响。

对于想要深入了解或使用MiMo-VL-7B的读者，可以通过https://github.com/XiaomiMiMo/MiMo-VL访问完整的模型代码和评估套件。无论你是研究人员、开发者还是对AI技术感兴趣的普通人，这都是一个探索视觉语言模型最新进展的绝佳机会。

人工智能视觉语言模型多模态推理

分享至

0赞

好文章，需要你的鼓励

友情链接

京ICP证15039648号京ICP备15039648号-9 京公网安备 11010802021500号

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱: jubao@zhiding.cn 　网上有害信息举报专区：https://www.12377.cn

微信扫一扫，关注公众号

见证连接与计算的「力量」

小米发布MiMo-VL-7B：一款令人惊艳的开源视觉语言模型，通用性能与推理能力双双突破

至顶头条

科技行者

码客人生

奇客Solidot

高飞的电子替身

奇客情报站

文化

移动计算

大数据

创新创业

物联网

商业

社交新媒体

智能硬件

移动设备

人工智能

汽车

5G

量子计算

云计算

科学

对话科技行者

机器人新纪元

友情链接