微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 小米发布MiMo-VL-7B:一款令人惊艳的开源视觉语言模型,通用性能与推理能力双双突破

小米发布MiMo-VL-7B:一款令人惊艳的开源视觉语言模型,通用性能与推理能力双双突破

2025-07-07 17:34
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-07 17:34 科技行者

近日,小米公司旗下的LLM-Core团队发布了一项重磅研究成果——MiMo-VL-7B系列视觉语言模型。这项研究于2025年6月4日在arXiv预印本平台发布,论文标题为《MiMo-VL Technical Report》,有兴趣深入了解的读者可以通过https://github.com/XiaomiMiMo/MiMo-VL访问完整论文和模型代码。

一、小小模型,大大能耐:MiMo-VL-7B的惊人实力

想象一下,你有一位只有7岁的小朋友,却能解答大学生都头疼的数学题,还能精准理解各种图像内容,甚至帮你操作电脑完成复杂任务。这听起来不可思议,但小米团队正是创造了这样一个"小个子大智慧"的AI模型。

MiMo-VL-7B系列包含两个版本:经过监督微调的MiMo-VL-7B-SFT和经过强化学习优化的MiMo-VL-7B-RL。虽然它们都只有7B参数(可以理解为AI的"大脑容量"只有7B个神经元连接),但性能却异常出色,甚至超越了许多拥有更大"大脑"(高达78B参数)的模型。

具体来说,MiMo-VL-7B-RL在40项评测任务中的35项上超过了同等规模的Qwen2.5-VL-7B模型。在数学奥林匹克级别的多模态推理基准测试OlympiadBench上,它获得了59.4分的高分,超越了许多参数量高达78B的大模型。更令人惊讶的是,在图形界面交互能力测试OSWorld-G上,它以56.1分的成绩创下新标准,甚至超过了专门为此类任务设计的专用模型如UI-TARS。

这就像一位小学生不仅在普通考试中拿满分,还能在大学奥数比赛中击败大学生,同时还是电脑操作的高手——这样的全能型人才在AI世界中也是极为罕见的。

二、独特的训练方法:像教育天才儿童一样培养AI

小米团队是如何打造出这款超能力模型的呢?他们采用了一种多阶段、多方法结合的训练策略,就像培养一个天才儿童需要精心设计的教育计划一样。

首先是四阶段的预训练过程,就像孩子从幼儿园到高中的系统学习:

第一阶段:投射器热身阶段。这就像教孩子认字之前先教会他们辨认形状和颜色。模型通过处理图像-文本配对数据,学习将视觉概念映射到语言模型的表示空间。

第二阶段:视觉-语言对齐阶段。这相当于孩子开始学习将看到的事物与语言描述对应起来。在这个阶段,研究团队解冻了视觉变换器(ViT),并引入了穿插数据以进一步加强视觉-语言对齐能力。

第三阶段:多模态预训练阶段。这就像青少年开始接触各种知识和技能,从体育到音乐,从科学到艺术。此时,所有参数都可训练,模型接触到更多样化的数据和任务,包括OCR(光学字符识别)、定位、视频和GUI(图形用户界面)数据,总计处理了1.4万亿个标记,以增强模型的通用多模态能力。

第四阶段:长上下文监督微调阶段。这相当于高中阶段的深入学习。训练序列长度从8K扩展到32K标记,引入了额外的数据类型,如长纯文本、高分辨率图像、长文档、扩展视频和长推理数据,以增强其长上下文处理能力。

这四个阶段的训练消耗了总计2.4万亿个标记,相当于模型"阅读"了人类历史上所有书籍的数百倍。这个预训练过程产生了MiMo-VL-7B-SFT模型。

接下来,研究团队采用了一种创新的混合在线策略强化学习(MORL)框架进行后训练,就像让天才学生参加特殊的奥林匹克训练营。这个框架无缝集成了具有可验证奖励的强化学习(RLVR)和基于人类反馈的强化学习(RLHF),覆盖感知准确性、视觉定位精度、逻辑推理能力和人类偏好等多种能力的培养。

这种训练方法有点像同时请多位不同领域的专家(数学家、艺术家、心理学家等)来指导一个全能型学生,各自关注学生的不同能力发展。最终产生的是MiMo-VL-7B-RL模型,一个在各方面都表现出色的"AI全能冠军"。

三、数据就是力量:丰富多样的"知识食粮"

在培养这个AI天才的过程中,"吃什么"和"怎么吃"同样重要。小米研究团队精心策划了一套丰富多样的训练数据集,就像为成长中的孩子提供全面均衡的营养餐。

图像说明数据:通过多阶段处理,研究团队构建了一个平衡、高质量、多样化的图像说明数据集。他们首先聚合了大量公开可用的说明数据,然后进行严格的去重和筛选。随后,他们使用专门的模型重新生成说明,并采用MetaCLIP方法构建双语(中文和英文)元数据,以优化说明分布,减少高频条目的过度表示和数据噪音。

穿插数据:团队编译了来自网页、书籍和学术论文的大量穿插图像-文本数据。他们使用先进的PDF解析工具包提取和清理内容,优先保留丰富的世界知识,如教科书、百科全书、手册、指南、专利和传记。文本部分基于知识密度和可读性等指标进行评估,图像部分则应用过滤器排除尺寸过小、比例异常、不安全内容和视觉信息最少的图像。

OCR和定位数据:为增强模型在OCR和物体定位方面的能力,团队编译了大量OCR和定位数据。OCR图像包含各种文本内容,从文档、表格到一般场景和数学公式。为增加学习难度,他们特意纳入了包含手写文本、排版变形文本和模糊/遮挡文本的图像。定位数据则涵盖了单一和多物体场景,使用复杂的物体表达式来提高模型理解复杂参考意图的能力。

视频数据:该数据集主要来自公开可用的在线视频,涵盖各种领域、类型和时长。团队设计了一个视频重新说明流程,生成密集、细粒度的事件级描述,每个说明都有精确的开始和结束时间戳。他们还收集了视频分析数据,总结视频的全局语义,如叙事结构、风格元素和隐含意图。

图形用户界面数据:为增强模型在GUI导航方面的能力,团队收集了涵盖移动、网页和桌面平台的开源预训练数据。他们还设计了一个合成数据引擎,以弥补开源数据的局限性并增强模型特定能力。对于GUI定位,他们收集了元素定位和指令定位数据;对于GUI操作,他们收集了大量长GUI操作轨迹,并将不同平台的操作统一到标准化的操作空间中。

合成推理数据:团队广泛收集了开源问题,涵盖感知问答、文档问答、视频问答和视觉推理任务,辅以从网络内容和文学作品中派生的问答对。他们使用大型推理模型生成整合显式推理的答案,并进行严格的多阶段质量控制,评估思维清晰度,消除冗余,确保格式一致。

这些多样化的数据就像为AI学生提供了丰富的"营养餐",既有基础"主食"(如图像说明数据),也有各种"营养补充剂"(如OCR、GUI和推理数据),确保它在各种任务上都表现出色。

四、两个关键发现:改变未来AI训练方式的启示

在这项研究过程中,小米团队有两个重要发现,可能会对未来AI模型的训练方式产生深远影响。

第一个发现:在预训练阶段就纳入高质量、广泛覆盖的推理数据至关重要。这就像从小就培养孩子的思考能力,而不是等到高中才开始训练逻辑思维。

研究团队发现,传统的问答(QA)数据,因其直接、简短的答案,往往将模型局限于肤浅的模式匹配,容易导致过拟合。相比之下,合成的推理数据配合长链式思考(CoT)能够让模型学习复杂的逻辑关系和可泛化的推理模式,提供更丰富的监督信号,显著提高性能和训练效率。

为利用这一优势,团队通过识别多样化的查询,使用大型推理模型重新生成带有长链式思考的响应,并应用拒绝采样来确保质量,构建了高质量的推理数据。更重要的是,他们不是将这些数据作为补充微调数据,而是直接将大量合成推理数据纳入后期预训练阶段,在那里延长训练产生了持续的性能改进,没有出现饱和现象。

第二个发现:混合在线策略强化学习进一步提升了模型性能,但同时实现稳定的同步改进仍然具有挑战性。这就像一个全能型学生同时接受多位不同领域专家的训练,虽然整体能力提高了,但各个领域的进步速度并不均衡。

研究团队在各种能力上应用了RL,包括推理、感知、定位和人类偏好对齐,跨越文本、图像和视频等模态。虽然这种混合训练方法进一步释放了模型的潜力,但数据域之间的干扰仍然是一个挑战。响应长度增长趋势和任务难度水平的差异阻碍了所有能力的稳定、同步改进。

这些发现不仅对小米团队自身的研究有指导意义,也为整个AI研究社区提供了宝贵的经验和启示。

五、全面评估:从多个角度检验模型实力

为了全面评估MiMo-VL-7B的能力,研究团队在50多个任务上进行了广泛测试,涵盖了从基本视觉理解到复杂多模态推理的各个方面。

在基本视觉感知任务上,MiMo-VL-7B-RL达到了同等规模开源VLM中的最先进性能,在MMMU上得分66.7,在35项评估任务中的35项上优于Qwen2.5-VL-7B。这就像一个小学生在各种识别测试中获得满分,展示出超强的观察力和理解力。

对于复杂的多模态推理,MiMo-VL-7B-RL表现出色,在OlympiadBench上得分59.4,超越了参数量高达72B的模型。这相当于这个"小学生"能够解决大学生级别的复杂数学问题,展示出深厚的逻辑思维能力。

在GUI定位方面,该模型创下新标准,在OSWorld-G上得分为54.7,甚至超过了像UI-TARS这样的专门模型。这就像这个"小学生"不仅学习成绩好,还精通电脑操作,能够帮助人们高效完成各种计算机任务。

在用户体验和偏好方面,MiMo-VL-7B-RL在研究团队的内部用户偏好评估中获得了所有开源VLM中的最高Elo评分,与专有模型如Claude 3.7 Sonnet的表现相当。这意味着用户与这个AI互动时,感觉它的回应既有帮助性又很自然,就像与一个知识渊博、表达清晰的朋友交谈一样。

这些评估结果证实了小米团队的方法是有效的:通过将强感知、复杂推理和精确定位能力结合在他们的MORL框架中,MiMo-VL-7B-SFT和MiMo-VL-7B-RL为开源视觉语言模型确立了新的标准。

六、实际应用案例:看看MiMo-VL-7B能做什么

为了让我们更直观地了解MiMo-VL-7B的能力,论文中展示了几个实际应用案例。

在一个例子中,模型展示了强大的剧情理解能力,成功地将复杂的剧情转换为结构良好的markdown表格。这就像一个学生能够将一部复杂的小说情节整理成清晰的大纲,展示出对文本的深刻理解和组织能力。

另一个例子中,模型展示了在STEM任务中的卓越推理能力。它能够在单个响应中有效地解决多个STEM问题,就像一个数学天才能够轻松解决一套复杂的数学试卷一样。

更令人印象深刻的是,MiMo-VL-7B还展示了强大的代理能力。在一个案例中,它成功地导航网站,将小米SU7添加到愿望清单中,并自定义了油漆和内饰选项。这就像一个非常熟练的个人助理,能够帮你在网上完成复杂的购物任务,包括选择颜色、配置等细节。

这些实际应用案例生动地展示了MiMo-VL-7B的多功能性和实用性,从学术任务到日常生活应用,它都能提供有价值的帮助。

七、结语:开源的力量与未来展望

小米团队不仅创造了这款出色的视觉语言模型,还选择将其开源,包括模型检查点和完整的评估套件,这对整个AI社区来说是一个重大贡献。

MiMo-VL-7B的成功证明,即使是相对"小型"的模型,只要训练方法得当,数据选择恰当,也能达到甚至超越许多大型模型的性能。这对于希望在有限计算资源下部署高性能AI系统的研究人员和开发者来说,是一个极大的鼓舞。

该研究的发现,特别是关于在预训练阶段纳入推理数据的重要性,以及混合强化学习策略的挑战与机遇,为未来的AI模型训练提供了宝贵的见解和指导。

随着这些技术的进一步发展和应用,我们可以期待看到更多强大、高效且易于访问的AI系统出现,为各行各业带来变革性的影响。

对于想要深入了解或使用MiMo-VL-7B的读者,可以通过https://github.com/XiaomiMiMo/MiMo-VL访问完整的模型代码和评估套件。无论你是研究人员、开发者还是对AI技术感兴趣的普通人,这都是一个探索视觉语言模型最新进展的绝佳机会。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-