近日,小米公司旗下的LLM-Core团队发布了一项重磅研究成果——MiMo-VL-7B系列视觉语言模型。这项研究于2025年6月4日在arXiv预印本平台发布,论文标题为《MiMo-VL Technical Report》,有兴趣深入了解的读者可以通过https://github.com/XiaomiMiMo/MiMo-VL访问完整论文和模型代码。
一、小小模型,大大能耐:MiMo-VL-7B的惊人实力
想象一下,你有一位只有7岁的小朋友,却能解答大学生都头疼的数学题,还能精准理解各种图像内容,甚至帮你操作电脑完成复杂任务。这听起来不可思议,但小米团队正是创造了这样一个"小个子大智慧"的AI模型。
MiMo-VL-7B系列包含两个版本:经过监督微调的MiMo-VL-7B-SFT和经过强化学习优化的MiMo-VL-7B-RL。虽然它们都只有7B参数(可以理解为AI的"大脑容量"只有7B个神经元连接),但性能却异常出色,甚至超越了许多拥有更大"大脑"(高达78B参数)的模型。
具体来说,MiMo-VL-7B-RL在40项评测任务中的35项上超过了同等规模的Qwen2.5-VL-7B模型。在数学奥林匹克级别的多模态推理基准测试OlympiadBench上,它获得了59.4分的高分,超越了许多参数量高达78B的大模型。更令人惊讶的是,在图形界面交互能力测试OSWorld-G上,它以56.1分的成绩创下新标准,甚至超过了专门为此类任务设计的专用模型如UI-TARS。
这就像一位小学生不仅在普通考试中拿满分,还能在大学奥数比赛中击败大学生,同时还是电脑操作的高手——这样的全能型人才在AI世界中也是极为罕见的。
二、独特的训练方法:像教育天才儿童一样培养AI
小米团队是如何打造出这款超能力模型的呢?他们采用了一种多阶段、多方法结合的训练策略,就像培养一个天才儿童需要精心设计的教育计划一样。
首先是四阶段的预训练过程,就像孩子从幼儿园到高中的系统学习:
第一阶段:投射器热身阶段。这就像教孩子认字之前先教会他们辨认形状和颜色。模型通过处理图像-文本配对数据,学习将视觉概念映射到语言模型的表示空间。
第二阶段:视觉-语言对齐阶段。这相当于孩子开始学习将看到的事物与语言描述对应起来。在这个阶段,研究团队解冻了视觉变换器(ViT),并引入了穿插数据以进一步加强视觉-语言对齐能力。
第三阶段:多模态预训练阶段。这就像青少年开始接触各种知识和技能,从体育到音乐,从科学到艺术。此时,所有参数都可训练,模型接触到更多样化的数据和任务,包括OCR(光学字符识别)、定位、视频和GUI(图形用户界面)数据,总计处理了1.4万亿个标记,以增强模型的通用多模态能力。
第四阶段:长上下文监督微调阶段。这相当于高中阶段的深入学习。训练序列长度从8K扩展到32K标记,引入了额外的数据类型,如长纯文本、高分辨率图像、长文档、扩展视频和长推理数据,以增强其长上下文处理能力。
这四个阶段的训练消耗了总计2.4万亿个标记,相当于模型"阅读"了人类历史上所有书籍的数百倍。这个预训练过程产生了MiMo-VL-7B-SFT模型。
接下来,研究团队采用了一种创新的混合在线策略强化学习(MORL)框架进行后训练,就像让天才学生参加特殊的奥林匹克训练营。这个框架无缝集成了具有可验证奖励的强化学习(RLVR)和基于人类反馈的强化学习(RLHF),覆盖感知准确性、视觉定位精度、逻辑推理能力和人类偏好等多种能力的培养。
这种训练方法有点像同时请多位不同领域的专家(数学家、艺术家、心理学家等)来指导一个全能型学生,各自关注学生的不同能力发展。最终产生的是MiMo-VL-7B-RL模型,一个在各方面都表现出色的"AI全能冠军"。
三、数据就是力量:丰富多样的"知识食粮"
在培养这个AI天才的过程中,"吃什么"和"怎么吃"同样重要。小米研究团队精心策划了一套丰富多样的训练数据集,就像为成长中的孩子提供全面均衡的营养餐。
图像说明数据:通过多阶段处理,研究团队构建了一个平衡、高质量、多样化的图像说明数据集。他们首先聚合了大量公开可用的说明数据,然后进行严格的去重和筛选。随后,他们使用专门的模型重新生成说明,并采用MetaCLIP方法构建双语(中文和英文)元数据,以优化说明分布,减少高频条目的过度表示和数据噪音。
穿插数据:团队编译了来自网页、书籍和学术论文的大量穿插图像-文本数据。他们使用先进的PDF解析工具包提取和清理内容,优先保留丰富的世界知识,如教科书、百科全书、手册、指南、专利和传记。文本部分基于知识密度和可读性等指标进行评估,图像部分则应用过滤器排除尺寸过小、比例异常、不安全内容和视觉信息最少的图像。
OCR和定位数据:为增强模型在OCR和物体定位方面的能力,团队编译了大量OCR和定位数据。OCR图像包含各种文本内容,从文档、表格到一般场景和数学公式。为增加学习难度,他们特意纳入了包含手写文本、排版变形文本和模糊/遮挡文本的图像。定位数据则涵盖了单一和多物体场景,使用复杂的物体表达式来提高模型理解复杂参考意图的能力。
视频数据:该数据集主要来自公开可用的在线视频,涵盖各种领域、类型和时长。团队设计了一个视频重新说明流程,生成密集、细粒度的事件级描述,每个说明都有精确的开始和结束时间戳。他们还收集了视频分析数据,总结视频的全局语义,如叙事结构、风格元素和隐含意图。
图形用户界面数据:为增强模型在GUI导航方面的能力,团队收集了涵盖移动、网页和桌面平台的开源预训练数据。他们还设计了一个合成数据引擎,以弥补开源数据的局限性并增强模型特定能力。对于GUI定位,他们收集了元素定位和指令定位数据;对于GUI操作,他们收集了大量长GUI操作轨迹,并将不同平台的操作统一到标准化的操作空间中。
合成推理数据:团队广泛收集了开源问题,涵盖感知问答、文档问答、视频问答和视觉推理任务,辅以从网络内容和文学作品中派生的问答对。他们使用大型推理模型生成整合显式推理的答案,并进行严格的多阶段质量控制,评估思维清晰度,消除冗余,确保格式一致。
这些多样化的数据就像为AI学生提供了丰富的"营养餐",既有基础"主食"(如图像说明数据),也有各种"营养补充剂"(如OCR、GUI和推理数据),确保它在各种任务上都表现出色。
四、两个关键发现:改变未来AI训练方式的启示
在这项研究过程中,小米团队有两个重要发现,可能会对未来AI模型的训练方式产生深远影响。
第一个发现:在预训练阶段就纳入高质量、广泛覆盖的推理数据至关重要。这就像从小就培养孩子的思考能力,而不是等到高中才开始训练逻辑思维。
研究团队发现,传统的问答(QA)数据,因其直接、简短的答案,往往将模型局限于肤浅的模式匹配,容易导致过拟合。相比之下,合成的推理数据配合长链式思考(CoT)能够让模型学习复杂的逻辑关系和可泛化的推理模式,提供更丰富的监督信号,显著提高性能和训练效率。
为利用这一优势,团队通过识别多样化的查询,使用大型推理模型重新生成带有长链式思考的响应,并应用拒绝采样来确保质量,构建了高质量的推理数据。更重要的是,他们不是将这些数据作为补充微调数据,而是直接将大量合成推理数据纳入后期预训练阶段,在那里延长训练产生了持续的性能改进,没有出现饱和现象。
第二个发现:混合在线策略强化学习进一步提升了模型性能,但同时实现稳定的同步改进仍然具有挑战性。这就像一个全能型学生同时接受多位不同领域专家的训练,虽然整体能力提高了,但各个领域的进步速度并不均衡。
研究团队在各种能力上应用了RL,包括推理、感知、定位和人类偏好对齐,跨越文本、图像和视频等模态。虽然这种混合训练方法进一步释放了模型的潜力,但数据域之间的干扰仍然是一个挑战。响应长度增长趋势和任务难度水平的差异阻碍了所有能力的稳定、同步改进。
这些发现不仅对小米团队自身的研究有指导意义,也为整个AI研究社区提供了宝贵的经验和启示。
五、全面评估:从多个角度检验模型实力
为了全面评估MiMo-VL-7B的能力,研究团队在50多个任务上进行了广泛测试,涵盖了从基本视觉理解到复杂多模态推理的各个方面。
在基本视觉感知任务上,MiMo-VL-7B-RL达到了同等规模开源VLM中的最先进性能,在MMMU上得分66.7,在35项评估任务中的35项上优于Qwen2.5-VL-7B。这就像一个小学生在各种识别测试中获得满分,展示出超强的观察力和理解力。
对于复杂的多模态推理,MiMo-VL-7B-RL表现出色,在OlympiadBench上得分59.4,超越了参数量高达72B的模型。这相当于这个"小学生"能够解决大学生级别的复杂数学问题,展示出深厚的逻辑思维能力。
在GUI定位方面,该模型创下新标准,在OSWorld-G上得分为54.7,甚至超过了像UI-TARS这样的专门模型。这就像这个"小学生"不仅学习成绩好,还精通电脑操作,能够帮助人们高效完成各种计算机任务。
在用户体验和偏好方面,MiMo-VL-7B-RL在研究团队的内部用户偏好评估中获得了所有开源VLM中的最高Elo评分,与专有模型如Claude 3.7 Sonnet的表现相当。这意味着用户与这个AI互动时,感觉它的回应既有帮助性又很自然,就像与一个知识渊博、表达清晰的朋友交谈一样。
这些评估结果证实了小米团队的方法是有效的:通过将强感知、复杂推理和精确定位能力结合在他们的MORL框架中,MiMo-VL-7B-SFT和MiMo-VL-7B-RL为开源视觉语言模型确立了新的标准。
六、实际应用案例:看看MiMo-VL-7B能做什么
为了让我们更直观地了解MiMo-VL-7B的能力,论文中展示了几个实际应用案例。
在一个例子中,模型展示了强大的剧情理解能力,成功地将复杂的剧情转换为结构良好的markdown表格。这就像一个学生能够将一部复杂的小说情节整理成清晰的大纲,展示出对文本的深刻理解和组织能力。
另一个例子中,模型展示了在STEM任务中的卓越推理能力。它能够在单个响应中有效地解决多个STEM问题,就像一个数学天才能够轻松解决一套复杂的数学试卷一样。
更令人印象深刻的是,MiMo-VL-7B还展示了强大的代理能力。在一个案例中,它成功地导航网站,将小米SU7添加到愿望清单中,并自定义了油漆和内饰选项。这就像一个非常熟练的个人助理,能够帮你在网上完成复杂的购物任务,包括选择颜色、配置等细节。
这些实际应用案例生动地展示了MiMo-VL-7B的多功能性和实用性,从学术任务到日常生活应用,它都能提供有价值的帮助。
七、结语:开源的力量与未来展望
小米团队不仅创造了这款出色的视觉语言模型,还选择将其开源,包括模型检查点和完整的评估套件,这对整个AI社区来说是一个重大贡献。
MiMo-VL-7B的成功证明,即使是相对"小型"的模型,只要训练方法得当,数据选择恰当,也能达到甚至超越许多大型模型的性能。这对于希望在有限计算资源下部署高性能AI系统的研究人员和开发者来说,是一个极大的鼓舞。
该研究的发现,特别是关于在预训练阶段纳入推理数据的重要性,以及混合强化学习策略的挑战与机遇,为未来的AI模型训练提供了宝贵的见解和指导。
随着这些技术的进一步发展和应用,我们可以期待看到更多强大、高效且易于访问的AI系统出现,为各行各业带来变革性的影响。
对于想要深入了解或使用MiMo-VL-7B的读者,可以通过https://github.com/XiaomiMiMo/MiMo-VL访问完整的模型代码和评估套件。无论你是研究人员、开发者还是对AI技术感兴趣的普通人,这都是一个探索视觉语言模型最新进展的绝佳机会。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了SPIRAL框架,通过让AI与自己对弈零和游戏来提升推理能力。实验显示,仅训练AI玩简单扑克游戏就能让其数学推理能力提升8.6%,通用推理提升8.4%,且无需任何数学题目作为训练材料。研究发现游戏中的三种推理模式能成功转移到数学解题中,为AI训练提供了新思路。
同济大学团队开发的GIGA-ToF技术通过融合多帧图像的"图结构"信息,创新性地解决了3D相机噪声问题。该技术利用图像间的不变几何关系,结合深度学习和数学优化方法,在合成数据集上实现37.9%的精度提升,并在真实设备上展现出色泛化能力,为机器人、AR和自动驾驶等领域提供更可靠的3D视觉解决方案。
伊利诺伊大学研究团队通过对比实验发现,经过强化学习训练的视觉语言模型虽然表现出"顿悟时刻"现象,但这些自我纠错行为并不能实际提升推理准确率。研究揭示了AI模型存在"生成-验证差距",即生成答案的能力强于验证答案质量的能力,且模型在自我验证时无法有效利用视觉信息,为AI多模态推理发展提供了重要启示。
MIT等顶尖机构联合提出SparseLoRA技术,通过动态稀疏性实现大语言模型训练加速1.6倍,计算成本降低2.2倍。该方法使用SVD稀疏性估计器智能选择重要计算部分,在保持模型性能的同时显著提升训练效率,已在多个任务上验证有效性。