微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

上海AI实验室联合多所高校：破解多模态大模型的"原生训练"难题，让AI真正学会看图说话

多模态大语言模型原生训练混合专家架构

上海AI实验室联合多所高校：破解多模态大模型的"原生训练"难题，让AI真正学会看图说话

作者：科技行者

2025-11-11 10:48

分享至：

上海AI实验室联合多所高校突破多模态AI训练难题，提出NaViL原生训练方法。通过预训练语言模型起点、混合专家架构和视觉-语言能力最佳平衡三大创新，在有限资源下实现与拼装式模型相当性能。该研究证明原生训练的可行性，为AI真正理解图文结合提供新思路，有望在教育、医疗等领域带来更自然的人机交互体验。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-11-11 10:48 • 科技行者

这项由上海AI实验室联合香港中文大学、清华大学等多所知名院校的研究团队完成的研究，发表于2025年的NeurIPS（神经信息处理系统大会），论文标题为"NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints"。这项研究首次系统性地解决了多模态大语言模型在原生训练方式下的核心技术难题，为AI真正理解图像和文字的结合提供了全新思路。

现在的AI能够看懂图片、理解文字，甚至还能根据图片回答问题，这听起来很神奇对吧？但你知道吗，大部分现在的AI其实是"拼装"出来的，就像搭积木一样——先训练一个专门看图的AI，再训练一个专门理解文字的AI，然后用特殊的"胶水"把它们粘在一起。这种做法虽然有效，但就像两个不同国家的人通过翻译交流，总是会有些信息在翻译过程中丢失。

上海AI实验室的研究团队想要解决的，正是这个根本性问题。他们提出了一种全新的"原生训练"方法，让AI从一开始就同时学习看图和理解文字，就像人类婴儿同时学会认识物体和学习语言一样自然。这种方法被称为NaViL（Native Vision-Language，原生视觉-语言），它代表了多模态AI发展的一个重要转折点。

要理解这项研究的意义，不妨回到厨房做饭的场景。传统的"拼装式"AI训练就像是先单独学会切菜，再单独学会调味，最后才学着把这两项技能结合起来做菜。而原生训练则像是从一开始就在真实的厨房环境中学习，同时掌握切菜、调味以及两者如何配合的技巧。显然，后者培养出的"厨师"会更加熟练和自然。

但是，原生训练面临着一个巨大的挑战：它需要消耗大量的计算资源和训练数据。就像培养一个全能型人才比培养单一技能的专家要困难得多，原生训练的成本往往令人望而却步。这也是为什么大部分研究团队仍然选择"拼装"方式的原因。

研究团队面临的核心问题是：在有限的数据和计算资源条件下，如何让原生训练的多模态AI达到甚至超越现有拼装式AI的性能？这就像是要在预算有限的情况下，培养出既会画画又会写诗的艺术家，并且要求这个艺术家的水平不输给专业画家和专业诗人的组合。

为了解决这个问题，研究团队进行了大规模的实验探索。他们就像是在做一场精密的烹饪实验，系统性地测试了各种"配方"和"烹饪技巧"。在这个过程中，他们发现了三个关键的突破点。

一、找到训练的最佳起点

就像学习任何技能都需要一个好的基础一样，AI的训练也需要一个合适的起点。研究团队发现，如果让AI完全从零开始学习看图和理解文字，就像让一个从未接触过任何语言的人同时学习中文和绘画，效果会很差。

相比之下，如果先让AI掌握基础的语言理解能力，再在此基础上学习图像识别，效果就会好得多。这就像是先让学生掌握基本的阅读能力，再教他们看图写作文，学习效率会大大提高。

具体来说，研究团队使用了预训练的大语言模型作为起点，这些模型已经具备了强大的文字理解和生成能力。在此基础上，再训练AI学习图像理解，整个过程的效率提升了十倍以上。这个发现看似简单，但对于原生训练的成功至关重要。

二、巧妙运用专家系统架构

在现实生活中，一个人往往在不同的情境下会展现出不同的专长。比如同一个人在工作时可能是严谨的工程师，在家里又是温柔的父亲。研究团队将这种思路引入到AI训练中，创造了一种叫做"混合专家"（MoE）的架构。

这种架构让AI在处理图像信息时激活"视觉专家"模式，在处理文字信息时激活"语言专家"模式，而在需要同时处理图像和文字时，两个专家可以协同工作。这就像是一个既懂音乐又懂诗歌的艺术家，在创作时可以根据需要调动不同的专业技能。

更重要的是，这种专家系统不会增加AI运行时的计算负担。就像一个多才多艺的人在任何时候只会专注于当前最需要的技能，AI也只会激活当前最相关的专家模块。这种设计让原生训练的效率得到了显著提升。

三、发现视觉和语言能力的最佳平衡点

在传统的拼装式训练中，研究人员往往会使用一个固定大小的视觉处理模块，无论搭配多大的语言模型都是如此。这就像是无论做什么菜，都使用同样大小的锅，显然不够合理。

研究团队通过大量实验发现，视觉处理能力和语言处理能力之间存在一种微妙的平衡关系。当语言模型变得更大更强时，视觉处理模块也应该相应地增强，两者应该协调发展。

具体来说，他们发现最佳的视觉处理模块大小与语言模型大小之间存在对数线性关系。简单理解就是，如果语言模型扩大一倍，视觉处理模块也应该按照特定比例扩大。这个发现颠覆了传统做法，为构建更均衡、更高效的多模态AI提供了重要指导。

基于这三个关键发现，研究团队构建了NaViL模型。这个模型采用了端到端的训练方式，让AI从一开始就在真实的多模态环境中学习。就像是让孩子在自然的语言环境中同时接触图片和文字，而不是分别学习看图和识字。

NaViL的训练过程分为两个阶段，就像培养一个艺术家需要先打基础，再进行专业训练。第一阶段使用大量的图片-文字配对数据进行基础训练，让AI建立起图像和语言之间的基本关联。研究团队使用了约5亿对图片-文字数据，这些数据来自网络上的公开资源。

在这个阶段，AI会学习如何将看到的图像转换为文字描述，就像是训练一个解说员学会描述眼前看到的画面。为了让训练数据更加多样化，研究团队还使用现有的高质量AI模型为部分图片生成了更好的文字描述，这相当于为学习者提供了更多优质的学习材料。

第二阶段是精细化训练，使用约6800万条高质量的多模态数据。这些数据不仅包括图片和描述，还包括问答对话、多轮对话等更复杂的交互形式。这就像是让已经掌握基础技能的学习者接受更高级的专业训练，学会在各种复杂场景中运用所学技能。

为了验证NaViL的效果，研究团队在14个不同的测试基准上进行了全面评估。这些测试涵盖了从基础的图像理解到复杂的视觉推理等各个方面，就像是对一个学生进行全科目的综合考试。

测试结果令人惊喜。在多个核心测试中，NaViL-2B（拥有24亿个参数的版本）的表现达到了与现有最好的拼装式模型相当的水平。特别值得注意的是，NaViL在文档理解、图表分析等需要精确视觉-语言配合的任务上表现尤为出色，这正体现了原生训练的优势。

在一项名为MMVet的综合能力测试中，NaViL-2B获得了78.3分的高分，显著超越了其他同等规模的原生训练模型。在OCR（光学字符识别）测试中，它也取得了796分的优异成绩，证明了其在处理包含文字的图像方面的强大能力。

更令人印象深刻的是，研究团队还训练了一个更大的NaViL-9B版本，这个版本在几乎所有测试中都达到了与大型拼装式模型相媲美的性能。这证明了原生训练方法的可扩展性，也为未来构建更大规模的多模态AI奠定了基础。

为了深入理解NaViL的工作原理，研究团队还进行了可视化分析。他们发现，当使用更大的视觉处理模块时，AI在浅层就能够关注到图像的全局信息，而不是像传统方法那样只关注局部细节。这就像是一个经验丰富的艺术家能够一眼就把握整幅画作的构图和意境，而不需要逐个细节地分析。

同时，更大的视觉模块还能促进视觉信息和文字信息之间更早的交互。这意味着AI在处理过程的早期阶段就能够将看到的内容与语言概念建立联系，从而产生更准确、更自然的理解。

这项研究的意义远不止于技术突破。它为多模态AI的发展指明了新方向，证明了在资源有限的情况下，通过精心设计的方法依然可以训练出高性能的原生多模态模型。这对于推动AI技术的普及和应用具有重要价值。

从应用角度来看，NaViL这样的原生训练模型有望在多个领域发挥重要作用。在教育领域，它可以帮助开发更智能的辅导系统，不仅能够理解学生的文字问题，还能分析图表、图形等视觉材料。在医疗领域，这种模型可以同时分析医学影像和病历文字，为医生提供更全面的诊断支持。

在内容创作方面，原生训练的多模态AI可以更好地理解创作者的意图，无论是通过文字描述还是参考图像，都能生成更符合要求的内容。这种自然的多模态理解能力，将使人机交互变得更加流畅和直观。

研究团队还关注到一个有趣的现象：NaViL在处理需要同时理解图像和文字的复杂任务时，表现明显优于那些简单拼装的模型。这证实了原生训练的核心价值——真正的多模态理解不是简单的模块组合，而需要从根本上统一的学习过程。

当然，这项研究也存在一些局限性。由于计算资源的限制，研究团队目前只探索了相对较小规模的模型。未来随着计算能力的提升，有望训练出更大规模的原生多模态模型，进一步验证这种方法的潜力。

此外，当前的研究主要集中在视觉和语言两个模态，未来可以考虑扩展到音频、视频等更多模态，构建真正全面的多模态AI系统。

说到底，这项研究最大的价值在于它改变了我们对多模态AI训练的基本认知。它告诉我们，不一定要有无限的资源才能训练出优秀的原生多模态模型，关键在于找到正确的方法和平衡点。就像烹饪一样，好的厨师不一定需要最昂贵的食材，但一定需要对各种食材特性的深刻理解和巧妙搭配。

研究团队已经将NaViL的代码开源，这意味着全世界的研究者和开发者都可以基于这个成果继续探索和改进。这种开放的做法将加速整个领域的发展，让更多人能够受益于这项技术突破。

对于普通人来说，这项研究的成果最终会体现在更智能、更自然的AI应用中。未来的AI助手可能会更好地理解我们同时发送的图片和文字，提供更准确的帮助。拍照翻译、智能客服、教育辅导等应用都将因为原生多模态技术而变得更加强大和实用。

这项由上海AI实验室领导、多所顶尖院校参与的研究，不仅在技术层面取得了突破，更为整个AI发展路径提供了新的思考方向。它证明了中国在AI基础研究方面的实力，也为全球AI技术发展贡献了重要的理论和实践成果。

Q&A

Q1：NaViL与传统多模态AI模型有什么本质区别？

A：传统模型是先分别训练看图的AI和理解文字的AI，再用"胶水"拼装起来，就像搭积木。而NaViL采用原生训练方式，让AI从一开始就同时学习看图和理解文字，像人类婴儿自然学习一样，避免了信息在"翻译"过程中的丢失。

Q2：原生训练方式需要更多计算资源吗？为什么值得这样做？

A：原生训练确实需要更多资源，但研究团队通过三个关键发现大大降低了成本：用预训练语言模型作起点、使用混合专家架构、找到视觉和语言能力的最佳平衡点。这样训练出的AI在复杂多模态任务上表现更自然，就像全能型人才比专业技能组合更灵活。

Q3：NaViL在实际应用中会带来哪些改变？

A：NaViL将让AI更自然地理解图文结合的内容，在教育辅导、医疗诊断、内容创作等领域发挥重要作用。比如智能辅导系统能同时分析学生的文字问题和图表材料，医疗AI能综合分析影像和病历，这些应用会变得更智能实用。

多模态大语言模型原生训练混合专家架构

分享至

0赞

好文章，需要你的鼓励

友情链接

京ICP证15039648号京ICP备15039648号-9 京公网安备 11010802021500号

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱: jubao@zhiding.cn 　网上有害信息举报专区：https://www.12377.cn

微信扫一扫，关注公众号

见证连接与计算的「力量」

上海AI实验室联合多所高校：破解多模态大模型的"原生训练"难题，让AI真正学会看图说话

至顶头条

科技行者

码客人生

奇客Solidot

高飞的电子替身

奇客情报站

文化

移动计算

大数据

创新创业

物联网

商业

社交新媒体

智能硬件

移动设备

人工智能

汽车

5G

量子计算

云计算

科学

对话科技行者

机器人新纪元

友情链接