微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 上海AI实验室联合多所高校:破解多模态大模型的"原生训练"难题,让AI真正学会看图说话

上海AI实验室联合多所高校:破解多模态大模型的"原生训练"难题,让AI真正学会看图说话

2025-11-11 10:48
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-11-11 10:48 科技行者

这项由上海AI实验室联合香港中文大学、清华大学等多所知名院校的研究团队完成的研究,发表于2025年的NeurIPS(神经信息处理系统大会),论文标题为"NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints"。这项研究首次系统性地解决了多模态大语言模型在原生训练方式下的核心技术难题,为AI真正理解图像和文字的结合提供了全新思路。

现在的AI能够看懂图片、理解文字,甚至还能根据图片回答问题,这听起来很神奇对吧?但你知道吗,大部分现在的AI其实是"拼装"出来的,就像搭积木一样——先训练一个专门看图的AI,再训练一个专门理解文字的AI,然后用特殊的"胶水"把它们粘在一起。这种做法虽然有效,但就像两个不同国家的人通过翻译交流,总是会有些信息在翻译过程中丢失。

上海AI实验室的研究团队想要解决的,正是这个根本性问题。他们提出了一种全新的"原生训练"方法,让AI从一开始就同时学习看图和理解文字,就像人类婴儿同时学会认识物体和学习语言一样自然。这种方法被称为NaViL(Native Vision-Language,原生视觉-语言),它代表了多模态AI发展的一个重要转折点。

要理解这项研究的意义,不妨回到厨房做饭的场景。传统的"拼装式"AI训练就像是先单独学会切菜,再单独学会调味,最后才学着把这两项技能结合起来做菜。而原生训练则像是从一开始就在真实的厨房环境中学习,同时掌握切菜、调味以及两者如何配合的技巧。显然,后者培养出的"厨师"会更加熟练和自然。

但是,原生训练面临着一个巨大的挑战:它需要消耗大量的计算资源和训练数据。就像培养一个全能型人才比培养单一技能的专家要困难得多,原生训练的成本往往令人望而却步。这也是为什么大部分研究团队仍然选择"拼装"方式的原因。

研究团队面临的核心问题是:在有限的数据和计算资源条件下,如何让原生训练的多模态AI达到甚至超越现有拼装式AI的性能?这就像是要在预算有限的情况下,培养出既会画画又会写诗的艺术家,并且要求这个艺术家的水平不输给专业画家和专业诗人的组合。

为了解决这个问题,研究团队进行了大规模的实验探索。他们就像是在做一场精密的烹饪实验,系统性地测试了各种"配方"和"烹饪技巧"。在这个过程中,他们发现了三个关键的突破点。

一、找到训练的最佳起点

就像学习任何技能都需要一个好的基础一样,AI的训练也需要一个合适的起点。研究团队发现,如果让AI完全从零开始学习看图和理解文字,就像让一个从未接触过任何语言的人同时学习中文和绘画,效果会很差。

相比之下,如果先让AI掌握基础的语言理解能力,再在此基础上学习图像识别,效果就会好得多。这就像是先让学生掌握基本的阅读能力,再教他们看图写作文,学习效率会大大提高。

具体来说,研究团队使用了预训练的大语言模型作为起点,这些模型已经具备了强大的文字理解和生成能力。在此基础上,再训练AI学习图像理解,整个过程的效率提升了十倍以上。这个发现看似简单,但对于原生训练的成功至关重要。

二、巧妙运用专家系统架构

在现实生活中,一个人往往在不同的情境下会展现出不同的专长。比如同一个人在工作时可能是严谨的工程师,在家里又是温柔的父亲。研究团队将这种思路引入到AI训练中,创造了一种叫做"混合专家"(MoE)的架构。

这种架构让AI在处理图像信息时激活"视觉专家"模式,在处理文字信息时激活"语言专家"模式,而在需要同时处理图像和文字时,两个专家可以协同工作。这就像是一个既懂音乐又懂诗歌的艺术家,在创作时可以根据需要调动不同的专业技能。

更重要的是,这种专家系统不会增加AI运行时的计算负担。就像一个多才多艺的人在任何时候只会专注于当前最需要的技能,AI也只会激活当前最相关的专家模块。这种设计让原生训练的效率得到了显著提升。

三、发现视觉和语言能力的最佳平衡点

在传统的拼装式训练中,研究人员往往会使用一个固定大小的视觉处理模块,无论搭配多大的语言模型都是如此。这就像是无论做什么菜,都使用同样大小的锅,显然不够合理。

研究团队通过大量实验发现,视觉处理能力和语言处理能力之间存在一种微妙的平衡关系。当语言模型变得更大更强时,视觉处理模块也应该相应地增强,两者应该协调发展。

具体来说,他们发现最佳的视觉处理模块大小与语言模型大小之间存在对数线性关系。简单理解就是,如果语言模型扩大一倍,视觉处理模块也应该按照特定比例扩大。这个发现颠覆了传统做法,为构建更均衡、更高效的多模态AI提供了重要指导。

基于这三个关键发现,研究团队构建了NaViL模型。这个模型采用了端到端的训练方式,让AI从一开始就在真实的多模态环境中学习。就像是让孩子在自然的语言环境中同时接触图片和文字,而不是分别学习看图和识字。

NaViL的训练过程分为两个阶段,就像培养一个艺术家需要先打基础,再进行专业训练。第一阶段使用大量的图片-文字配对数据进行基础训练,让AI建立起图像和语言之间的基本关联。研究团队使用了约5亿对图片-文字数据,这些数据来自网络上的公开资源。

在这个阶段,AI会学习如何将看到的图像转换为文字描述,就像是训练一个解说员学会描述眼前看到的画面。为了让训练数据更加多样化,研究团队还使用现有的高质量AI模型为部分图片生成了更好的文字描述,这相当于为学习者提供了更多优质的学习材料。

第二阶段是精细化训练,使用约6800万条高质量的多模态数据。这些数据不仅包括图片和描述,还包括问答对话、多轮对话等更复杂的交互形式。这就像是让已经掌握基础技能的学习者接受更高级的专业训练,学会在各种复杂场景中运用所学技能。

为了验证NaViL的效果,研究团队在14个不同的测试基准上进行了全面评估。这些测试涵盖了从基础的图像理解到复杂的视觉推理等各个方面,就像是对一个学生进行全科目的综合考试。

测试结果令人惊喜。在多个核心测试中,NaViL-2B(拥有24亿个参数的版本)的表现达到了与现有最好的拼装式模型相当的水平。特别值得注意的是,NaViL在文档理解、图表分析等需要精确视觉-语言配合的任务上表现尤为出色,这正体现了原生训练的优势。

在一项名为MMVet的综合能力测试中,NaViL-2B获得了78.3分的高分,显著超越了其他同等规模的原生训练模型。在OCR(光学字符识别)测试中,它也取得了796分的优异成绩,证明了其在处理包含文字的图像方面的强大能力。

更令人印象深刻的是,研究团队还训练了一个更大的NaViL-9B版本,这个版本在几乎所有测试中都达到了与大型拼装式模型相媲美的性能。这证明了原生训练方法的可扩展性,也为未来构建更大规模的多模态AI奠定了基础。

为了深入理解NaViL的工作原理,研究团队还进行了可视化分析。他们发现,当使用更大的视觉处理模块时,AI在浅层就能够关注到图像的全局信息,而不是像传统方法那样只关注局部细节。这就像是一个经验丰富的艺术家能够一眼就把握整幅画作的构图和意境,而不需要逐个细节地分析。

同时,更大的视觉模块还能促进视觉信息和文字信息之间更早的交互。这意味着AI在处理过程的早期阶段就能够将看到的内容与语言概念建立联系,从而产生更准确、更自然的理解。

这项研究的意义远不止于技术突破。它为多模态AI的发展指明了新方向,证明了在资源有限的情况下,通过精心设计的方法依然可以训练出高性能的原生多模态模型。这对于推动AI技术的普及和应用具有重要价值。

从应用角度来看,NaViL这样的原生训练模型有望在多个领域发挥重要作用。在教育领域,它可以帮助开发更智能的辅导系统,不仅能够理解学生的文字问题,还能分析图表、图形等视觉材料。在医疗领域,这种模型可以同时分析医学影像和病历文字,为医生提供更全面的诊断支持。

在内容创作方面,原生训练的多模态AI可以更好地理解创作者的意图,无论是通过文字描述还是参考图像,都能生成更符合要求的内容。这种自然的多模态理解能力,将使人机交互变得更加流畅和直观。

研究团队还关注到一个有趣的现象:NaViL在处理需要同时理解图像和文字的复杂任务时,表现明显优于那些简单拼装的模型。这证实了原生训练的核心价值——真正的多模态理解不是简单的模块组合,而需要从根本上统一的学习过程。

当然,这项研究也存在一些局限性。由于计算资源的限制,研究团队目前只探索了相对较小规模的模型。未来随着计算能力的提升,有望训练出更大规模的原生多模态模型,进一步验证这种方法的潜力。

此外,当前的研究主要集中在视觉和语言两个模态,未来可以考虑扩展到音频、视频等更多模态,构建真正全面的多模态AI系统。

说到底,这项研究最大的价值在于它改变了我们对多模态AI训练的基本认知。它告诉我们,不一定要有无限的资源才能训练出优秀的原生多模态模型,关键在于找到正确的方法和平衡点。就像烹饪一样,好的厨师不一定需要最昂贵的食材,但一定需要对各种食材特性的深刻理解和巧妙搭配。

研究团队已经将NaViL的代码开源,这意味着全世界的研究者和开发者都可以基于这个成果继续探索和改进。这种开放的做法将加速整个领域的发展,让更多人能够受益于这项技术突破。

对于普通人来说,这项研究的成果最终会体现在更智能、更自然的AI应用中。未来的AI助手可能会更好地理解我们同时发送的图片和文字,提供更准确的帮助。拍照翻译、智能客服、教育辅导等应用都将因为原生多模态技术而变得更加强大和实用。

这项由上海AI实验室领导、多所顶尖院校参与的研究,不仅在技术层面取得了突破,更为整个AI发展路径提供了新的思考方向。它证明了中国在AI基础研究方面的实力,也为全球AI技术发展贡献了重要的理论和实践成果。

Q&A

Q1:NaViL与传统多模态AI模型有什么本质区别?

A:传统模型是先分别训练看图的AI和理解文字的AI,再用"胶水"拼装起来,就像搭积木。而NaViL采用原生训练方式,让AI从一开始就同时学习看图和理解文字,像人类婴儿自然学习一样,避免了信息在"翻译"过程中的丢失。

Q2:原生训练方式需要更多计算资源吗?为什么值得这样做?

A:原生训练确实需要更多资源,但研究团队通过三个关键发现大大降低了成本:用预训练语言模型作起点、使用混合专家架构、找到视觉和语言能力的最佳平衡点。这样训练出的AI在复杂多模态任务上表现更自然,就像全能型人才比专业技能组合更灵活。

Q3:NaViL在实际应用中会带来哪些改变?

A:NaViL将让AI更自然地理解图文结合的内容,在教育辅导、医疗诊断、内容创作等领域发挥重要作用。比如智能辅导系统能同时分析学生的文字问题和图表材料,医疗AI能综合分析影像和病历,这些应用会变得更智能实用。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。

  • 香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。

  • 中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。

  • 字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-