这项由上海AI实验室联合清华大学、南京大学、复旦大学、香港中文大学、上海交通大学以及商汤科技共同完成的重磅研究,于2025年4月发表在计算机视觉领域的顶级会议上。感兴趣的读者可以通过GitHub开源地址https://github.com/OpenGVLab/InternVL以及HuggingFace模型库https://huggingface.co/OpenGVLab/InternVL3-78B获取完整的代码和模型。这项研究的核心成果InternVL3代表了开源多模态人工智能模型的一次重大飞跃。
想象一下,如果有一个AI助手既能看懂图片、理解视频,又能流利地与你对话,甚至还能解决复杂的数学题目和分析图表数据,这会是什么样的体验?传统的AI模型就像专业化的工匠,要么擅长处理文字,要么擅长识别图像,很少有能真正融会贯通的"全才"。而InternVL3的出现,就像是AI界的"文武双全"高手,打破了这种局限性。
过去制造这种多模态AI就像是先建造一座专门用来处理文字的工厂,然后再想办法在旁边添加一个图像处理车间,最后用各种复杂的管道把它们连接起来。这种"后装修"的方式不仅复杂,而且往往效果不佳,就像把两个不同风格的房间强行打通,总是显得不那么协调。InternVL3团队则采用了完全不同的思路——从一开始就设计一个既能处理文字又能理解图像的"全能工厂"。
这种创新设计让InternVL3在多项评测中表现卓越。在被誉为多模态AI"高考"的MMMU基准测试中,InternVL3-78B获得了72.2分的成绩,超越了之前所有的开源模型,甚至能与ChatGPT-4o、Claude 3.5 Sonnet等顶级商业模型一较高下。更令人印象深刻的是,研究团队将所有的训练数据和模型权重完全开源,为整个AI社区的发展贡献了宝贵资源。
一、原生多模态预训练:从根本上重新思考AI的学习方式
传统的多模态AI模型构建过程就像是训练一个专门的翻译员,先让他精通某种语言,然后再教他理解图像,最后想办法让他把这两种技能结合起来。这种方法的问题在于,这个"翻译员"在学习新技能时,很容易忘记或弱化之前掌握的能力,就像一个数学高手突然开始学画画,可能会发现自己的计算能力有所下降。
InternVL3采用的原生多模态预训练方法,则像是从小就同时学习多种语言的孩子。研究团队让模型从一开始就接触文字和图像两种信息,让它在同一个"成长环境"中自然地学会处理这两种截然不同的数据类型。这种方法的优势在于,模型不需要经历"遗忘-重新学习"的痛苦过程,而是能够自然地发展出统一的理解框架。
具体来说,InternVL3的训练过程就像是给学生提供一本图文并茂的综合教材,而不是先让他们读纯文字书,再让他们看图画册。在训练过程中,模型同时接收大约200亿个来自文本的训练样本和150亿个来自多模态数据的训练样本。这种1:3的比例设计经过了大量实验验证,确保模型既不会因为文字训练不足而影响语言能力,也不会因为多模态训练过度而丧失文本处理的精确性。
研究团队还引入了一种称为"平方平均"的权重策略,这就像是在考试中给不同长度的答案分配合理的分数。传统方法要么偏向给短答案高分,要么偏向给长答案高分,而平方平均策略能够更公平地评估不同类型的回答,避免模型产生长度偏见。
二、变长视觉位置编码:让AI拥有更灵活的"视觉记忆"
人类在阅读一本厚厚的图文书籍时,能够轻松记住前面章节的图片内容,并将其与后面的文字信息联系起来。但对于AI模型来说,处理这种长篇幅的多模态内容就像是要求一个人同时记住一长串电话号码和一系列复杂图案的组合,是一项极其困难的挑战。
传统的AI模型在处理视觉信息时,就像是用固定间距的页码给每张图片编号。不管图片内容多么丰富复杂,都按照1、2、3、4的顺序严格编号。这种方法的问题在于,当处理长文档或多图片序列时,模型很容易"失忆",忘记前面看过的内容。
InternVL3引入的变长视觉位置编码(V2PE)技术,就像是给AI装上了一个"智能书签系统"。这个系统不再使用固定间距的编号,而是根据内容的重要性和复杂程度灵活调整"页码间距"。对于文字内容,系统仍然使用传统的1、2、3编号方式,但对于图像内容,则使用更小的增量,比如0.5、0.25、0.125等。
这种设计的巧妙之处在于,它允许模型在有限的"记忆空间"内容纳更多的视觉信息。就像是在固定大小的书架上,通过调整书本的摆放方式,能够放置更多内容。在训练过程中,系统会随机选择不同的增量值(从1到1/256),让模型学会适应各种不同的"记忆密度"。在实际应用时,系统可以根据输入内容的长度和复杂程度,自动选择最合适的编码方式。
实验结果显示,使用V2PE技术的模型在几乎所有评测指标上都有显著提升。即使在主要涉及短上下文的任务中,相对较小的增量值也能带来最佳性能,这说明这种技术的优势不仅限于长文档处理,而是能够全面提升模型的理解能力。
三、先进的后训练技术:让AI变得更加"善解人意"
即使拥有了强大的基础能力,AI模型仍然需要经过精心的"调教"才能真正理解人类的需求和偏好。这个过程就像是培养一个天赋异禀的学生成为优秀的助手,需要通过有针对性的训练来提升其实用性和可靠性。
InternVL3的后训练过程分为两个阶段:监督微调和混合偏好优化。监督微调阶段就像是给学生提供标准答案,让他们学习什么样的回答是高质量的。研究团队收集了大约2170万个高质量的训练样本,涵盖了工具使用、3D场景理解、图形用户界面操作、科学图表分析、创意写作和多模态推理等多个领域。这比前一代模型的1630万样本大幅增加,为模型提供了更丰富的学习材料。
在这个阶段,研究团队还采用了几项创新技术来提升训练效果。随机JPEG压缩技术模拟了现实世界中图像质量的变化,让模型学会处理各种清晰度的图片。平方损失重加权策略则确保模型不会因为训练样本长度的差异而产生偏见。多模态数据打包技术提高了训练效率,让模型能够更有效地学习不同类型的信息。
混合偏好优化阶段则更像是培养学生的判断力和推理能力。传统的训练方法只是让模型学会预测下一个词语,但在实际应用中,模型需要基于自己之前的输出继续生成内容。这种差异就像是学习时有标准答案参考,但考试时需要完全依靠自己,往往会导致性能下降。
为了解决这个问题,研究团队采用了混合偏好优化技术,结合了偏好损失、质量损失和生成损失三种不同的训练目标。偏好损失教会模型区分好答案和坏答案,质量损失帮助模型理解单个回答的绝对质量,生成损失则确保模型能够生成高质量的内容。这种综合训练方法显著提升了模型的推理能力,特别是在数学和逻辑推理任务上表现出色。
四、测试时扩展策略:让AI在"考试时"也能超常发挥
人类在面对困难问题时,往往会尝试多种不同的解题方法,然后选择最好的答案。InternVL3也采用了类似的策略,通过测试时扩展技术来提升模型在复杂任务上的表现。
这种方法的核心是使用一个叫做VisualPRM的"评判员"模型。当面对数学或推理问题时,InternVL3会生成多个不同的解答方案,然后由VisualPRM对每个方案的每个步骤进行评分。这个过程就像是请一位经验丰富的老师来检查学生的作业,不仅看最终答案,还要评估每个解题步骤的正确性。
VisualPRM的工作方式很有意思,它将问题解决过程转化为多轮对话的形式。图像、问题和第一步解答构成第一轮对话,然后每个后续步骤都形成新的对话轮次。在每轮对话中,VisualPRM需要判断当前步骤是正确(+)还是错误(-)。最终,通过平均所有步骤的得分来评估整个解答方案的质量。
实验结果显示,这种方法带来了显著的性能提升。即使是参数相对较少的模型,在使用"8选最优"策略后,推理性能也有大幅改善。例如,在MathVerse数据集的纯视觉部分,InternVL3-38B和InternVL3-78B分别获得了6.0和3.2个百分点的提升。这证明了测试时扩展策略的有效性,也为提升AI模型性能提供了新的思路。
五、基础设施优化:为大模型训练搭建高效的"生产线"
训练像InternVL3这样的大型AI模型,就像是运营一个复杂的现代化工厂,需要协调成千上万的计算单元同时工作。研究团队扩展了InternEVO框架,专门针对多模态模型的训练需求进行了优化。
这个框架的创新之处在于为不同的模型组件(视觉编码器、多层感知机、语言模型)提供了灵活且解耦的分片策略。就像是在工厂中为不同的生产线设计专门的物流系统,确保每个部门都能高效运转,同时最大程度地减少相互干扰。
多模态模型训练面临的一个特殊挑战是计算负载的不平衡。由于不同训练样本包含的视觉和文本信息比例差异很大,就像是工厂生产线上有时需要处理简单产品,有时需要处理复杂产品,容易造成某些工作站过载而其他工作站闲置。
为了解决这个问题,研究团队开发了一套动态负载均衡技术,能够根据实际需求动态调整计算资源的分配。这种方法支持多种并行策略的组合,包括数据并行、张量并行、序列并行和流水线并行,确保所有计算资源都能得到充分利用。
得益于这些优化,InternEVO框架能够支持高达32K标记的序列长度,同时在相同计算预算下,InternVL3的训练速度比前一代模型提升了50%到200%。这种效率提升不仅降低了训练成本,也为研究团队尝试更多实验和优化提供了可能。
六、全面的性能评估:在多个"考试科目"中展现实力
为了全面评估InternVL3的能力,研究团队在多个不同类型的基准测试上进行了评估,就像是让一个学生参加包括语文、数学、外语、科学等多个科目的综合考试。
在多学科推理能力测试MMMU中,InternVL3-78B获得了72.2分的优异成绩,不仅超越了所有开源模型,也与顶级商业模型形成了有力竞争。这个测试涵盖了艺术、商业、科学、健康医学、人文社科、社会科学等多个学科,要求模型具备跨领域的知识整合能力。
在数学推理方面,InternVL3在MathVista、MathVision、MathVerse等多个测试中都表现出色。特别值得一提的是,在MathVista测试中,InternVL3-78B达到了接近79%的正确率,显示出强大的数学图像理解和推理能力。这些测试不仅要求模型能够理解数学概念,还要能够解读图表、几何图形和复杂的数学表达式。
在文档理解和光学字符识别(OCR)任务中,InternVL3也展现出了卓越的性能。在OCRBench测试中,InternVL3-78B获得了906分的高分,在处理各种文档类型、图表分析和信息提取任务中都表现优异。这种能力对于实际应用场景具有重要意义,因为现实世界中的很多任务都涉及从图像中提取和理解文本信息。
多图像理解能力是InternVL3的另一个亮点。在BLINK、Mantis-Eval、MMIU等测试中,模型展现出了处理复杂多图像关系和进行跨图像推理的能力。这种能力让AI能够像人类一样,将来自不同图像的信息整合起来,形成完整的理解。
实际场景理解测试进一步证明了InternVL3的实用价值。在RealWorldQA、MME-RealWorld、WildVision和R-Bench等测试中,模型展现出了处理现实世界复杂场景的能力。这些测试模拟了真实环境中可能遇到的各种视觉理解任务,对模型的泛化能力提出了很高要求。
七、多语言和视频理解:拓展AI的"视野"与"语言天赋"
在全球化的今天,一个真正有用的AI助手必须能够理解多种语言,并且具备处理动态视频内容的能力。InternVL3在这两个方面都表现出了令人印象深刻的能力。
在多语言理解测试中,InternVL3不仅在英语和中文任务上表现优异,在葡萄牙语、阿拉伯语、土耳其语和俄语等多种语言的多模态任务中也展现出了强大的跨语言理解能力。这种能力的获得并非偶然,而是源于训练数据的精心设计和模型架构的全面优化。
视频理解能力是现代多模态AI的重要标志。InternVL3在Video-MME、MVBench、MMBench-Video、MLVU、LongVideoBench和CG-Bench等多个视频理解基准测试中都取得了显著进步。特别是在长视频理解任务中,模型展现出了捕捉时序信息和理解复杂视频内容的能力。
这些能力的提升得益于训练过程中对视频数据的特殊处理。研究团队为不同的测试采用了不同的帧数设置,从16帧到64帧不等,并选择最佳结果进行报告。这种灵活的处理方式确保了模型能够在不同类型的视频任务中都发挥出最佳性能。
八、专业领域应用:从图形界面到空间推理的全方位突破
除了通用能力之外,InternVL3还在多个专业领域展现出了实用的应用价值。在图形用户界面(GUI)理解任务中,模型能够准确识别和定位屏幕元素,为自动化操作和智能助手应用奠定了基础。
在ScreenSpot和ScreenSpot-V2这两个具有挑战性的GUI基准测试中,InternVL3的表现超越了许多专门针对界面理解设计的模型。这种能力的意义在于,它为开发能够自动操作计算机界面的AI助手铺平了道路,可能会改变我们与计算机交互的方式。
空间推理能力是另一个重要的专业领域。在VSI-Bench(视觉空间智能基准)测试中,InternVL3展现出了构建三维环境心理表征的能力。这种能力对于自动驾驶、机器人导航和增强现实等应用具有重要意义。
特别值得注意的是,InternVL3在物体计数、绝对距离估计、相对距离估计和外观顺序预测等子任务中都表现出色。这些看似简单的任务实际上需要模型具备复杂的空间理解和推理能力,InternVL3的优异表现证明了其在空间智能方面的突破。
九、语言能力保持:多模态训练不忘"文字功底"
一个常见的担忧是,当AI模型学习处理图像和视频时,是否会影响其原有的语言处理能力。就像担心一个原本擅长写作的人在学习绘画后是否会影响文字表达能力一样。InternVL3的实验结果有力地证明了,通过合理的训练策略,模型不仅能够获得强大的多模态能力,还能保持甚至提升其语言处理性能。
在MMLU、CMMLU、C-Eval、GAOKAO-Bench等多个语言理解基准测试中,InternVL3系列模型的表现甚至超过了同规模的纯语言模型。这种现象的出现主要归功于三个因素:训练数据中包含约25%的纯文本内容、多模态预训练过程中的联合参数优化,以及后训练阶段对高质量文本语料的广泛使用。
更有趣的是,在数学推理、代码生成和常识问答等任务中,InternVL3的表现也显著优于对照的纯语言模型。这表明多模态训练带来的不仅仅是视觉理解能力,还可能增强了模型的整体推理和理解能力。
十、深入的技术剖析:揭秘背后的设计智慧
为了更好地理解InternVL3成功的原因,研究团队进行了详细的消融实验,就像是医生通过各种检查来诊断病因一样,这些实验帮助我们理解每个技术组件的具体贡献。
原生多模态预训练的有效性通过对比实验得到了充分验证。研究团队使用相同的模型架构、初始化参数和训练数据,仅仅将传统的多阶段训练流程替换为原生多模态预训练,就观察到了显著的性能提升。更重要的是,即使不进行后续的指令调优,使用原生多模态预训练的模型就已经展现出了强大的多模态能力。
变长视觉位置编码(V2PE)的效果评估揭示了一个有趣的现象:即使在主要涉及短上下文的任务中,使用较小的位置增量值(如1/4、1/16)也能带来性能提升。这说明V2PE的优势不仅限于长文档处理,而是能够从根本上改善模型对视觉信息的理解和记忆方式。
混合偏好优化(MPO)技术的效果在推理任务中表现得特别明显。实验结果显示,使用MPO技术的模型在七个多模态推理基准测试中都获得了显著提升,其中InternVL3-78B和InternVL3-38B分别提升了4.1和4.5个百分点。关键在于,MPO使用的训练数据是SFT数据的子集,这意味着性能提升主要来自训练算法的改进,而非数据质量的提升。
十一、技术创新的深层意义:重新定义AI模型的训练范式
InternVL3的技术创新不仅仅是性能数字的提升,更重要的是它代表了AI模型训练范式的根本性转变。传统的"先语言后视觉"训练方式就像是先教会一个人阅读,然后再教他看图,这种方式虽然看似合理,但实际上忽略了人类学习的自然规律。
人类婴儿在学习语言的同时,也在学习理解视觉世界,这两种能力是相互促进、共同发展的。InternVL3的原生多模态预训练方法更接近这种自然的学习过程,让模型从一开始就建立起统一的多模态理解框架。
这种范式转变的意义远超出了技术层面。它表明我们对AI学习过程的理解正在不断深化,从简单的"技能叠加"向更加整体和系统的"能力培养"转变。这种理念的转变可能会影响未来AI模型的设计思路,推动整个领域向更加自然和高效的方向发展。
变长视觉位置编码技术的引入也体现了对AI"记忆机制"的深度思考。传统的固定位置编码就像是用相同大小的盒子来存储不同类型的物品,而V2PE则像是根据物品的特性选择合适大小的存储空间。这种灵活性不仅提高了存储效率,更重要的是它让模型能够更好地理解不同模态信息之间的关系。
十二、实际应用前景:从科研成果到实用工具的转化
InternVL3的开源发布为整个AI社区带来了宝贵的资源,也为各种实际应用的开发奠定了基础。在教育领域,具备强大多模态理解能力的AI助手可以帮助学生理解复杂的图表、解决数学问题,甚至分析历史文献中的图像资料。
在医疗健康领域,InternVL3的文档理解和图像分析能力可以应用于医学影像分析、病历信息提取和医学文献理解等场景。模型能够同时处理文字描述和医学图像,为医生提供更加全面的辅助诊断信息。
商业和工业应用方面,GUI理解能力为自动化办公和智能客服开辟了新的可能性。企业可以基于InternVL3开发能够自动操作各种软件界面的AI助手,大幅提升工作效率。同时,强大的图表分析能力也为商业数据分析和报告生成提供了新的工具。
在内容创作和媒体行业,InternVL3的多语言和视频理解能力可以应用于自动字幕生成、内容审核、视频摘要制作等场景。模型能够理解不同语言的视频内容,为全球化的内容分发提供支持。
科研领域同样可以从InternVL3的能力中受益。研究人员可以利用模型的文档理解能力来分析大量的学术文献,或者使用其图像分析能力来处理实验数据和科学图像。这种AI辅助的研究方式可能会显著加速科学发现的进程。
说到底,InternVL3的意义不仅在于它在各种测试中取得的优异成绩,更在于它展示了AI技术发展的新方向。通过原生多模态预训练、变长视觉位置编码、混合偏好优化等创新技术,InternVL3证明了开源模型同样可以达到世界领先水平。
归根结底,这项研究最重要的贡献在于它的开放性。研究团队将所有的训练数据、模型权重和代码完全开源,为全球的研究者和开发者提供了宝贵的资源。这种开放的精神不仅推动了技术的快速传播和改进,也体现了科学研究应有的合作共享理念。
对于普通人来说,InternVL3代表的技术进步意味着我们将很快看到更加智能、更加实用的AI助手出现在日常生活中。这些AI助手不再是只会聊天的工具,而是真正能够理解我们的视觉世界、帮助我们处理复杂任务的得力助手。当然,技术的发展也提醒我们需要思考AI在社会中的角色和影响,确保这些强大的工具能够真正造福人类社会。
对于想要深入了解这项研究技术细节的读者,可以访问GitHub开源项目https://github.com/OpenGVLab/InternVL获取完整的代码实现,或者通过HuggingFace模型库https://huggingface.co/OpenGVLab/InternVL3-78B直接体验模型的强大能力。这种开放共享的研究模式,正是推动AI技术持续进步的重要动力。
Q&A
Q1:InternVL3与传统的多模态AI模型有什么根本区别? A:传统模型是先训练语言能力再"贴"上视觉功能,像后装修改造房屋。InternVL3采用原生多模态预训练,从一开始就同时学习文字和图像,像从小就双语成长的孩子,避免了能力冲突和遗忘问题,整体表现更协调。
Q2:普通人什么时候能使用到InternVL3技术? A:由于完全开源,开发者现在就可以基于InternVL3构建应用。普通用户可能很快就会在教育软件、办公助手、智能客服等产品中体验到这项技术,特别是在需要同时理解图片和文字的场景中。
Q3:InternVL3在哪些实际任务中表现最突出? A:表现最突出的是多学科推理(MMMU得分72.2)、数学问题解决、文档理解、多图像分析和GUI界面操作。特别擅长处理需要综合理解图表、文字和逻辑关系的复杂任务,这些正是日常工作学习中最常遇到的场景。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。