
这项由德国柏林Jina AI公司的Andreas Koukounas、Georgios Mastrapas、Florian Honicke等研究团队完成的突破性研究,发表于2025年12月的arXiv预印本平台,论文编号为arXiv:2512.04032v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
在人工智能快速发展的今天,视觉语言模型就像是给计算机装上了"眼睛"和"嘴巴",让它们既能看懂图片,又能用人类语言描述看到的内容。然而,目前大多数优秀的视觉AI助手都有两个令人头疼的问题:它们往往只擅长英语,面对其他语言时就像哑巴一样;同时,这些AI"大脑"通常非常庞大,运行起来需要消耗大量计算资源,普通用户根本用不起。
Jina AI的研究团队就像是AI界的"节能专家",他们开发出了一个名为jina-vlm的小巧而强大的AI助手。这个AI助手只有24亿个参数,相当于其他同类产品的一半大小,却能熟练掌握30多种语言,在多语言视觉问答任务中表现出色。更令人惊喜的是,它在处理英语任务时的表现也丝毫不逊色于那些更大的"同行"。
这项研究的核心创新就像是为AI设计了一套高效的"信息处理流水线"。研究团队将SigLIP2视觉编码器比作AI的"眼睛",将Qwen3语言模型比作AI的"大脑",然后用一种叫做"注意力池化连接器"的技术将两者无缝连接起来。这种连接方式就像是在眼睛和大脑之间架设了一条高速通道,不仅传输速度快,还能有效压缩视觉信息,将原本需要处理的视觉标记数量减少了四分之三。
在训练这个AI助手的过程中,研究团队采用了一种"两阶段烹饪法"。第一阶段就像是让AI学习基础的"看图说话"技能,使用大量不同语言的图片描述数据来训练;第二阶段则像是进行专业技能培训,教会AI如何回答各种复杂的视觉问题。整个训练过程巧妙地融入了纯文本数据,就像是在教AI看图的同时,也不忘记保持它原有的语言理解能力。
为了处理不同尺寸的图片,jina-vlm采用了一种"拼图"策略。当遇到大图片时,它会将图片切割成多个重叠的小块,就像拼图游戏一样,每一块都能被AI的"眼睛"看清楚。同时,它还会保留一张缩小的全景图作为"鸟瞰图",确保不会错过整体信息。这种处理方式让AI能够既看到细节,又把握全局。
一、技术架构:像搭积木一样组装AI大脑
jina-vlm的整体架构就像是一个精心设计的信息处理工厂。在这个工厂里,原始图片首先会被送到"视觉车间"进行初步处理。这个车间使用的是SigLIP2-So400M/14-384视觉编码器,它就像一个有着4亿个神经元的超级"眼睛",专门负责将图片转换成计算机能够理解的数字信息。
这个视觉编码器的工作原理就像是用放大镜观察马赛克画。它将每张378×378像素的图片分解成27×27的网格,每个小格子代表一个14×14像素的区域。通过27层深度处理,这些视觉信息会逐渐从简单的像素点组合变成复杂的语义概念。
接下来是整个系统最巧妙的部分——视觉语言连接器。这个连接器就像是一个高效的翻译官,它不仅要将视觉信息翻译成语言模型能够理解的格式,还要尽可能压缩信息量以提高处理效率。连接器采用了一种创新的多层特征融合策略,它会同时提取视觉编码器第18层和第24层的信息,这样做就像是同时获得了"粗略轮廓"和"精细细节"两种视角。
在信息压缩环节,连接器使用了注意力池化技术。这种技术的工作原理就像是用智能相机拍照时的自动对焦功能。它会将每2×2个相邻的图像区域组合成一个更大的单元,通过注意力机制自动判断哪些信息更重要,然后将重要信息保留下来,不重要的信息则被过滤掉。这样一来,原本需要处理729个视觉标记的工作量减少到只需要处理182个,效率提升了四倍。
最后,处理后的视觉信息会被送到语言处理部分。这里使用的是Qwen3-1.7B-Base语言模型,它就像是一个拥有17亿个神经连接的超级大脑。为了让视觉信息和文本信息能够和谐共处,研究团队设计了三个特殊的标记符号:<im_start>和<im_end>用来标记图像内容的开始和结束,<im_col>则用来标记图像网格中每一行的边界,就像是给AI提供了阅读图像的"标点符号"。
二、训练过程:分阶段打造多语言视觉专家
训练jina-vlm的过程就像是培养一个多才多艺的翻译官,需要分阶段进行专业训练。整个训练过程巧妙地结合了约500万个多模态样本和120亿个文本标记,涵盖了30多种语言,其中大约一半是英语内容,其余则分布在各种高资源和中等资源的语言中。
第一阶段被称为"对齐训练",就像是教一个刚入学的学生学会基本的"看图说话"技能。在这个阶段,AI主要学习如何将看到的图像内容用准确的语言描述出来。训练数据主要来自PixmoCap和PangeaIns等数据集,这些数据集包含了各种各样的图片:自然风景、文档资料、信息图表、技术图解等等,就像是一本内容丰富的百科全书。
特别值得一提的是,研究团队在这个阶段加入了15%的纯文本数据,这些数据来自PleiAS/common语料库。这样做的目的就像是在教孩子学画画的同时,也不忘记让他们继续练习写字,确保原有的语言能力不会因为专注于视觉学习而退化。
在训练的技术细节上,研究团队为不同的组件设置了不同的学习速度。视觉编码器的学习率设置得比较保守,为6e-6,就像是让一个已经有基础的学生慢慢适应新环境;连接器的学习率最高,达到2e-4,因为它是全新的组件,需要快速学习;语言模型的学习率设置为2e-5,在保持原有能力的同时适应多模态任务。整个第一阶段训练了25000步,处理了320万个样本,相当于100亿个标记。
第二阶段被称为"指令微调",就像是对已经掌握基本技能的学生进行专业化训练,教会他们如何回答各种复杂的问题。这个阶段的训练数据更加多样化,包括了LLaVA OneVision、Cauldron、Cambrian、PangeaIns和FineVision等数据集,涵盖了学术问答、文档理解、光学字符识别、数学推理等多个领域。
在这个阶段,研究团队发现了一个有趣的现象:由于指令数据来源多样,不同数据源的风格差异很大,如果简单地将所有数据混合在一起训练,效果反而不好。就像是让学生同时学习不同老师的教学风格,容易产生混淆。因此,他们采用了一种渐进式的训练策略:前30000步使用单一数据源的批次进行训练,让AI先熟悉各种不同的任务风格;后30000步再使用混合数据源的批次进行训练,让AI学会融会贯通。
整个第二阶段训练了60000步,处理了1530万个样本,相当于370亿个标记。训练过程中,所有模型组件都保持可更新状态,没有采用冻结策略,这样可以让整个系统达到最佳的协调状态。
三、创新的图像处理策略:像拼图专家一样处理任意尺寸图片
处理不同尺寸的图片一直是视觉AI面临的一个技术难题。传统的方法就像是用同一个相框装所有的照片,要么把大照片强行压缩变形,要么把小照片拉伸模糊,无论哪种方式都会损失重要信息。jina-vlm采用了一种巧妙的"智能拼图"策略来解决这个问题。
当AI遇到一张大图片时,它会像拼图爱好者一样,将图片分解成多个重叠的小块。每个小块的尺寸都是标准的378×378像素,这是视觉编码器最擅长处理的尺寸。相邻的图片块之间会有一定的重叠,就像拼图时相邻的拼块会有重叠的边缘一样,这样可以确保重要信息不会在分割边界处丢失。
具体来说,每个图像块之间的重叠宽度是112像素,相邻块的中心间距是266像素。这种设置就像是用步长为266像素的"滑动窗口"在图片上移动,每次移动都能捕获新的图像区域,同时与前一个区域保持适度重叠。默认情况下,系统最多可以处理12个图像块,这意味着它可以处理分辨率高达1176×910像素的图片而不需要缩放。
除了这些详细的图像块之外,系统还会生成一张全局缩略图,将整张原始图片压缩到378×378像素。这张缩略图就像是拼图盒子上的完整图案,为AI提供整体的上下文信息,确保它在关注局部细节的同时不会失去全局视野。
在处理这些图像信息时,系统会为每个图像块单独进行编码,然后将所有编码结果按照空间顺序排列。为了帮助AI理解这种空间排列关系,研究团队引入了特殊的行分隔符<im_col>,就像是在给AI读图时加上了"换行"的提示。
这种分块处理策略的最大优势是可扩展性。如果需要处理更高分辨率的图片,只需要增加图像块的数量即可,计算复杂度与图像块数量呈线性关系,而不是传统方法的平方关系。这就像是雇佣更多工人来处理更大的拼图,工作量按比例增加,而不会出现指数级的复杂度爆炸。
四、性能评估:在多个战场上展现实力
为了全面验证jina-vlm的能力,研究团队设计了一个多维度的测试体系,就像是给AI安排了一场全科考试。这场考试涵盖了六个主要领域:通用视觉问答、多模态理解、多图像推理、幻觉控制、数学推理、纯文本性能,以及多语言理解能力。
在通用视觉问答测试中,jina-vlm就像是一个全能选手,在八个不同的评测基准上取得了平均72.3分的优异成绩,这个分数在同等规模的开源模型中排名第一。具体来看,它在图表理解任务ChartQA上得到81.9分,在文本识别任务TextVQA上得到83.2分,在文档问答DocVQA上更是达到了90.6分的惊人成绩。
在多模态理解和真实世界理解测试中,jina-vlm表现得像是一个见多识广的专家。它在MME基准测试中获得1965.8分,在MMBench v1.1上得到75.8分,在现实世界问答RealWorldQA任务中达到68.2分,这个成绩在所有参与比较的模型中排名最高。这说明jina-vlm不仅能理解标准的测试图片,也能很好地处理真实世界中复杂多变的视觉场景。
在多图像推理方面,jina-vlm的表现相对较为保守,平均得分为47.3分。这个结果其实完全在意料之中,因为训练数据中包含的多图像样本相对较少。但是在幻觉控制测试中,jina-vlm表现出色,在POPE基准测试中获得了90.3分的最高分。这意味着这个AI助手很少会"胡言乱语",它知道什么时候说"我不知道",而不是编造一些看起来合理但实际上错误的答案。
数学推理是AI能力的一个重要指标,就像是测试一个学生的逻辑思维能力。在这个领域,jina-vlm的表现中规中矩,在MathVista测试中得到59.5分,在MMMU测试中得到45.6分。虽然这些分数算不上顶尖,但考虑到模型的规模限制,这样的表现已经相当不错了。
在纯文本任务上的表现是衡量多模态训练是否会损害原有语言能力的重要指标。测试结果显示,jina-vlm在大部分任务上都能保持与原始语言模型相当的性能。在MMLU测试中得到56.1分,在GSM-8K数学问题上得到71.3分,在ARC-C常识推理测试中得到77.3分。虽然在一些知识密集型任务上略有下降,但在常识推理和阅读理解等任务上甚至有所提升。
最令人印象深刻的是jina-vlm在多语言任务上的表现。在MMMB多语言基准测试中,它取得了78.8分的平均成绩,在所有2B规模的模型中排名第一。具体到各个语言,它在阿拉伯语上得到76.9分,在中文上得到80.0分,在英语上得到82.0分,在葡萄牙语上得到79.2分,在俄语上得到79.2分,在土耳其语上得到75.5分。这种均衡的多语言表现就像是一个真正的国际翻译官,无论面对哪种语言都能游刃有余。
五、技术细节:精巧设计背后的工程智慧
jina-vlm的成功不仅仅在于创新的架构设计,更在于许多精心考虑的技术细节。这些细节就像是精密手表中的每一个齿轮,看似微小但对整体性能至关重要。
在视觉语言连接器的设计中,研究团队做出了几个关键的技术选择。首先是多层特征融合策略。传统做法通常只使用视觉编码器最后一层的输出,但jina-vlm同时使用了第18层和第24层的特征。第18层的特征保留了更多的空间细节信息,就像是一张高清晰度的照片;第24层的特征则包含了更多的语义信息,就像是对照片内容的高级理解。将这两种信息结合起来,就能够既看到"是什么样子",又理解"是什么意思"。
注意力池化机制的设计也颇具巧思。系统将每2×2个相邻的图像区域作为一个邻域,计算这四个区域特征的平均值作为查询向量。这个过程就像是在做图像的"局部平均",既保持了空间结构,又实现了信息压缩。通过自注意力计算,系统能够自动学会哪些空间位置的信息更重要,从而在压缩过程中最大化保留关键信息。
在训练策略上,研究团队采用了差异化的学习率设置。这种设计就像是给不同水平的学生设置不同的学习进度。对于已经预训练好的视觉编码器,使用较低的学习率(6e-6),让它慢慢适应新任务而不破坏原有的视觉理解能力。对于全新的连接器组件,使用最高的学习率(2e-4),让它快速学习如何有效地连接视觉和语言信息。对于语言模型,使用中等的学习率(2e-5),在保持原有语言能力的基础上学会处理视觉信息。
数据混合策略也体现了研究团队的深度思考。在对齐训练阶段,他们特意加入了15%的纯文本数据,这就像是在教学生新技能的同时,不忘记让他们复习已经掌握的知识。这种做法有效防止了多模态训练过程中常见的"灾难性遗忘"问题,确保AI在学会看图说话的同时,不会丢失原有的语言理解能力。
在指令微调阶段,研究团队发现直接混合不同来源的数据会导致训练不稳定,这是因为不同数据集的任务风格和数据质量存在显著差异。他们采用的解决方案是先进行单源训练,再进行混合训练,这种渐进式的方法就像是让学生先分别掌握各门课程,再学习如何融会贯通。
六、实验结果:数字背后的真实实力
通过大量的实验和对比测试,jina-vlm展现出了令人印象深刻的综合实力。这些测试结果不仅仅是冰冷的数字,更是这个AI助手在各种实际应用场景中表现的真实写照。
在文档理解能力测试中,jina-vlm表现得就像是一个经验丰富的文档分析专家。在DocVQA任务中,它能够准确地从复杂的表单和文档中提取信息,回答诸如"响应代码是什么?"这样的具体问题,准确率高达90.6%。在InfoVQA信息图表理解任务中,它也达到了71.6%的准确率,这意味着它能够理解图表、信息图和各种可视化数据表示。
在光学字符识别(OCR)相关任务上,jina-vlm展现出了出色的文字识别和理解能力。在TextVQA测试中得到83.2分,在OCRBench测试中得到778分(满分1000分)。这种能力让它能够像人类一样阅读图片中的文字内容,无论是街头的招牌、产品的标签,还是文档中的表格数据。
特别值得关注的是jina-vlm在多语言环境下的稳定表现。在Multilingual MMBench测试中,它在不同语言上的表现都相对均衡:阿拉伯语70.0分、中文75.9分、英语78.8分、葡萄牙语74.7分、俄语75.3分、土耳其语71.1分。这种均衡性说明模型真正掌握了跨语言的视觉理解能力,而不是简单地依赖某种特定语言的训练数据。
在与其他同等规模模型的直接对比中,jina-vlm几乎在所有任务上都表现出了竞争优势。与Qwen2-VL-2B相比,在八项通用VQA任务上的平均得分高出近6分;与InternVL3-2B相比,在多语言任务上的优势更加明显,MMMB平均得分高出5.2分。
更重要的是,jina-vlm在保持视觉性能的同时,很好地保留了原始语言模型的文本处理能力。在MMLU知识问答测试中得到56.1分,虽然相比原始的Qwen3-1.7B模型的62.6分有所下降,但这种下降幅度在多模态模型中是完全可以接受的。在GSM-8K数学问题和ARC-C常识推理等任务上,性能下降更加有限,甚至在HellaSwag阅读理解测试中还略有提升。
七、技术局限与未来展望:诚实面对挑战与机遇
虽然jina-vlm在多个方面都表现出色,但研究团队也诚实地承认了当前方法的一些局限性,这种科学态度反而更加令人信服。
首先是多图像处理能力的限制。由于训练数据中多图像样本相对较少,jina-vlm在需要同时理解和比较多张图片的任务上表现相对较弱,在多图像推理测试中只取得了47.3分的中等成绩。这就像是一个学生虽然擅长分析单个问题,但在处理需要综合多个信息源的复杂问题时还需要更多练习。
其次是计算效率的权衡。虽然多瓦片处理策略能够很好地处理高分辨率图像,但随着图像分辨率的增加,计算开销也会线性增长。这意味着在处理极高分辨率图像时,系统仍然面临计算资源的挑战。这就像是用更多的工人来处理更大的任务,虽然可行,但成本也会相应增加。
在安全性和可靠性方面,研究团队坦率地指出,他们的训练过程并没有专门强调安全关键的训练或对齐优化。这意味着在某些敏感应用场景中,模型可能需要额外的安全性评估和优化。这就像是一辆性能优秀的汽车,虽然速度很快,但在特殊路况下可能需要额外的安全措施。
数学推理能力也是一个需要改进的领域。虽然jina-vlm在基础的数学问题上表现尚可,但在复杂的数学推理任务上还有提升空间。这反映了当前视觉语言模型在处理需要多步骤逻辑推理的任务时面临的普遍挑战。
展望未来,研究团队提出了几个有前景的发展方向。首先是更高效的分辨率处理方法,可能通过更智能的图像分割策略或自适应的处理机制来减少计算开销。其次是将这种多语言训练方法扩展到更大规模的模型,验证其在不同模型尺寸下的效果。
另一个重要的方向是增强多图像处理能力。通过收集更多高质量的多图像训练数据,或者设计更有效的多图像理解架构,可以显著提升模型在复杂视觉推理任务上的表现。
在应用层面,jina-vlm这样的小规模高效模型为边缘计算和移动应用开辟了新的可能性。未来可能会看到更多运行在手机、平板电脑甚至智能家居设备上的视觉AI助手,为用户提供实时的多语言视觉问答服务。
总的来说,jina-vlm的成功证明了小型化、高效率和多语言能力并不矛盾。通过精心的架构设计、巧妙的训练策略和大量的工程优化,完全可以在有限的资源下构建出性能卓越的视觉语言模型。这不仅为学术研究提供了新的思路,也为实际应用中的AI普及化奠定了重要基础。
研究团队的工作表明,AI技术的进步不一定意味着模型规模的无限扩大,通过聪明的设计和优化,小而精的模型同样可以在特定领域达到甚至超越大型模型的性能。这种发展路径对于推动AI技术的民主化和普及化具有重要意义,让更多的研究者和开发者能够参与到AI创新的进程中来。
说到底,jina-vlm的成功故事告诉我们,在AI发展的道路上,并不是只有"大就是好"这一条路可走。通过深入理解问题的本质,精心设计解决方案,即使是相对较小的模型也能够在特定领域表现出色。这种平衡效率和性能的方法论,不仅适用于视觉语言模型的开发,也为整个AI领域的可持续发展提供了有价值的启示。
对于普通用户来说,jina-vlm这样的模型意味着更加便捷和实用的AI助手正在走近我们的生活。无论是帮助理解外语图片内容,还是协助处理日常的文档和图表分析,这种多语言、高效率的AI助手都将成为我们数字生活中不可或缺的工具。随着技术的不断成熟和普及,我们有理由期待一个更加智能、更加包容的多语言AI时代的到来。
Q&A
Q1:jina-vlm相比其他视觉语言模型有什么优势?
A:jina-vlm的最大优势是在保持小体积的同时实现了出色的多语言能力。它只有24亿参数,但能熟练处理30多种语言的视觉问答任务,在多语言基准测试中达到78.8分,是同等规模开源模型中的最高分。同时它在英语任务上的表现也不逊色于更大的模型。
Q2:jina-vlm是如何处理不同尺寸图片的?
A:jina-vlm采用智能分块策略,将大图片分解成多个378×378像素的重叠小块,每个小块间重叠112像素。同时保留一张全局缩略图提供整体信息。这样既能看清局部细节,又不会失去全局视野,最多可处理1176×910分辨率的图片而无需压缩变形。
Q3:普通用户什么时候能使用jina-vlm?
A:目前jina-vlm还处于研究阶段,论文刚刚在2025年12月发布。由于它的小型化设计,未来很可能会被集成到手机、平板等移动设备中,为用户提供实时的多语言视觉问答服务。具体的商业化时间表需要等待Jina AI公司的进一步公告。
好文章,需要你的鼓励
这项由Snowflake AI Research发表的研究挑战了传统语言学对大型语言模型的批评,通过引入波兰语言学家Mańczak的理论框架,论证了LLM的成功实际上验证了"频率驱动语言"的观点。研究认为语言本质上是文本总和而非抽象系统,频率是其核心驱动力,为重新理解AI语言能力提供了新视角。
freephdlabor是耶鲁大学团队开发的开源多智能体科研自动化框架,通过创建专业化AI研究团队替代传统单一AI助手的固化工作模式。该框架实现了动态工作流程调整、无损信息传递的工作空间机制,以及人机协作的质量控制系统,能够自主完成从研究构思到论文发表的全流程科研工作,为科研民主化和效率提升提供了革命性解决方案。
德国马普智能系统研究所团队开发出专家混合模型的"即时重新布线"技术,让AI能在使用过程中动态调整专家选择策略。这种方法无需外部数据,仅通过自我分析就能优化性能,在代码生成等任务上提升显著。该技术具有即插即用特性,计算效率高,适应性强,为AI的自我进化能力提供了新思路。
Algoverse AI研究团队提出ERGO系统,通过监测AI对话时的熵值变化来检测模型困惑程度,当不确定性突然升高时自动重置对话内容。该方法在五种主流AI模型的测试中平均性能提升56.6%,显著改善了多轮对话中AI容易"迷路"的问题,为构建更可靠的AI助手提供了新思路。