
这项由阿里巴巴Qwen团队完成的重磅研究发表于2024年12月,研究团队发布了目前Qwen系列中最强大的视觉语言模型Qwen3-VL。感兴趣的读者可以通过arXiv:2511.21631v2查询完整论文。
就在最近,人工智能领域迎来了一个令人瞩目的突破。阿里巴巴的Qwen团队发布了他们最新的视觉语言模型Qwen3-VL,这个模型就像是拥有了超强视力和阅读能力的AI助手,不仅能看懂图片,还能理解长达25万字的文档,甚至能根据网页截图直接写出完整的代码。
你可能会好奇,为什么我们需要这样的AI模型?想象一下,当你面对一份厚厚的技术手册,既有文字说明又有大量图表时,传统的AI要么只能读文字,要么只能看图片,很难把两者结合起来理解。而Qwen3-VL就像是一个既能读书又能看图的全能学生,能够同时处理文字、图片和视频,并且理解它们之间的关系。
这项研究的突破性在于几个方面。首先是上下文长度的革命性提升。传统的AI模型处理长文档时就像是近视眼看报纸,只能一小段一小段地阅读,很容易丢失整体的逻辑脉络。而Qwen3-VL能够一次性处理25万个词汇,这相当于能够一口气读完一本中等厚度的小说,并且完全理解其中的前后呼应关系。
其次是模型的多样化配置。研究团队就像是在开餐厅时提供不同的套餐选择一样,推出了从20亿参数到2350亿参数的多个版本。小的版本就像是便携式的快餐,处理速度快,适合日常使用;大的版本则像是豪华大餐,功能更强大,适合处理复杂任务。特别值得一提的是,他们还开发了混合专家系统(MoE)版本,这种设计就像是拥有一个专家顾问团,每个专家负责不同的领域,当遇到特定问题时,相应的专家就会被激活来解决问题。
第三个重要突破是模型的多模态理解能力。传统AI处理图片和文字时,往往像是两个不会配合的员工各干各的。而Qwen3-VL则像是一个训练有素的团队,能够同时理解文字说明和配套图片,甚至能够处理视频内容。比如给它一个包含图表的财务报告,它不仅能读懂文字说明,还能分析图表数据,并且理解两者之间的对应关系。
一、架构创新:三大技术突破让AI更聪明
Qwen3-VL的技术架构就像是一个精心设计的多功能工作室,包含了视觉编码器、语言模型和连接两者的桥梁组件。但真正让它与众不同的是三个关键创新。
第一个创新是增强版的位置编码技术,研究团队称之为"交错MRoPE"。要理解这个概念,我们可以把AI处理信息比作组装一幅巨大的拼图。传统的方法就像是把拼图按照时间、水平位置、垂直位置分别放在三个不同的盒子里,这样组装时很难看出整体的图案。而新的交错MRoPE就像是把这三种拼图片均匀混合在一起,让AI在组装时能够更好地理解空间和时间关系,特别是在处理长视频时效果显著。
第二个创新是DeepStack融合机制。传统的视觉语言模型就像是两个独立工作的部门,视觉部门负责看图,语言部门负责理解文字,然后在最后阶段才把结果合并。而DeepStack就像是让这两个部门的员工在每个工作环节都进行深度合作,视觉信息在多个层次上都会与语言处理过程融合,这样最终的理解就更加准确和深入。
第三个创新是基于文本的时间对齐技术。在处理视频时,传统方法就像是用一个复杂的时钟系统来标记每一帧画面的时间,但这种方法在处理长视频时会变得很混乱。新的方法则像是在每个关键场景前放一个简单的标签,比如"3.0秒"或"1分30秒",这样AI就能更直观地理解视频的时间结构。
除了这些架构创新,研究团队还改进了训练方法。他们使用了一种叫做"平方根重新加权"的技术,就像是在烹饪时精确控制各种调料的比例,确保文本理解能力和多模态理解能力都能得到均衡发展,不会出现顾此失彼的情况。
二、训练过程:从基础学习到专业技能的四阶段培养
Qwen3-VL的训练过程就像是培养一个全才学生的教育历程,分为预训练和后训练两个大阶段,其中预训练又细分为四个循序渐进的阶段。
预训练的第一阶段叫做视觉语言对齐阶段,就像是教一个刚入学的孩子认识字母和图形的对应关系。在这个阶段,研究团队只训练连接视觉和语言的桥梁部分,而保持视觉编码器和语言模型不变,用了大约670亿个高质量的图片配文字的样本。这个过程就像是让学生先练习看图说话,建立起图像和文字之间的基本联系。
第二阶段是多模态预训练,相当于让学生开始学习各种科目。在这个阶段,所有的模型组件都参与训练,使用了大约1万亿个词汇的数据。这些数据就像是一个巨大的图书馆,包含了图片说明、知识问答、文档识别等各种类型的内容,还包含了少量的视频数据来培养时间理解能力。
第三阶段专门针对长上下文能力训练。研究团队把输入长度从8192个词汇扩展到32768个词汇,就像是让学生从阅读短文章过渡到阅读长篇小说。这个阶段同样使用了1万亿词汇的数据,但调整了数据构成,增加了纯文本数据的比例来提升长文本理解能力,同时加入了更多的视频和智能代理任务数据。
第四阶段是超长上下文适应,把处理长度进一步扩展到256K词汇,相当于能够一次性阅读一本中等厚度的书。这个阶段使用了专门筛选的1000亿词汇数据,特别强调长视频和长文档理解任务,为模型处理复杂的实际应用场景打下基础。
后训练阶段则像是专业技能的培训和实习。首先是监督微调阶段,分为32K和256K两个子阶段,就像是从理论学习过渡到实际操作。研究团队还开发了两个版本:非思维版本注重快速响应,思维版本则会展示详细的推理过程,就像是培养出既能快速答题又能详细解释的两类学生。
接下来是强弱蒸馏阶段,就像是让优秀的老师把知识传授给新学生。研究团队用强大的教师模型来指导较小模型的学习,这个过程主要使用纯文本数据,但同样能够显著提升多模态任务的表现。
最后是强化学习阶段,分为推理强化学习和通用强化学习两部分。推理强化学习就像是专门训练数学解题能力,涵盖了数学、编程、逻辑推理等可以自动验证答案正确性的任务。通用强化学习则像是培养综合素质,包括指令遵循、偏好对齐等更广泛的能力。
三、数据构建:打造AI学习的超级教材库
构建Qwen3-VL使用的训练数据就像是为一个天才学生准备最全面的教材库,不仅要涵盖各个学科,还要确保每本教材都是精心挑选的高质量内容。
在图像描述和交错文本图像数据的构建上,研究团队就像是在编写一本图文并茂的百科全书。他们收集了大量来自网络的图片文字配对,但不是简单地使用原始数据,而是使用专门训练的Qwen2.5-VL-32B模型来重新撰写更详细、更准确的图片描述。这个过程就像是让一个经验丰富的作家重新为每张图片写说明文字,不仅描述图片中的物体,还解释它们之间的关系和背景信息。
为了确保数据的多样性,他们使用了聚类技术来识别数据分布中的稀疏区域,然后针对性地增加这些区域的样本。这就像是在整理图书馆时发现某些学科的书籍太少,于是专门去采购这些领域的书籍来保持藏书的平衡。
对于交错的文本图像数据,研究团队从中英文网站收集了真实的多模态文档,经过严格的领域分类和质量过滤。他们使用微调的Qwen2.5-VL-7B模型进行高精度的多模态解析,准确提取和对齐文本与嵌入的图表、图片。为了支持超长上下文建模,他们还将连续的页面合并成长达256K词汇的序列,同时保持原有的页面顺序和多模态连贯性。
知识类数据的构建更像是在建设一个专门的博物馆。研究团队围绕明确定义的实体构建了大规模的预训练数据集,涵盖动物、植物、地标、食物等十几个语义类别。考虑到真实世界实体遵循长尾分布的特点,他们采用了重要性采样策略,就像是在博物馆中给重要展品分配更多的展示空间,同时确保稀有展品也有适当的展示机会。
在OCR和文档处理方面,研究团队构建了一个多语言的文字识别训练集。他们从Qwen2.5-VL支持的10种语言扩展到39种语言,使用粗到精的流水线来完善OCR标注。这个过程就像是培养一个能够阅读世界各国语言的翻译专家,不仅要识别文字,还要理解文档的整体结构和布局。
对于文档解析任务,他们收集了来自Common Crawl的300万份PDF文档,均匀分布在10种文档类型中。使用内部的布局模型预测阅读顺序和边界框,然后用Qwen2.5-VL-72B进行区域特定识别,最后重新组装成位置感知、布局对齐的解析数据。
在视觉定位和计数能力的数据构建上,研究团队就像是在训练一个精准的射手。他们不仅使用了现有的开源数据集,还开发了自动化合成流水线来生成高质量的物体标注。这个流水线分三个步骤:首先从无标签图像中提取候选物体,然后使用开放词汇检测器和Qwen2.5-VL进行定位和标注,最后通过质量评估过滤掉低置信度的标注。
空间理解和3D识别数据的构建更像是在培养一个立体几何专家。研究团队不仅要让模型理解空间关系,还要能够估计物体的三维位置。他们构建的数据集包括关系标注(如"笔记本电脑左边的杯子")、功能性标签(如"可抓取"、"可按压"、"可坐")和基于动作的查询,这些训练使得Qwen3-VL不仅能回答"在哪里"的问题,还能回答"怎么做"和"能做什么"的问题。
四、训练优化:让AI学习更高效的秘密武器
在Qwen3-VL的训练过程中,研究团队就像是经验丰富的教练,采用了一系列精妙的策略来确保AI能够高效学习并保持各项能力的平衡发展。
其中最关键的创新是损失函数的改进。传统的训练方法就像是按照每个学生回答问题的次数来评分,但这样容易导致偏向那些话多的学生。新的方法则采用了平方根归一化的按词汇计分方式,就像是既考虑答题数量又考虑答题质量,这样可以更好地平衡文本和多模态数据在训练中的贡献,避免某一种能力过度发展而牺牲其他能力。
在基础设施方面,整个训练过程在阿里云的PAI-灵骏AI计算服务上进行,采用了基于Megatron-LM框架的混合并行策略。这套系统就像是一个高度协调的工厂流水线,同时运用张量并行、流水线并行、上下文并行、专家并行和数据并行等多种技术,能够在多达1万个GPU上实现精细的负载均衡,既保证高硬件利用率又维持高吞吐量和低通信延迟。
为了让模型能够处理超长文档,研究团队还创新性地采用了渐进式上下文扩展策略。这个过程就像是训练一个长跑运动员,先从短距离开始训练,逐步增加距离。模型首先在8K词汇长度上进行训练,然后扩展到32K,最后达到256K的超长上下文能力。这种渐进式训练不仅提高了训练效率,还确保了模型在各个长度范围内都能保持稳定的性能。
在后训练阶段,研究团队特别注重数据质量的把控。他们采用了两阶段过滤流水线:查询过滤和响应过滤。查询过滤阶段就像是一个严格的编辑,利用Qwen2.5-VL来识别和丢弃那些难以验证的查询,对含糊不清的指令进行适度修正,同时剔除缺乏实质内容的网络来源查询。响应过滤阶段则结合了基于规则的过滤和基于模型的过滤,前者像是语法检查器,后者则像是内容质量评估师,确保最终的训练数据既符合格式要求又具有高质量的内容。
对于思维模型的训练,研究团队构建了专门的长链式思维冷启动数据集。这个数据集就像是为高级数学学生准备的练习册,专门包含需要复杂推理的问题。他们特别注重多模态必要性过滤,确保保留的视觉语言数学问题确实需要多模态理解,而不是仅凭文本就能解决的问题。
强化学习阶段的设计更像是个性化的一对一教学。对于推理强化学习,他们使用了能够确定性验证的任务,包括数学、编程、逻辑推理等,就像是有标准答案的考试题目。对于通用强化学习,则更注重指令遵循和偏好对齐,就像是培养学生的综合素养和社交能力。
五、实验验证:全方位测试展现超强实力
为了验证Qwen3-VL的真实能力,研究团队进行了一系列全面而严格的测试,就像是让一个全科学生参加各种不同学科的考试来证明自己的实力。
在通用视觉问答能力测试中,Qwen3-VL就像是一个博学的百科全书专家。在MMBench、RealWorldQA、MMStar等标准测试中,特别是在思维模式下,Qwen3-VL-235B-A22B-Thinking在MMStar上达到了78.7分的最高成绩。虽然Gemini-2.5-Pro的思维模式整体表现最佳,但Qwen3-VL的表现紧随其后。在非推理模式的比较中,Qwen3-VL-235B-A22B-Instruct在MMBench和RealWorldQA上分别获得了89.3/88.9和79.2的最高分数。
更令人印象深刻的是模型的可扩展性表现。从2B参数的小模型到235B参数的大模型,性能呈现出清晰的递增趋势,就像是从小学生到博士生的知识水平差异。以MMBench-EN测试为例,在思维模式下,分数从2B模型的79.9分逐步提升到8B模型的85.3分,展现出良好的规模效应。
在多模态推理能力测试中,Qwen3-VL表现得就像是一个数学和逻辑推理的天才。在MMMU、MathVision、MathVista等STEM相关的测试中,flagship模型展现出了卓越的表现。特别值得一提的是,Qwen3-VL-235B-A22B-Instruct在MathVista mini、MathVision、DynaMath等多个测试中都取得了最佳成绩,证明了其在数学视觉推理方面的强大能力。
在中等尺寸模型的比较中,Qwen3-VL-32B的表现令人惊讶,consistently超越了Gemini-2.5-Flash和GPT-5-mini。更为重要的是,与上一代Qwen2.5-VL-72B相比,中等尺寸的Qwen3-VL模型在推理任务上已经实现了超越,这突显了VLM技术的显著进步。
在对齐和主观任务测试中,Qwen3-VL就像是一个善于理解复杂指令并避免产生错觉的智能助手。在HallusionBench测试中,思维版本超越了Gemini-2.5-pro、GPT-5和Claude opus 4.1,分别领先3.0、1.0和6.3分。在MIA-Bench测试中,Qwen3-VL-235B-A22B-Thinking获得了所有模型中的最佳总分,展现了出色的多模态指令遵循能力。
文档理解和OCR能力测试中,Qwen3-VL表现得就像是一个精通多种语言的文档专家。在OCR聚焦的解析测试、综合OCR测试以及文档问答测试中,Qwen3-VL-235B-A22B-Instruct模型建立了新的技术标准,甚至在某些测试中超越了其思维版本。研究团队特别强调了多语言支持的大幅扩展,从Qwen2.5-VL支持的10种非英语/中文语言扩展到39种语言,在32种语言上达到了70%以上的准确率,证明了强大的多语言OCR能力。
在2D和3D定位能力测试中,Qwen3-VL就像是一个精准的导航专家。在referring expression comprehension、开放词汇目标检测和计数等测试中,flagship模型实现了state-of-the-art的结果。特别在ODinW-13测试中达到48.6 mAP,展现了在多目标开放词汇物体定位方面的强大能力。在3D物体定位方面,Qwen3-VL在多个数据集上都表现出色,特别是在SUN RGB-D数据集上,思维版本比Gemini-2.5-Pro领先5.2分。
精细感知能力测试显示了Qwen3-VL在处理高分辨率输入和细微视觉差异方面的卓越能力。在V*、HRBench-4k和HRBench-8k测试中,当与工具结合使用时,分别达到了93.7、85.3和82.3的state-of-the-art性能。更为有趣的是,集成外部工具带来的性能提升consistently超过了简单增加模型规模的效果,在Qwen3-VL家族中,添加工具的绝对改进在V*测试中consistently为约5分。
六、创新应用:从图像理解到代码生成的全能表现
Qwen3-VL不仅在传统的视觉理解任务上表现出色,在一些新兴的应用领域更是展现出了令人惊叹的能力,就像是一个既能读书又能动手实践的全能型人才。
在多图像理解任务中,Qwen3-VL就像是一个能够同时关注多个监控屏幕的安保专家。这种能力要求模型不仅要理解单张图像的内容,还要分析多张图像之间的关系、对应和差异。在BLINK和MuirBench等评估中,Qwen3-VL展现了出色的跨图像模式学习能力,包括多图像referring grounding、视觉对应关系识别和多跳推理。特别是Qwen3-VL-235B-A22B-Thinking在MuirBench上达到了80.1的领先分数,超越了所有其他模型。
在具身和空间理解能力方面,Qwen3-VL表现得就像是一个经验丰富的室内设计师。通过在高分辨率视觉数据上的训练,结合精细的pointing、相对位置标注和问答对,模型获得了深度的空间理解能力。在EmbSpatial、RefSpatial和RoboSpatialHome等测试中,Qwen3-VL-235B-A22B分别获得了84.3、69.9和73.9的高分。这种能力的获得主要得益于训练过程中整合了pointing、grounding和spatio-temporal perception数据,使得模型在ERQA和VSIBench上也取得了52.5和60.0的顶级分数。
视频理解能力的提升更是令人印象深刻。得益于训练数据的规模化和关键架构增强,Qwen3-VL展现了显著改进的视频理解能力。通过interleaved MRoPE的集成、textual timestamps的插入以及temporally dense video captions的规模化,即使是8B版本也能达到与明显更大的Qwen2.5-VL 72B模型相当的性能。在与state-of-the-art proprietary模型(包括Gemini 2.5 Pro、GPT-5和Claude Opus 4.1)的比较中,Qwen3-VL展现了competitive乃至superior的性能。
在智能代理能力方面,Qwen3-VL就像是一个能够熟练操作各种软件界面的技术专家。在GUI grounding任务中,包括ScreenSpot、ScreenSpot Pro和OSWorldG等测试,Qwen3-VL-235B-A22B实现了state-of-the-art的性能,覆盖了desktop、mobile和PC上的交互界面,展现了exceptional的UI感知能力。在在线环境评估中,Qwen3-VL 32B在OSWorld上得分41,在AndroidWorld上得分63.7,超越了当前的foundation VLMs,展现了exceptional的planning、decision-making和reflection能力。
多模态编程能力或许是最让人印象深刻的应用之一。Qwen3-VL能够理解用户界面的screenshot并生成相应的HTML/CSS代码,根据图像生成可编辑的SVG代码,解决视觉编程挑战,回答带有图像的编程问题,甚至将flowcharts、diagrams和LaTeX公式等视觉表示转录成相应的代码。这种能力就像是拥有了一个能够看懂设计图纸就直接编写程序的程序员。
在文本中心任务的表现同样值得关注。为了全面评估Qwen3-VL的文本处理能力,研究团队采用了自动化benchmark测试,涵盖了知识、推理、代码、对齐任务、智能代理和多语言等多个维度。结果显示,Qwen3-VL-235B-A22B-Instruct在保持强大视觉能力的同时,在文本任务上也达到了与纯文本模型相当甚至更优的性能,证明了真正意义上的多模态能力整合。
特别值得一提的是"针海捞针"测试,这项测试就像是在图书馆的海量书籍中寻找特定信息。在视频版本的"针海捞针"测试中,模型需要在长视频中准确定位和回答关于插入"针"帧的问题。结果显示,模型在处理长达30分钟的视频(对应256K token上下文长度)时达到了完美的100%准确率。更令人惊讶的是,即使在extrapolar到1M tokens(约2小时视频)时,模型仍然保持了99.5%的高准确率,充分展现了强大的long-sequence建模能力。
七、技术影响:重新定义AI的能力边界
Qwen3-VL的发布不仅仅是一个新模型的推出,更像是为整个AI领域打开了一扇新的大门,重新定义了我们对人工智能能力边界的认知。
从技术发展的角度来看,Qwen3-VL实现了几个重要的突破。首先是超长上下文处理能力的实用化。虽然之前也有模型声称支持长上下文,但真正能够在25万词汇的长度下保持高质量理解的模型并不多见。Qwen3-VL不仅实现了这种能力,还证明了在实际应用中的有效性,就像是从理论概念转化为了实用工具。
其次是真正的多模态融合。传统的多模态模型往往是将不同模态的信息在最后阶段进行简单拼接,而Qwen3-VL通过DeepStack等技术实现了深层次的多模态融合,让模型能够像人类一样自然地整合视觉和文本信息。这种融合不是表面的,而是深入到了模型处理信息的每一个层次。
第三是从感知到行动的能力跨越。Qwen3-VL不仅能够理解图像和文本,还能够基于视觉输入生成代码、操作界面、进行推理等复杂任务。这标志着AI从被动的信息处理者向主动的问题解决者转变,就像是从一个只会读书的学生变成了能够解决实际问题的专家。
从应用前景来看,Qwen3-VL的能力组合开启了许多新的可能性。在教育领域,它可以同时处理教材中的文字说明和配图,为学生提供更加生动和准确的解答。在医疗领域,它可以理解包含大量图表和影像的医疗报告,协助医生进行诊断。在软件开发领域,它可以根据UI设计图直接生成代码,大大提高开发效率。
特别值得关注的是模型的可扩展性设计。从2B到235B参数的多个版本,以及dense和MoE两种架构的选择,为不同场景和需求提供了灵活的解决方案。这就像是提供了从自行车到跑车的全系列交通工具,用户可以根据自己的需求和资源选择最合适的版本。
在开放性方面,研究团队选择了Apache 2.0许可证发布整个模型家族,这种开放态度为整个AI社区的发展提供了宝贵资源。开放的模型不仅能够让更多研究者和开发者受益,还能够推动整个领域的快速发展,形成良性的技术生态系统。
然而,Qwen3-VL的成功也带来了一些值得思考的问题。超强的代码生成能力可能会改变软件开发的工作模式,强大的文档理解能力可能会影响传统的文档处理流程。这些变化既带来了提高效率的机会,也需要相关行业做好适应性调整。
从更长远的角度来看,Qwen3-VL代表了AI发展的一个重要方向:真正的通用人工智能。虽然我们距离完全的AGI还有很长的路要走,但Qwen3-VL在多模态理解、长上下文处理、复杂推理等方面的突破,让我们看到了这个目标正在变得更加清晰和可达。
归根结底,Qwen3-VL的发布标志着我们进入了一个新的AI时代。在这个时代里,AI不再局限于单一的任务或模态,而是能够像人类一样灵活地处理各种复杂的现实世界问题。虽然技术的进步总是伴随着挑战,但毫无疑问的是,这种能力的提升将为人类社会带来前所未有的便利和可能性。对于那些想要深入了解这项技术细节的读者,可以通过arXiv:2511.21631v2查询完整的技术论文。
Q&A
Q1:Qwen3-VL能处理多长的文档?
A:Qwen3-VL能够一次性处理25万个词汇(256K tokens)的超长文档,相当于一本中等厚度小说的长度。这种能力让它能够理解整个文档的前后呼应关系,而不是像传统AI那样只能一小段一小段地阅读。
Q2:Qwen3-VL有哪些不同版本可以选择?
A:Qwen3-VL提供了从2B到235B参数的多个版本,包括密集型(2B/4B/8B/32B)和混合专家系统(30B-A3B/235B-A22B)两种架构。小版本处理速度快适合日常使用,大版本功能更强大适合复杂任务,用户可以根据需求和资源选择合适版本。
Q3:Qwen3-VL的代码生成能力有多强?
A:Qwen3-VL能够根据网页截图直接生成HTML/CSS代码,将图像转换为SVG代码,甚至能够理解流程图和公式图片并转换为相应代码。这种能力就像拥有了一个能够看懂设计图纸就直接编写程序的程序员。
好文章,需要你的鼓励
这项由Snowflake AI Research发表的研究挑战了传统语言学对大型语言模型的批评,通过引入波兰语言学家Mańczak的理论框架,论证了LLM的成功实际上验证了"频率驱动语言"的观点。研究认为语言本质上是文本总和而非抽象系统,频率是其核心驱动力,为重新理解AI语言能力提供了新视角。
freephdlabor是耶鲁大学团队开发的开源多智能体科研自动化框架,通过创建专业化AI研究团队替代传统单一AI助手的固化工作模式。该框架实现了动态工作流程调整、无损信息传递的工作空间机制,以及人机协作的质量控制系统,能够自主完成从研究构思到论文发表的全流程科研工作,为科研民主化和效率提升提供了革命性解决方案。
德国马普智能系统研究所团队开发出专家混合模型的"即时重新布线"技术,让AI能在使用过程中动态调整专家选择策略。这种方法无需外部数据,仅通过自我分析就能优化性能,在代码生成等任务上提升显著。该技术具有即插即用特性,计算效率高,适应性强,为AI的自我进化能力提供了新思路。
Algoverse AI研究团队提出ERGO系统,通过监测AI对话时的熵值变化来检测模型困惑程度,当不确定性突然升高时自动重置对话内容。该方法在五种主流AI模型的测试中平均性能提升56.6%,显著改善了多轮对话中AI容易"迷路"的问题,为构建更可靠的AI助手提供了新思路。