
这项由NVIDIA研究团队开发的成果发表于2026年4月,以预印本形式收录于arXiv,编号为arXiv:2604.24954v1,感兴趣的读者可通过该编号查阅完整技术报告。
过去几年,AI助手的能力突飞猛进,但大多数模型要么只能处理文字,要么只能看图,要么只能识别声音。如果你想让一个AI同时听懂你说的话、看懂你发的图片、理解视频里发生的事情,通常需要把好几个不同的系统拼在一起,就像一个翻译团队里有专门负责英语的、专门负责日语的、专门负责手语的翻译,各自为战,协作起来非常笨拙。
NVIDIA这次推出的Nemotron 3 Nano Omni,试图打破这种局面。它的目标是成为一个真正意义上的"全感官"AI——文字、图片、视频、音频,统统都能处理,而且是同时处理,而不是分开交给不同模块。更关键的是,这个模型在保持强大能力的同时,还特别注重高效和省资源,力图让普通的计算环境也能运行它。
---
一、这个AI的"感官系统"是怎么搭建起来的
要理解Nemotron 3 Nano Omni的构造,可以把它想象成一个配备了眼睛、耳朵和大脑的机器人。这个机器人的大脑是Nemotron 3 Nano 30B-A3B,一种叫做"混合专家架构"(MoE)的语言模型。这种架构的有趣之处在于,它虽然名义上有300亿个参数,但每次实际工作时只激活约30亿个,就像一个拥有30位专家的团队,但每次只需要3位专家出面处理具体问题,既节省精力,又不降低整体智识水平。
眼睛部分由一个叫C-RADIOv4-H的视觉编码器担任,负责把图片和视频帧转化成AI能理解的信号。耳朵部分则是Parakeet-TDT-0.6B-v2这个音频编码器,专门负责把声音信号转换成语言模型能处理的形式。这三个组件通过叫做"MLP投影器"的桥梁连接在一起,协同运作。
处理图片时,模型采用了一种叫"动态分辨率"的方法。以前的方案是把图片切成固定大小的瓦片来处理,就像把一张大海报剪成小方块再逐块扫描,这样容易丢失原始画面的比例感。新方案则更智慧——它根据图片实际尺寸动态调整处理方式,将图片分解成若干16×16像素的小块,总块数控制在1024到13312之间,对应的实际图片尺寸从512×512像素到1840×1840像素不等。处理前还会进行一次"像素重排"操作,将token数量压缩为原来的四分之一,让大脑不需要处理太多冗余信息。
处理视频时,模型引入了一个叫做"3D卷积"(Conv3D)的技巧。普通的图片处理只在空间维度上操作,而Conv3D还会在时间维度上进行压缩——每两帧视频合并成一帧来处理。这样一来,一段512帧的视频,实际进入大脑的信号量就减少了一半,处理速度自然大幅提升。
处理音频时,声音首先被转换成16kHz的单声道格式,然后通过log-mel频谱分析(可以理解为把声波画成图),再经过三层卷积下采样,整体压缩约8倍。最终,每秒钟的音频大约对应12.5个"音频token",也就是说,每隔约80毫秒才需要处理一个信息单元。音频流被切成每段30秒的片段处理,模型可以处理从半秒到20分钟的音频输入,而理论上,凭借模型的上下文窗口,甚至可以处理超过5小时的连续音频。
当视频同时包含画面和声音时,系统会按照时间顺序把视觉token和音频token交替排列,让模型能够联合理解"某个时刻画面里发生了什么"和"那个时刻说了什么话",从而实现真正的跨模态时序推理。
---
二、七个阶段的"成长历程":模型是怎么被一步步训练出来的
训练一个能同时处理文字、图片、视频和声音的模型,绝非一蹴而就。NVIDIA的团队采用了一种渐进式的训练策略,就像培养一个孩子——先学会走路,再学跑步,最后才学骑自行车。整个训练过程分成七个监督微调(SFT)阶段,循序渐进。
第零阶段是"视觉预热"。在这个阶段,只有连接视觉编码器和语言模型的那个"桥梁"(视觉MLP投影器)被训练,其他所有部分都保持冻结。训练数据包括约935万个视觉-文字对,共约155亿个token,内容涵盖图片描述、视觉定位、OCR(文字识别)、文档理解、图形界面理解和视觉问答等任务,让桥梁先学会如何把视觉信号翻译成语言模型能理解的语言。
第一阶段是"视觉全面学习"。这里打开了所有限制,语言模型和视觉编码器同时参与训练,让模型真正建立起视觉与语言的联合理解能力。训练数据在前一版本的基础上大幅升级,首先用更高质量的文本推理样本替换了纯文本部分;其次对噪声数据重新标注;第三,加入了更多推理链数据,包括人工标注和模型生成的思考过程,这些数据来自Qwen3-VL、Qwen3.5以及Kimi-K2.5等模型。覆盖范围也大幅扩展,涵盖图形界面、视觉定位、图表、表格、文档理解、视频理解以及多语言场景。最终这个阶段使用了约8630万个样本,约2148亿个token。
第二和第三阶段专门针对音频能力。第二阶段是音频桥梁预热,类似第零阶段,只训练音频投影器,使用的是Granary v1.1这个大规模语音识别数据集,包含约5920万个样本,训练模型先学会把声音信号转化为语言模型能理解的格式。第三阶段则在此基础上放开音频编码器本身,让编码器也参与学习。这个阶段的训练数据更为丰富,包含自动语音识别(ASR)、声音理解、音乐理解和语音理解四个类别,共2.42亿个样本、约1005亿个token。音频样本被配上了文字说明、多选题和开放式问题,部分还加入了推理链。合成数据生成方面,团队借助Qwen3-Omni-30B-A3B生成说明文字,用专业音乐工具生成元数据,再通过GPT-OSS-120B进一步生成问答对。
第四阶段是第一次真正的"多模态联合训练",所有参数都解冻,文字、图片、视频、音频一起上。这个阶段的数据混合了视觉SFT数据(约306亿token)、音频数据(约97亿token)、短视频数据(约63亿token),以及文本对话、安全数据、短视频推理数据和多模态(音频+视频联合)数据,共3050万个样本、约573亿token。其中的多模态数据是通过从视频中提取视听元数据,再用模型自动生成问答对和摘要的方式合成的。
第五阶段把上下文长度从16K扩展到约4.9万个token,重点转向更长的视频和多模态推理内容。数据比例也相应调整,中长视频、多模态联合理解和推理数据的权重大幅增加,短视频数据被下调。这个阶段共608万个样本、约335亿token。
第六阶段是最后一步,上下文长度一跃扩展到26.2万个token,专注于超长文档理解。数据内容以长文档视觉理解为主(约309亿token),辅以长文本和普通视觉数据,共62.3万个样本、约340亿token。这一阶段特别改进了模型处理10页到100页以上长文档的能力,包括对学术论文、财务报告、演示文稿的理解。在这个阶段,为了集中资源于长文本理解,音频编码器和投影器被再次冻结。
七个阶段的训练都使用AdamW优化器,采用余弦学习率衰减策略,全程BF16混合精度,并使用在线序列打包技术最大化GPU利用率。训练硬件使用32到128个节点的NVIDIA H100 GPU集群,具体数量因阶段而异。为了在有限显存中处理超长序列,团队采用了选择性激活重计算、上下文并行等多种技术手段。
---
三、训练还没结束:强化学习如何让模型变得更"聪明"
完成七个阶段的监督微调之后,训练并没有停止。团队进一步采用了多轮强化学习(RL),让模型在推理能力、指令跟随和安全性方面继续提升。这套强化学习流程共分五个子阶段,按照课程学习的思路逐步推进。
第一个子阶段是偏好优化,采用混合偏好优化(MPO)方法,结合了直接偏好优化(DPO)和二值分类器优化(BCO)两种技术。通俗地说,就是让模型多次尝试同一道题,把正确答案和错误答案都收集起来,告诉模型哪些回答是好的、哪些是差的,让模型从对比中学习。
第二个子阶段专注于纯文本强化学习,只训练语言模型参数,复用了Nemotron 3 Nano和Super的RL数据和基础设施,同时冻结语言模型的输入词嵌入参数,避免跨模态训练阶段之间出现表征漂移。
第三个子阶段是图像强化学习阶段,针对视觉推理能力进行专项训练。训练任务覆盖了图表和文档推理(约2.8万个样本)、STEM数学题(约1.9万个)、游戏棋盘推理(约1.2万个)、视觉问答(约8000个)和视觉定位(约7000个)五大类别。每道题的评分采用0到1之间的连续分数,评分来自四种基于规则的验证器:字符串匹配用于开放式文本答案,数学规则验证器用于数值和代数答案,多选题验证器用于选择题,GUI坐标验证器用于界面点击预测。为了筛掉太简单或太难的题目,团队对初始模型做了预测,只保留通过率低于80%的题目参与训练。此外,还特意加入了一小部分无法回答或图文不匹配的样本,训练模型在证据不足时主动放弃回答。
第四个子阶段是最关键的多模态联合强化学习阶段(Omni-RL)。团队构建了一个包含约12万道题的多模态训练语料库,跨越113个子数据集,涵盖图像、视频、音频和纯文本四大模态。其中多模态数据(音频+视频联合)约1.76万个样本,视频数据约8500个,图像数据约3.2万个,音频问答数据约4200个,语音识别数据约3800个。语音识别部分还专门引入了基于词错误率的ASR验证器,确保语音识别能力不退化。通过率筛选规则更严格:普通题目保留0.1到0.9之间的,AudioQA进一步收紧到0.3到0.7之间。整个验证流程支持五种题型:多选题(34%)、字符串匹配(31%)、数学规则验证(26%)、GUI坐标(6%)和语音识别(3%)。
第五个子阶段是第二轮纯文本强化学习,进一步巩固通用文本能力。整个RL训练在NVIDIA B200和H100 GPU集群上进行,使用基于Ray的分布式框架,全局批次大小4096,每道题生成16个候选答案,采用适配版的GSPO算法作为RL训练算法。
---
四、实力几何:各项测试中的表现如何
说了这么多设计和训练,模型实际表现怎么样?团队在视觉、音频、多模态联合和纯文本四大领域进行了全面评测。
视觉方面,模型在文档理解和OCR识别上表现尤为突出。在MMLongBench-Doc这个专门测试长文档理解的榜单上,开启推理模式后得分为57.5,而上一代Nemotron Nano V2 VL同样开启推理模式只有38.0,提升幅度接近50%,同时也超过了Qwen3-Omni的49.5。在OCRBenchV2英文版上得分67.0,中文版52.7,同样领先同类产品。在ChartQA图表理解上达到90.3,在DocVQA文档视觉问答上达到95.6,在InfoVQA信息图问答上达到86.8,均处于行业前列。
在图形界面(GUI)理解方面——也就是让AI看懂电脑屏幕、识别按钮位置——模型的进步堪称翻天覆地。ScreenSpot这个测试上,新模型得分90.3,而上一代只有39.4;ScreenSpot-v2上从41.7提升到93.4;专业高分辨率版ScreenSpot-Pro上得分59.3,与Qwen3-Omni的59.7基本持平。在OSWorld这个测试AI操作真实计算机环境的高难度测试上,开启推理模式后得分47.4,而上一代仅有11.1,Qwen3-Omni也只有29.0。
视觉推理和空间理解方面,TreeBench树状结构推理得分从42.5提升至51.6,CV-Bench从78.3提升至84.2,RefCOCO物体定位达到90.5。视频理解方面,VideoMME得分72.2,高于上一代的63.0以及Qwen3-Omni的70.5。
音频方面,模型在语音识别(ASR)测试上表现出色。OpenASR英文测试集平均词错误率为5.95%,低于Qwen3-Omni的6.55%——词错误率越低代表识别越准确。在多个子项目上,如AMI(11.09%对12.52%)、Earnings22(11.27%对12.3%)、SPGISpeech(1.98%对3.69%)、VoxPopuli(5.6%对8.26%)等,都明显优于Qwen3-Omni。在长音频识别测试TED-LIUM Longform上,词错误率为3.11%。MMAU音频理解综合评测平均得分74.6,在语音(72.8)、音频(76.9)、音乐(74.2)三个子项上均有不错表现。在VoiceBench语音交互测试中,开启推理模式后平均得分89.4,超过Qwen3-Omni的88.8。
多模态联合测试方面,在DailyOmni(测试日常场景下音视频联合理解)上得分74.5,超过Qwen3-Omni的71.9;在WorldSense(测试长视频多模态推理)上得分55.2,超过Qwen3-Omni的54分。
纯文本测试方面,模型的目标是在添加视觉和音频能力的同时,尽量不牺牲文本推理性能。与作为语言模型骨干的Nemotron 3 Nano 30B-A3B相比,MMLU-Pro从78.3降至77.3,GPQA从73.0降至72.2,AIME25数学竞赛从89.1降至82.1,LiveCodeBench代码能力从68.3降至63.2,整体保留了大部分文本推理能力。而IFBench指令跟随测试反而从71.5提升到74.2,AA-LCR从35.9提升到41.0,TauBench V2电信客服场景从42.2提升到42.7。
---
五、推理预算控制:让模型"想多少就想多少"
模型支持一种叫做"推理预算控制"的功能,可以调节模型在回答问题时用于思考的token数量上限。实验对比了两种设置:一种是基础配置,最大序列长度16384个token;另一种是开启推理的配置,思考预算设为13K token,并附带1024个token的宽限期,总序列长度上限同样为16384。
测试结果显示,加入推理预算控制后,MathVista-Mini从80.3提升到82.8,MMLongBench-Doc从54.5提升到56.8,Charxiv从61.8提升到64,VideoMME从67.5提升到70.3,DocVQA则基本持平(95.3降至95.2),RefCOCO也几乎不变(90.4升至90.6)。这种改善背后的原因在于,适度的推理限制能帮助模型提前终止那些陷入重复循环的错误推理链,同时也能截断在简单问题上过于冗长的思考过程,让模型把精力用在刀刃上。
---
六、让视频处理变得更快:两个"减法"技巧
视频处理是多模态模型中计算量最大的部分,因为一段视频意味着数百帧画面。Nemotron 3 Nano Omni通过两个相互叠加的机制来大幅降低这部分的计算成本,这两个机制可以理解为两道"减法"。
第一道减法是前面介绍过的Conv3D,它在训练和推理时都生效,每两帧合并成一帧,时间维度上的token数直接减半。拿一段512帧的视频来说,不开Conv3D时,进入语言模型的视觉token约为14.1万个;开启Conv3D后,降到约7.5万个,减少了47%。
第二道减法是Efficient Video Sampling(EVS,高效视频采样),这是一个只在推理时生效的技术。它在视觉编码器处理完画面、视觉适配器转化完毕之后、视觉token正式进入语言模型之前,进行一次智能筛选。具体方法是:对每个空间位置,计算相邻两帧之间的余弦差异度(可以理解为"这个位置的画面变化了多少"),然后全局保留变化最大的那部分token,保留比例由参数q决定。第一帧始终被完整保留作为参考基准。这样一来,静止背景中的冗余信息被大量删除,只有真正有变化、有信息量的画面内容才被保留。
两种机制叠加后效果显著。在BF16精度下,单独使用Conv3D让响应首字时延(TTFT)从7969毫秒降到5984毫秒,降幅25%;单独使用EVS(保留率50%)降到6452毫秒,降幅19%;两者叠加降到5313毫秒,降幅33%,而平均精度仅下降约0.5个百分点。采用NVFP4量化后,组合方案的首字时延进一步降到5083毫秒。
EVS的保留率q可以灵活调节。测试显示,q从0.5到0.7这个范围内,精度基本保持不变,首字时延在这个区间继续有约14%的进一步改善空间。超过q=0.8之后精度开始明显下降,LongVideoBench是对激进剪枝最敏感的测试项目。
---
七、"瘦身"不等于"变笨":量化技术带来的存储革命
原始的BF16格式模型体积为61.5GB,对普通消费级硬件几乎是一道不可逾越的门槛。NVIDIA采用了量化技术,发布了FP8和NVFP4两个精度更低的版本。
NVFP4版本的量化策略颇为精细,并非简单地把所有参数压缩。混合专家层中的路由专家被量化到NVFP4格式(每16个元素共享一个FP8 E4M3精度的缩放因子,再加一个全精度FP32全局缩放);Mamba架构中的输入投影和输出投影、共享专家以及注意力输出投影被量化到FP8;其余语言模型层保持BF16;视觉和音频编码器及其投影器完全保持BF16不变;KV缓存使用FP8,Mamba的状态缓存保持FP32。最终,NVFP4版本的有效位宽为4.98位,模型体积压缩到20.9GB,是BF16版本的约三分之一。FP8版本则对语言模型中所有线性层进行每张量E4M3量化,有效位宽约8.5位,体积32.8GB。
最关键的是,量化带来的精度损失非常有限。在涵盖文字、图片、视频和音频共25个基准测试上,FP8和NVFP4相对BF16的精度下降中位数均小于1%。具体来看,MathVista-Mini从71.9降到71.3(NVFP4),OCRBenchV2英文版从65.8降到65.77,VideoMME从70.8降到69.6,DailyOmni从74.5降到74.23,MMAU从74.62降到74.34,语音识别词错误率几乎没有变化(5.95%对5.95%),11个非语音识别测试的平均分从60.58降到60.18,仅下降0.4个百分点。
从推理效率角度,NVFP4在单张NVIDIA B200 GPU上,相比BF16能提供高达7.5倍的输出token吞吐量(在每用户150 token/秒的交互性目标下,吞吐量从2400 tok/s提升到18200 tok/s)。单流低延迟推理方面,模型能以超过500个output token/秒的速度生成,是Qwen3-Omni的约2.4到2.9倍,是上一代Nemotron Nano V2 VL的约2倍。多文档工作负载下,首字时延约1.3秒,而Qwen3-Omni超过2.5秒。高并发服务场景下,在单张B200 GPU上最大并发时可达5000 output token/秒;在每用户50 token/秒的交互性目标下,长视频工作负载的吞吐量比Qwen3-Omni高9倍,多文档工作负载高7.5倍,比上一代Nemotron Nano V2 VL高3倍。
---
说到底,Nemotron 3 Nano Omni代表的是一种"合并同类项"的思路——与其让多个专用AI系统各干各的,不如把它们整合成一个能真正协同感知世界的统一系统。七个阶段的监督微调加上五轮强化学习,是一条漫长而精心设计的成长之路;Conv3D和EVS的叠加是一种务实的工程智慧;而精细的混合量化策略,则让这个庞大的系统能够被更广泛的硬件环境运行。
这对普通用户意味着什么?短期来看,这类技术会逐渐进入语音助手、视频分析工具、文档处理软件等日常应用中,让AI助手真正能"听懂"一段会议录音、"看懂"一份扫描的财务报告,并在两者之间建立联系。更远一点看,随着效率的不断提升,在本地设备上运行具备全感官能力的AI助手,或许不再是遥不可及的事情。这项研究的模型权重已在HuggingFace上公开,包括BF16、FP8和NVFP4三个版本,感兴趣的技术读者可以通过arXiv编号arXiv:2604.24954v1找到完整技术报告,亲自深入了解其中的每一个细节。
---
Q&A
Q1:Nemotron 3 Nano Omni和普通的AI语音助手有什么区别?
A:普通语音助手通常只能处理声音或文字,而Nemotron 3 Nano Omni可以同时处理文字、图片、视频和音频,能在一次对话中联合理解视频画面和对话内容,而不是分别交给独立系统处理。
Q2:NVFP4量化会让模型变笨吗?
A:影响非常小。NVIDIA在25个测试基准上验证,NVFP4相比BF16原版的精度下降中位数小于1%,但模型体积从61.5GB压缩到20.9GB,推理吞吐量提升高达7.5倍。
Q3:Conv3D和EVS是什么,为什么能加快视频处理速度?
A:Conv3D在处理视频时把每两帧合并成一帧,直接减少一半时间维度的数据量;EVS则在数据进入语言模型前,筛掉画面变化不大的冗余帧,只保留信息量高的部分。两者叠加后,一段512帧视频的输入token量可减少约70%,首字响应时延降低约33%。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。