微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 南洋理工大学团队发布NEO:从零开始构建真正意义上的"原生"视觉语言模型

南洋理工大学团队发布NEO:从零开始构建真正意义上的"原生"视觉语言模型

2025-11-26 11:02
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-11-26 11:02 科技行者

这项由新加坡南洋理工大学S-Lab实验室的刘子威教授团队主导的研究发表于2025年,论文编号为arXiv:2510.14979v1。研究团队还包括来自西安交通大学和商汤科技研究院的多位学者,他们联合开发了一个名为NEO的全新视觉语言模型。这项研究可以说是在人工智能领域投下了一颗重磅炸弹,因为它彻底颠覆了我们对如何构建能够同时理解图像和文字的AI系统的传统认知。

要理解这项研究的重要性,我们可以把当前的AI视觉语言系统比作一个翻译团队。传统的做法就像是雇佣两个专业翻译:一个专门看图片并描述图片内容,另一个专门处理文字。然后再找一个协调员负责把两个翻译的工作成果拼接在一起。这种方法虽然有效,但就像任何需要多人协作的工作一样,存在沟通成本高、协调困难、有时还会出现理解偏差的问题。

而NEO的创新之处在于,它就像是培养了一个从小就双语成长的孩子,这个孩子天生就能同时理解图像和文字,不需要任何翻译或协调过程。这种"原生"能力让NEO在处理复杂的视觉语言任务时表现得更加自然和高效。更令人惊讶的是,研究团队仅仅使用了3.9亿张图片-文字配对数据就训练出了这样一个强大的模型,这个数据量相比其他同类系统来说算是相当节省的。

研究团队在论文中特别强调,他们的目标是要回答两个关键问题:首先,原生视觉语言模型与传统模块化模型之间到底有什么根本性差异,这些差异能在多大程度上被克服?其次,如何让原生视觉语言模型的研究变得更加便民和大众化,从而加速整个领域的发展进程?

**一、传统方法的困境与突破思路**

当我们深入了解传统视觉语言模型的工作方式时,就会发现它们面临的挑战就像是试图让两个说不同语言的人进行深度合作。目前市面上几乎所有的知名AI系统,包括ChatGPT、Claude、Gemini等,都采用了一种叫做"模块化设计"的方法。

这种设计就好比一个精密的流水线工厂。首先有一个专门的"视觉编码器",它的工作就像是一个专业的图像分析师,能够看懂图片并将其转换成计算机能理解的数字信息。然后有一个"投影器",充当中间协调员的角色,负责把图像信息翻译成语言模型能够接受的格式。最后是一个强大的"大语言模型",它就像是一个博学的文字专家,负责根据接收到的信息生成人类能理解的回答。

这种模块化设计在很长一段时间内确实取得了令人瞩目的成功。就像流水线生产能够大幅提高效率一样,每个模块都可以专注于自己最擅长的任务,然后通过多阶段的训练将各个部分整合在一起。这种方法的好处是每个组件都可以独立优化,就像汽车制造商可以分别改进引擎、变速箱和车身设计一样。

然而,正如任何复杂系统都有其固有缺陷一样,模块化设计也面临着一些根本性问题。首先是"预训练偏见"的问题。由于视觉编码器通常都是在大规模图像数据上预先训练好的,它就像是一个已经形成固定观察习惯的摄影师,在看待新图像时会不自觉地套用之前学到的模式。这种偏见有时会限制模型对图像分辨率、长宽比例等方面的灵活性。

其次是"基础设施复杂性"问题。维护一个多模块系统就像同时管理多个不同的部门,需要确保各个部分之间的接口兼容、数据流转顺畅、版本同步更新等。这不仅增加了系统的复杂度,也提高了出错的风险。

最重要的是"扩展规律不明确"的问题。当我们想要提升整个系统的性能时,就像调试一个复杂的音响系统一样,很难确定应该优先改进哪个组件,以及如何平衡各个模块之间的能力,才能实现整体性能的最大化。

**二、NEO的革命性设计理念**

面对传统方法的局限性,刘子威教授团队提出了一个革命性的解决方案。他们的核心理念可以用一个简单的比喻来解释:与其培养两个专业翻译然后让他们合作,不如从头开始培养一个天生就懂得双语的人才。

NEO的设计哲学建立在三个核心原则之上。第一个原则是"统一的原生基元"。这就像是为整个系统设计了一套通用的"语法规则",无论是处理图像信息还是文字信息,都使用相同的基础操作和逻辑结构。这种统一性确保了视觉和语言信息在系统内部能够无缝融合,就像双语人才在思考时不需要进行语言转换一样。

第二个原则是"预缓冲与后处理分离"。这个设计特别巧妙,就像是在培养一个学生时,先让他在一个相对简单的环境中学习基础知识,然后再逐渐接触更复杂的综合性任务。在训练初期,NEO会被分成两个部分:一个负责学习如何理解和编码视觉信息的"预缓冲"部分,以及一个基于已有语言模型的"后处理"部分。这种设计既保证了训练效率,又确保了最终的统一性。

第三个原则是"端到端学习"。不同于传统方法需要分阶段训练不同模块,NEO采用了一种更加自然的学习方式。就像人类婴儿在成长过程中同时学习识别物体和理解语言一样,NEO从一开始就在同一个学习过程中处理视觉和语言信息,这种方式减少了不同模态之间的语义鸿沟,提高了整体的协调性。

为了实现这些设计理念,研究团队开发了几项关键技术创新。其中最重要的是"多头原生注意力机制"。这个技术就像是给AI系统装上了一副特殊的眼镜,让它能够同时关注图像的空间关系和文字的语义关系。传统的注意力机制就像是单眼视觉,只能专注于一种类型的信息,而NEO的注意力机制更像是立体视觉,能够同时处理多维度的信息关系。

另一项重要创新是"原生旋转位置编码"。这个技术解决了一个技术性很强但非常重要的问题:如何让AI系统同时理解图像中的空间位置关系(比如左上角、右下角)和文字中的时序关系(比如前一个词、后一个词)。传统方法就像是用同一套地图系统来描述平面位置和时间顺序,容易造成混乱。而NEO的解决方案更像是为不同类型的位置信息设计了专门的坐标系统,让系统能够更准确地理解各种复杂关系。

**三、令人惊叹的训练策略**

NEO的训练过程就像是培养一个全才学生的教育方案,分为三个阶段,每个阶段都有明确的学习目标和方法。

第一阶段被称为"预训练阶段",就像是给学生打基础的阶段。在这个阶段,NEO需要学习最基本的视觉概念和语言理解能力。研究团队为此准备了3.45亿对图像-文字配对数据,这些数据就像是精心挑选的教材。其中包括来自LAION-400M的1亿英文和2000万中文配对,来自COYO-700M的1.5亿英文配对,以及各种专门的长描述、短描述数据集。

特别值得注意的是,在这个阶段,研究团队采用了一种非常聪明的策略:只训练处理视觉信息的部分和一些关键的连接组件,而保持语言处理部分的参数不变。这就像是在教一个已经懂得阅读的学生如何看图画,而不是从头教他识字。这种做法不仅节省了计算资源,还保护了已有的语言理解能力不被破坏。

第二阶段是"中期训练阶段",目标是加强视觉和语言能力之间的协调配合。在这个阶段,NEO开始接触更复杂的任务,包括图像问答、对话理解、物体检测和光学字符识别等。训练数据主要来自InternVL-1.5的预训练语料库,包含约4000万个样本,涵盖图像描述、对话、检测和OCR等任务,比例分别约为66%、11%、8%和15%。

这个阶段就像是让学生开始做综合性练习,不再是单纯的看图说话或阅读理解,而是需要结合视觉和语言信息来解决实际问题。系统开始学习如何在看到一张包含文字的图片时,既要理解图片的视觉内容,又要准确识别其中的文字信息。

第三阶段是"监督微调阶段",这是最关键的阶段,就像是针对特定考试的冲刺复习。在这个阶段,NEO需要学习如何遵循复杂的指令并进行高质量的对话。研究团队使用了约400万个高质量的多语言指令数据集,涵盖视觉问答、多模态对话、数学推理和知识问答等多个领域。

这些训练数据的精心选择体现了研究团队的深思熟虑。就像为不同年级的学生选择不同难度的教材一样,每个阶段的数据都有其特定的教育目标。比如在基础阶段,重点是让系统学会将图像和对应的描述文字联系起来;在进阶阶段,重点是让系统学会处理更复杂的视觉语言交互;在最后阶段,重点是让系统学会像人类一样进行自然的对话交流。

**四、技术创新的精妙之处**

NEO的技术创新可以比作建筑师设计一座既美观又实用的建筑,每个技术细节都经过精心考虑,既要保证整体的协调统一,又要确保各个部分的功能完备。

在图像和文字的输入处理方面,NEO采用了一种特别巧妙的方法。对于图像,系统使用了轻量级的"补丁嵌入层",就像是把一张大图片切成许多小块,然后为每个小块分配一个身份标识。这种方法使用了两个卷积层和一个激活函数,步长设置为16和2,意味着每个视觉标记对应原图像中32×32像素的区域。对于文字,系统直接使用原有语言模型的分词器。最精妙的是,系统在视觉标记的边界插入特殊的标记符号,就像在句子中使用标点符号一样,让系统能够清楚地知道哪些是图像信息,哪些是文字信息。

NEO的"原生视觉语言基元"是整个系统的核心创新,就像是为整个AI系统设计了一套通用的处理规则。这个基元采用了RMSNorm标准化和SwiGLU激活函数,与原有的语言模型保持一致。但关键的创新在于对查询和键的头维度进行了扩展,同时完全解耦了高度、宽度和时间维度的关系。

这种设计的巧妙之处在于,它既保持了与现有语言模型的兼容性,又增加了处理视觉空间关系的能力。就像在原有的文字处理系统上加装了一套图像理解模块,但这两套系统完美融合,没有任何冲突或重复。系统为键的高度和宽度通道采用了零初始化策略,注意力缩放与语言模型保持一致,这确保了训练过程的稳定性,让新增的视觉能力能够渐进式地激活和发展。

"原生旋转位置编码"是另一项重要创新,它解决了一个看似技术性但实际上非常重要的问题。在处理多模态信息时,系统需要同时理解文字的时序关系和图像的空间关系。传统方法就像是用同一套地址系统来描述时间和空间,容易造成混乱。

NEO的解决方案是为时间、高度和宽度维度分别分配独立的基频和通道。时间维度保持原有语言模型的设置,基频为100万,而高度和宽度维度使用1万的基频。这种设计的理念是,时间维度需要处理从局部到长程的各种关系,而空间维度主要关注局部语义依赖。通过这种频率分配,系统能够更好地建模相对距离和局部语义关系。

在注意力机制的设计上,NEO采用了"混合注意力掩码"策略。文字标记遵循标准的因果注意力,只能关注前面的标记,这保持了语言生成的自回归特性。而图像标记则采用完全的双向注意力,能够关注图像内的所有其他标记,这让系统能够充分捕捉图像内的空间和上下文依赖关系。这种设计就像是给系统装上了两种不同的"观察模式":处理文字时采用"顺序阅读"模式,处理图像时采用"全局观察"模式。

**五、实验验证与性能表现**

为了验证NEO的有效性,研究团队进行了大规模的实验评估,就像是让这个AI学生参加各种不同类型的考试来检验学习成果。实验结果令人印象深刻,特别是考虑到NEO使用的训练数据相对较少的情况下。

在与模块化视觉语言模型的对比中,NEO展现出了惊人的竞争力。以2.2B参数规模的模型为例,NEO在MMMU基准测试中获得了48.6分,而同规模的Qwen2-VL为41.1分,InternVL2.5为43.6分。在MMBench测试中,NEO达到了76.0分,超过了大多数同规模的竞争对手。这些结果就像是一个用较少学习资料的学生在标准化考试中击败了那些接受更多训练的学生。

更令人惊讶的是,NEO在某些特定任务上的表现甚至接近或超越了参数规模更大的模型。例如,在AI2D科学图表理解任务中,NEO-2.2B的得分为80.1,而某些8B规模的模型得分也只有83.0左右。这种现象说明,统一的架构设计和高效的训练策略能够在一定程度上弥补参数规模的不足。

在与其他原生视觉语言模型的对比中,NEO的优势更加明显。传统的原生模型如Fuyu、Chameleon和EVE在各项测试中的表现普遍较弱,这主要是因为它们采用了相对简单的设计策略。而NEO通过其精心设计的原生基元和训练策略,在几乎所有测试项目中都取得了显著的性能提升。

特别值得注意的是NEO在视觉问答任务上的表现。在ChartQA图表理解任务中,NEO-2.2B获得了81.2分,在DocVQA文档理解任务中获得了89.9分,在TextVQA文字识别任务中获得了74.0分。这些分数不仅超越了大多数同规模的原生模型,甚至在某些任务上接近了更大规模模块化模型的性能。

研究团队还进行了详细的消融实验,就像是对学生的各项能力进行单独测试,以了解NEO的哪些设计元素最为关键。实验结果显示,混合注意力机制比纯因果注意力平均提升了0.7个百分点,原生旋转位置编码比传统1D位置编码提升了4.5个百分点,这些看似细微的改进累积起来产生了显著的性能提升。

**六、实际应用前景与影响意义**

NEO的成功不仅仅是学术研究上的突破,更重要的是它为实际应用开辟了新的可能性。这项研究的影响可以从多个角度来理解,就像一项新技术的发明往往会在多个领域产生连锁反应。

从技术发展的角度来看,NEO证明了原生视觉语言模型确实可以在保持高性能的同时显著降低系统复杂度。这就像是证明了一个设计理念的可行性:与其建造一个复杂的多部门协作系统,不如培养一个具备综合能力的全才。这种设计哲学将可能影响未来AI系统的发展方向,推动更多研究团队尝试端到端的统一架构设计。

从实用性的角度来说,NEO的成功为资源受限的研究团队和中小企业提供了新的选择。传统的模块化系统虽然性能强大,但需要大量的计算资源和复杂的工程实现。而NEO证明了通过巧妙的设计和高效的训练策略,可以用相对较少的资源实现类似的效果。这就像是提供了一个"性价比"更高的解决方案,让更多的团队能够参与到先进AI技术的开发中来。

NEO的"预缓冲"设计特别具有实际价值。研究团队指出,这个预训练的缓冲模块可以作为一个可重用的组件,为社区提供成本效益高且可扩展的生态系统。这意味着其他研究团队不需要从零开始训练整个模型,而可以在NEO提供的基础上进行进一步的开发和优化。这种开放性设计就像是提供了一个"开源的基础工具箱",能够降低整个行业的研发门槛。

从长远发展来看,NEO的成功为多模态AI的未来发展提供了重要启示。随着AI技术逐渐向更多模态扩展(比如音频、视频、3D空间等),统一的原生架构设计将变得越来越重要。NEO的设计理念和技术方案为这种扩展提供了可行的路径,特别是其原生旋转位置编码技术已经为视频理解等应用做好了准备。

当然,NEO也面临着一些挑战和限制。研究团队诚实地指出,在某些知识密集型和OCR重度任务上,NEO的表现还有提升空间。这主要是因为当前的训练语料库在这些特定领域的覆盖度还不够充分。但这些限制更多的是工程实现层面的问题,而不是架构设计的根本缺陷,随着训练数据的不断丰富和训练策略的进一步优化,这些问题有望得到解决。

**七、研究意义与未来展望**

NEO的发布标志着视觉语言AI领域的一个重要转折点。这项研究不仅仅是提出了一个新的模型,更重要的是它证明了一种全新的设计思路的可行性,为整个领域的发展指明了新的方向。

从科学研究的角度来看,NEO回答了一个长期存在的重要问题:原生视觉语言模型是否真的能够与精心优化的模块化系统竞争?答案是肯定的,而且在某些方面甚至可能更优。这个结论将鼓励更多研究团队投入到原生多模态架构的研究中,推动整个领域向着更加统一和高效的方向发展。

NEO的设计理念也为AI系统的可扩展性提供了新的思路。传统的模块化设计虽然在单个模态上能够达到很高的性能,但在处理多模态交互时往往存在瓶颈。而原生统一架构则为无缝集成更多模态(如音频、视频、3D等)提供了可能。这种扩展性对于构建真正的通用人工智能具有重要意义。

从实际应用的角度来说,NEO的成功为AI技术的普及化开辟了新的道路。由于其相对简单的架构和高效的训练策略,NEO降低了部署和维护高性能视觉语言模型的门槛。这将使得更多的中小企业和研究机构能够利用先进的AI技术,推动整个行业的创新发展。

研究团队在论文中也坦诚地讨论了NEO当前的局限性和未来的发展方向。由于训练语料库和计算资源的限制,NEO的潜力还没有完全释放。特别是在知识密集型任务和OCR处理方面,还有很大的提升空间。但这些局限性更多的是工程实现层面的问题,随着资源投入的增加和技术的进一步发展,这些问题有望得到逐步解决。

更重要的是,NEO为未来的多模态AI研究提供了一个强有力的基础平台。其模块化的预缓冲设计使得其他研究团队可以在此基础上进行进一步的开发和优化,而不需要从头开始训练整个模型。这种开放性和可重用性将大大加速整个领域的研究进展。

展望未来,NEO的成功可能会引发一场关于AI架构设计的重新思考。随着计算能力的不断提升和训练数据的日益丰富,原生统一架构可能会成为下一代AI系统的主流选择。这不仅会影响视觉语言模型的发展,也可能对整个AI领域的技术路线产生深远影响。

说到底,NEO的意义远远超出了一个具体模型的范畴。它代表着AI领域从"分而治之"向"统一协调"的哲学转变,从"模块拼接"向"原生统一"的技术转变。这种转变不仅可能带来性能上的提升,更重要的是为构建真正智能的AI系统指明了新的方向。对于普通人来说,这意味着未来的AI助手将能够更自然、更高效地理解和处理我们日常生活中遇到的各种视觉和语言信息,真正成为我们生活和工作中的得力助手。

对于有兴趣深入了解这项研究技术细节的读者,可以通过论文编号arXiv:2510.14979v1查询完整的研究报告,其中包含了详细的实验数据、技术实现细节和代码链接。

Q&A

Q1:NEO和传统的GPT、Claude这些AI模型有什么区别?

A:传统的GPT、Claude采用模块化设计,就像雇佣专门的图像分析师和文字专家再让他们合作。而NEO是原生视觉语言模型,就像培养一个从小就双语成长的孩子,天生就能同时理解图像和文字,不需要翻译或协调过程,处理效率更高。

Q2:NEO只用3.9亿张图片就训练出来了,这个数据量算多吗?

A:相比其他同类系统,3.9亿的数据量其实是比较节省的。传统模型通常需要更多数据才能达到类似性能,NEO能用相对较少的数据取得好结果,主要得益于其统一架构设计和高效的训练策略,就像用更科学的方法学习能事半功倍一样。

Q3:NEO的技术能够应用到哪些实际场景中?

A:NEO可以应用到需要同时理解图像和文字的各种场景,比如智能客服能看懂用户发的截图并回答问题、教育软件能理解课本图片并解答习题、医疗助手能分析医学影像并生成报告等。由于架构相对简单,中小企业也更容易部署和使用。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-