微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 NPU芯片上的多模态AI突破:Nexa AI与吉利汽车联手打造边缘智能新方案

NPU芯片上的多模态AI突破:Nexa AI与吉利汽车联手打造边缘智能新方案

2025-12-05 15:48
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-12-05 15:48 科技行者

这项由Nexa AI公司的陈伟领导,联合吉利汽车多位研究员共同完成的突破性研究,发表于2025年12月的arXiv预印本平台,论文编号为arXiv:2512.02924v1。研究团队包括来自Nexa AI的吴良敏、胡云海、李志远等多位专家,以及吉利汽车的梁罗义、唐强、刘振、杨涵等工程师,这种产学结合的方式为汽车智能化提供了全新的技术路径。

现在的智能汽车越来越像一个移动的智能助手,不仅能够理解我们说的话,还能"看懂"路况、仪表盘甚至是我们的手势。但这里面有个大问题:传统的人工智能模型就像是为大型超级计算机量身定做的西装,穿在小巧的车载芯片上就显得格格不入。

当前的视觉语言模型就好比一个需要巨大厨房才能发挥作用的顶级厨师,它们在GPU(图形处理器)上表现出色,但一旦搬到车上的NPU(神经处理单元)芯片上,就像让这个厨师在一个小小的船舱厨房里做菜,不仅施展不开,还可能做出难以下咽的菜品。

研究团队发现了两个核心问题。第一个问题可以比作"食材过敏":传统的视觉识别系统使用一种叫做Vision Transformer的技术,这种技术就像一个对调料极其敏感的厨师,稍微改变一点配方(在技术上叫做量化,就是为了节省计算资源而简化数据精度),整道菜的味道就完全变了。第二个问题则像是"厨房太小":传统的语言生成系统需要不断地翻阅厚厚的"食谱手册"(技术上称为Key-Value缓存),在车载芯片有限的存储空间里,这就像在一个只有手掌大小的厨房里放置百科全书一样不现实。

为了解决这些问题,研究团队提出了一个名为AutoNeural的全新架构。这就像是重新设计了一套专门为小厨房工作的烹饪系统,不仅工具更加紧凑高效,连烹饪方法都做了根本性的改进。

一、重新设计视觉识别系统:从精密仪器到实用工具

传统的视觉识别系统就像一台需要绝对精确环境才能正常工作的精密天平,对任何微小的扰动都异常敏感。研究团队决定抛弃这种脆弱的设计,转而采用一种更像瑞士军刀的解决方案。

他们选择了MobileNet这种技术架构,这就好比把复杂的显微镜换成了一副高质量的放大镜。虽然看起来简单,但实际上更加实用可靠。MobileNet使用一种叫做"深度可分离卷积"的技术,这个听起来复杂的名词其实可以理解为一种特别聪明的图像处理方式。

传统方法就像是用一个巨大的筛子同时筛选图像的所有特征,而深度可分离卷积则像是先用细筛子筛一遍,再用粗筛子筛一遍,这样不仅效率更高,还能确保筛选结果更加稳定。最重要的是,这种方法在面对数据精度降低时表现得异常坚韧,就像一个经验丰富的老师傅,即使工具不够精密,也能做出不错的成品。

研究团队还设计了一个叫做"多尺度融合适配器"的组件,这就像是给放大镜配备了可调节倍数的功能。这个适配器能够同时处理图像的粗略轮廓和精细细节,然后巧妙地将它们组合在一起,形成一个既包含全貌又不失细节的完整图像理解。

具体来说,这个系统能够将一张768×768像素的图片处理成256个"视觉标记",每个标记都包含了2048维的特征信息。这就像是把一幅复杂的画作总结成256个关键特征点,既保留了画作的精髓,又大大简化了后续的处理工作。

二、革新语言理解系统:从图书馆到随身笔记本

传统的语言处理系统就像一个需要频繁查阅巨型图书馆的学者,每生成一个词语都需要翻遍所有的参考资料。在计算资源充足的服务器上,这没什么问题,但在车载芯片上,这就好比要求一个人在狭小的车厢里搬运整套百科全书。

研究团队的解决方案是采用一种混合式架构,就像给这个学者配备了一个智能助手。这个助手不仅有传统学者的深度思考能力,还具备了快速笔记和信息提取的技巧。

他们使用的Liquid AI架构采用了一种5:3的巧妙比例:在16层的系统中,10层使用快速的"门控卷积"技术,6层保留传统的"Transformer自注意力"机制。这就像是在一个16人的工作团队中,10个人负责快速执行和记录,6个人负责深度思考和决策。

门控卷积技术可以理解为一种特别聪明的信息筛选方式。它不需要像传统方法那样把所有信息都存储下来供后续查阅,而是能够实时地决定哪些信息重要,哪些可以丢弃。这就像一个经验丰富的速记员,能够在听取信息的同时实时判断重点,只记录真正有用的内容。

这种混合设计的妙处在于,它在保持强大推理能力的同时,将内存占用减少了60%。这意味着原本需要4GB内存才能运行的任务,现在只需要1.6GB就能完成,这对于车载设备来说是一个巨大的突破。

三、连接两个世界:简洁而强大的桥梁设计

在视觉理解和语言处理之间,需要一个翻译器来确保两个系统能够无缝协作。研究团队设计了一个轻量级的两层连接器,这就像是在两个说不同语言的专家之间安排了一个精通双语的翻译官。

与传统设计不同的是,这个连接器故意避免使用某些"标准化"技术。这听起来可能有些反直觉,但实际上非常明智。传统的标准化技术虽然能够让系统在理想环境下表现更好,但在资源受限的环境中却可能成为累赘,就像在崎岖山路上,一辆简单可靠的越野车往往比配置复杂的豪华轿车更加实用。

这个连接器使用GELU激活函数,这是一种特别适合神经网络的数学函数,能够帮助系统更好地学习复杂的模式。整个连接过程既保证了信息的完整传递,又确保了系统在低精度运算环境下的稳定性。

四、专门的汽车数据集:从实验室到真实道路

研究团队深知,再好的技术如果不能解决实际问题就没有意义。因此,他们专门构建了一个包含20万个样本的汽车专用数据集,涵盖了智能座舱AI的四个核心应用场景。

第一个场景叫做"AI哨兵",包含了56000个样本。这就像给汽车配备了一个永不疲倦的保安,当车辆停放后,它能够通过摄像头实时监控周围环境,识别任何可能的破坏行为,比如有人试图刮擦车漆或者撬锁。

第二个场景是"AI门卫",包含50000个样本。这个功能就像一个认识所有家人和朋友的智能管家,当熟悉的人走近车辆时,它能够自动识别身份并提前为他们开锁或打开后备箱,实现真正的无钥匙便民服务。

第三个场景叫做"AI寻车助手",包含44000个样本。这解决了我们在大型停车场中经常遇到的难题——找不到自己的车。这个系统能够识别停车场中的重要标识,比如楼层标记、区域编号、周围的参考车辆等,帮助车主快速准确地找到爱车的位置。

第四个场景是"安全监护",包含50000个样本。这个功能专注于乘客上下车时的安全,能够识别车辆周围的潜在危险,比如突然出现的行人、自行车或者其他障碍物,及时向用户发出安全提醒。

为了确保这个数据集的代表性和实用性,研究团队邀请了大约400名不同年龄、性别和肤色的志愿者参与数据收集过程。这种多元化的数据收集方式确保了系统能够在各种真实环境中稳定工作,不会因为用户的个人特征差异而出现识别偏差。

五、训练策略:从基础学习到专业精通

研究团队采用了一种循序渐进的四阶段训练方法,就像培养一个从零基础到专业水平的学生。

第一阶段是"图像文本关联学习",就像教一个孩子认识图片和文字之间的关系。在这个阶段,系统学会了将图像内容与文字描述进行匹配,建立了基本的视觉语言理解能力。

第二阶段进入"通用视觉任务训练",这时系统开始学习更复杂的视觉理解任务,包括物体识别、场景理解和基础的视觉问答。这就像让学生从认识单个事物发展到理解复杂场景。

第三阶段是"指令特定微调",系统学会了处理各种复杂的指令和多轮对话。这包括文档理解、图表推理、光学字符识别等高级任务,就像让学生掌握各种专业技能。

第四阶段是"领域特定量化感知微调",这是最关键的一步。研究团队将他们收集的汽车专用数据集与高质量的合成数据结合,让系统学会在低精度运算环境中保持高性能。这就像让学生在各种困难条件下都能发挥出应有的水平。

整个训练过程采用了先进的量化感知训练技术,确保最终的模型能够在车载NPU芯片上稳定运行。这种训练方法的巧妙之处在于,它让模型从一开始就适应低精度运算环境,而不是训练完成后再进行压缩,这大大提高了最终系统的稳定性和性能。

六、实际性能验证:从理论到现实的完美转化

研究团队在高通SA8295P NPU芯片上进行了全面的性能测试,这是目前汽车行业广泛使用的主流芯片平台。测试结果让人印象深刻,充分验证了他们的设计理念。

在视觉处理方面,AutoNeural展现出了压倒性的优势。在256×256像素的图像处理中,AutoNeural只需要28毫秒,而传统的InternViT-300M需要163.3毫秒,速度提升了5.8倍。当图像分辨率提升到512×512像素时,性能差距更加明显:AutoNeural仍然只需要101.7毫秒,而传统方法需要1415毫秒,速度提升达到了14倍。

更让人惊叹的是,在768×768像素这种高分辨率下,传统的ViT架构由于内存限制根本无法在NPU上运行,而AutoNeural依然能够在278.1毫秒内完成处理。这就像是在同样大小的厨房里,传统厨师已经无法工作,而新设计的烹饪系统仍然能够从容地制作出精美的菜肴。

在系统整体性能方面,AutoNeural实现了全面的提升。首次响应时间(从输入到开始输出的时间)比传统方案快了14倍,这对于需要实时响应的车载应用来说至关重要。在量化稳定性方面,AutoNeural的均方误差只有0.562%,而传统方案高达3.98%,信噪比也从28分贝提升到45分贝,这意味着在相同的硬件限制下,AutoNeural能够保持更高的准确性。

语言生成速度也有显著提升,解码吞吐量达到每秒44个词元,比传统方案的每秒15个词元快了近3倍。同时,系统支持的上下文长度也从1024扩展到4096,这意味着它能够理解和处理更长更复杂的对话。

七、实际应用场景展示:智能座舱的真实体验

研究团队展示了AutoNeural在实际汽车环境中的四个典型应用场景,每个场景都体现了系统的实用价值和技术优势。

在车内安全检测场景中,当系统发现儿童安全座椅安装不当时,它不仅能够准确识别问题,还能提供详细的安全风险解释:"车辆存在儿童安全风险。儿童安全座椅未正确调整,这可能在碰撞时导致支撑不当。另外,儿童的手部位置不够安全。"这种详细的安全分析对于保护乘客安全具有重要意义。

在车外环境感知方面,系统能够准确识别停车标志并解读相关规则:"停车规定显示,在拖车区100英尺范围内禁止停车。"这种理解不仅包括标志的视觉识别,还包括对规则文本的准确解读和语义理解。

在车辆状态诊断方面,当仪表盘出现故障指示时,系统能够提供专业的解释和建议:"这个问题表明车辆发动机运行不正常。可能是点火开关故障、交流发电机故障或其他发动机相关问题。建议尽快请专业人员检查车辆,确定具体原因并妥善解决。"

在智能交互场景中,系统还能够处理复杂的多模态请求。当用户指着屏幕上的某个活动询问"你能导航我去那个活动吗?"时,系统不仅能够理解用户的指向动作,还能提取相关信息并生成结构化的响应:{"eventTitle": "艺术与音乐节", "startTime": "上午9:00"}。

这些实际应用场景充分展示了AutoNeural在处理复杂多模态任务时的强大能力,无论是安全监控、环境理解、状态诊断还是智能交互,系统都能提供准确、及时、有用的响应。

八、技术创新的深层意义:重新定义边缘AI的可能性

AutoNeural的技术创新不仅仅是性能数字的提升,更重要的是它重新定义了在资源受限环境中实现智能系统的方法论。这种方法论的核心思想是"协同设计"——硬件特性、软件架构、算法选择和应用需求之间的深度整合。

传统的方法就像是先设计好了一套精美的家具,然后试图把它塞进一个小房间里。而AutoNeural的方法则是先仔细测量房间的尺寸和布局,然后专门设计适合这个空间的家具。这种差异看似微小,但结果却截然不同。

在技术层面,研究团队的创新体现在三个关键方面。首先是架构选择的智慧:他们没有盲目追求最先进的算法,而是选择了最适合目标硬件平台的技术组合。其次是量化策略的优化:通过量化感知训练,他们让模型从训练阶段就适应低精度运算,而不是事后进行精度压缩。最后是应用导向的数据集构建:他们专门为汽车应用场景收集和标注数据,确保模型能够解决真实世界的实际问题。

这种协同设计的方法论对整个AI行业都有重要的启发意义。随着AI应用越来越多地向边缘设备迁移,如何在有限的计算资源下实现强大的AI能力将成为一个核心挑战。AutoNeural提供了一个成功的范例,证明了通过精心的系统设计,即使在严格的硬件约束下,也能够实现令人满意的AI性能。

九、对汽车行业的深远影响:从辅助工具到智能伙伴

AutoNeural的成功不仅仅是一个技术突破,更预示着汽车行业正在经历的深刻变革。传统汽车主要是一个机械交通工具,而智能汽车正在演变成一个能够理解、思考和交流的智能伙伴。

在安全性方面,AutoNeural为汽车安全带来了新的维度。传统的汽车安全系统主要依靠传感器和预设规则,而基于视觉语言理解的安全系统能够像人类一样理解复杂情境,提供更加智能和精准的安全保护。当系统能够同时"看懂"车内儿童安全座椅的安装状态和"理解"相关安全规范时,它就能够提供比传统传感器更加全面的安全监护。

在用户体验方面,AutoNeural让人车交互变得更加自然和高效。用户不再需要学习复杂的操作指令或者记住特定的语音命令,而是可以像与朋友交流一样与汽车进行自然对话。系统能够理解用户的手势、语言和意图,并做出相应的响应,这种交互方式更加直观和人性化。

在维护和诊断方面,AutoNeural为汽车维护带来了革命性的改变。传统的汽车故障诊断需要专业技师使用专门设备,而基于视觉语言理解的诊断系统能够直接"读懂"仪表盘上的各种指示,并用通俗易懂的语言解释问题的原因和解决方案。这不仅降低了维护成本,也提高了用户对车辆状态的了解程度。

在智能化程度方面,AutoNeural为实现真正的智能驾驶舱奠定了基础。当汽车能够同时理解视觉信息和语言指令时,它就具备了成为智能助手的基本条件。无论是导航规划、信息查询、娱乐控制还是环境调节,用户都可以通过自然的多模态交互来实现,这种体验远比传统的按钮和菜单操作更加便利和愉快。

十、技术普及的挑战与机遇:从实验室到量产的道路

虽然AutoNeural在技术验证方面取得了显著成功,但从实验室原型到大规模量产应用仍然面临一些挑战,同时也蕴含着巨大的机遇。

在技术挑战方面,最主要的问题是如何确保系统在各种极端环境条件下的稳定性。汽车需要在从零下几十度到高温酷暑的环境中正常工作,还要承受颠簸、震动等机械冲击。虽然AutoNeural在标准测试环境中表现出色,但在这些极端条件下的表现还需要更多的验证和优化。

另一个挑战是如何处理边缘情况和异常场景。虽然研究团队收集了20万个样本的数据集,但现实世界的复杂性是无穷的,总会有一些训练数据中没有涵盖的特殊情况。如何让系统在面对这些未知情况时保持安全和可靠的行为,是一个需要持续关注的问题。

在成本控制方面,虽然AutoNeural相比传统方案大大降低了计算资源需求,但要实现大规模量产,还需要进一步优化成本结构。这不仅包括芯片成本,还包括开发、测试、部署和维护的全生命周期成本。

然而,这些挑战同时也代表着巨大的机遇。汽车智能化是一个万亿级的市场,而像AutoNeural这样的技术突破为这个市场的快速发展提供了关键的技术基础。随着越来越多的车企开始重视智能座舱体验,对高效、可靠、低成本的AI解决方案的需求将持续增长。

从产业生态角度来看,AutoNeural这样的技术突破还将推动整个产业链的发展。芯片制造商会投入更多资源开发专门优化的NPU产品,软件开发商会基于这些技术平台构建更丰富的应用生态,而车企则能够为消费者提供更加智能化的产品和服务。

说到底,AutoNeural代表的不仅仅是一项技术创新,更是一种思维方式的转变。在AI技术快速发展的时代,如何让强大的AI能力真正服务于普通人的日常生活,如何在有限的资源约束下实现最大的价值创造,这些问题的答案将决定AI技术能够走多远、能够为人类社会带来多大的福祉。

从这个角度来看,AutoNeural提供了一个很好的答案。它告诉我们,真正有价值的技术创新不是简单地追求最高的性能指标,而是要深入理解实际需求,巧妙地平衡各种约束条件,最终创造出既强大又实用的解决方案。这种务实而创新的态度,正是推动技术进步和社会发展的重要力量。

当我们驾驶着搭载类似技术的智能汽车,与车载助手进行自然对话,享受安全便利的智能化体验时,我们也在见证着人工智能技术如何从实验室走向现实生活,如何从概念展示变成实实在在的价值创造。AutoNeural的故事,就是这个伟大时代变迁的一个缩影。对于那些想要深入了解这项技术细节的读者,可以通过论文编号arXiv:2512.02924v1在arXiv平台查阅完整的研究报告。

Q&A

Q1:AutoNeural相比传统的车载AI系统有什么优势?

A:AutoNeural最大的优势是专门为车载NPU芯片设计,速度比传统系统快14倍,同时在低精度运算下更稳定。它就像是为小厨房专门设计的高效烹饪系统,而不是把大厨房的设备硬塞进狭小空间。

Q2:AutoNeural能处理哪些具体的汽车应用场景?

A:AutoNeural可以处理四大核心场景:AI哨兵负责车辆防盗监控,AI门卫识别熟人并自动开锁,AI寻车助手帮助在停车场找车,安全监护在上下车时识别周围危险。这些功能都能通过自然对话方式操作。

Q3:这种技术什么时候能在普通汽车上使用?

A:研究团队已经在高通SA8295P芯片上完成了实际验证,这是目前汽车行业广泛使用的主流芯片。从技术成熟度来看,距离量产应用已经不远,但具体时间还要看车企的产品规划和成本控制策略。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-