
这项由OPPO AI中心的AndesVL团队进行的研究发表于2025年1月,论文编号为arXiv:2510.11496v2,研究团队开发出了一个能够在手机上流畅运行的多模态对话系统。对于普通手机用户来说,这意味着未来你的手机不仅能听懂你说的话,还能看懂你拍的照片并与你进行深度对话,而且所有处理都在你的手机本地完成,不需要联网。
当前的AI大模型就像住在云端的超级大脑,虽然聪明但需要强大的服务器才能运行。而手机就像一个小小的房子,空间有限、电力有限。OPPO的研究团队面临的挑战就像是要把一个需要整栋大楼才能居住的巨人,成功安置到一个普通的公寓里,还要让他保持原有的智慧和能力。
AndesVL系列包含了从0.6B到4B参数的不同版本,就像是为不同性能的手机量身定制的智能助手。这些模型建立在Qwen3语言模型的基础上,结合了多种视觉编码器。研究团队特别设计了两个版本:一个是专门负责日常对话的"指令版",另一个是擅长深度思考和推理的"思考版",就像给AI安装了两种不同的思维模式。
在性能测试中,AndesVL在32个开源基准测试中展现出了令人印象深刻的能力。这些测试涵盖了文字丰富的图像理解、数学推理、多图片理解、通用视觉问答、减少幻觉、多语言理解以及用户界面相关任务等六大领域。特别值得一提的是,AndesVL-4B思考版在总体评分中达到了70.9分,比同等规模的最佳竞争对手InternVL3.5-4B高出3.2分。
一、打造手机上的视觉AI助手
传统的多模态AI模型就像是需要整个发电厂供电的巨型机器,而手机的处理能力更像是家用电器的电量。AndesVL的核心创新在于重新设计了模型的架构,让AI既能保持聪明,又能在手机的"小房子"里舒适地生活。
整个系统的架构包含三个主要组件:视觉编码器负责"看懂"图片内容,就像人的眼睛;多层感知器充当翻译官,将视觉信息转换为语言模型能理解的格式;语言模型则是大脑,负责理解和生成对话。这种设计允许模型处理任意尺寸和比例的图片,不需要像其他系统那样先裁剪图片。
为了让模型更好地适应不同的使用场景,研究团队开发了一个创新的"1+N LoRA"架构。这就像是给AI安装了可以随时更换的技能包,基础模型保持不变,但可以根据不同任务加载不同的专业模块。比如处理医疗图像时加载医疗模块,处理艺术作品时加载艺术鉴赏模块。
二、三阶段训练让AI从零开始学会看图说话
训练AndesVL的过程就像教一个孩子从认识字母开始,逐步学会阅读和思考。整个训练分为三个递进的阶段,每个阶段都有特定的学习目标。
第一阶段是视觉语言对齐阶段。此时AI就像刚开始学习的孩子,需要建立图像和语言之间的基本联系。研究团队使用了大量的图片描述、文字识别和视觉问答数据,总共处理了100B个训练样本。在这个阶段,AI学会了将看到的图像内容转换为语言描述,建立了视觉和语言之间的桥梁。
第二阶段是联合视觉语言预训练。这个阶段AI开始接触更复杂的多模态内容,学习处理图文混合的材料。研究团队使用了160B个训练样本,包括了交错排列的图像-文本数据。为了让AI更好地学习,团队设计了一个巧妙的策略:有50%的概率保持原始的图文排列,另外50%的概率将所有图片移到文本前面,这样可以确保AI在任何情况下都能有效学习。
第三阶段是多任务预训练。在这个最终阶段,AI开始接触各种具体任务的训练,包括通用视觉问答、图像描述、文字识别以及特定领域的数据如界面理解等。对于思考版模型,还特别加入了长推理链数据,让AI学会step-by-step的深度思考。
三、后训练阶段的精细调优
完成基础训练后,AndesVL还需要经过精细的调优过程,就像一个学生在掌握基础知识后还需要针对具体考试进行专项练习。
监督微调阶段使用了精心构建的指令数据,总共包含约1600万条数据。研究团队开发了多阶段的数据过滤流程,首先使用传统的基于规则的过滤方法清除明显的噪声数据,然后使用Qwen2.5-VL-72B将数据分类到不同任务类别,最后通过"LLM评判官"方法评估数据质量和难度水平,确保只有高质量的训练数据被使用。
对于指令版模型,研究团队采用了混合偏好优化方法。这种方法结合了偏好损失、质量损失和生成损失三个组件,就像是在教AI不仅要给出正确答案,还要学会区分好答案和坏答案,并且保持生成质量的稳定性。
对于思考版模型,则使用了强化学习方法。研究团队收集了约20万条高质量数据,并根据难度分数进行筛选,最终选择了4.36万条数据用于训练。有趣的是,团队发现采用"从易到难"的训练顺序能更有效地提升模型的推理能力。
四、海量数据构建多模态知识库
训练数据的构建就像是为AI准备一个包罗万象的图书馆。研究团队精心收集和处理了各种类型的数据,确保AI能够掌握丰富的视觉和语言知识。
图像描述数据主要来源于中英文两种语言的数据集。中文数据主要来自Laion、Wukong和Tasisu等数据集,为了提升描述质量,团队使用Qwen2.5-VL-72B重新生成了更准确的图像描述。英文数据则主要来自Infinity-MM数据集,使用Emu2进行描述生成。最终构建了约1.26亿条图像描述数据。
文字识别数据对于多模态模型尤为重要,就像是教AI学会阅读图片中的文字。数据来源包括开源数据集、合成数据和自收集数据三个部分。为了提升中文识别能力,团队使用SynthDog生成了大规模中文OCR数据,同时也生成了大量非语义英文OCR数据来减少模型的幻觉倾向。
视觉定位数据让AI学会了在图像中精确定位物体。研究团队采用了与Qwen2-VL相同的边界框结构,准备了单目标和多目标定位场景的数据。这些数据分为四个类别:物体引用、区域描述、引用实体识别和定位图像描述。
特别值得一提的是界面理解数据。研究团队构建了名为AndesUI的专门数据集,收集了90个应用程序的界面截图,包括65个热门下载应用和25个ColorOS预装应用。每个界面平均包含18个控件,最终构建了包含22.7万个控件的大型界面理解数据集。
五、多场景适配的1+N LoRA架构
为了让AI能够灵活适应不同的应用场景,研究团队设计了创新的1+N LoRA训练架构。这个设计就像是给AI配备了一个工具箱,里面有各种专业工具,需要时可以随时取用。
基础思路是保持一个通用的基础模型不变,然后为不同场景训练专门的LoRA模块。这种设计的优势在于既避免了为每个场景训练完整模型的资源消耗,又防止了灾难性遗忘问题,同时提升了模型在多场景下的泛化能力。
每个场景的LoRA训练都包括监督微调和强化学习两个阶段。监督微调阶段使用更加场景化和定制化的数据,并设计了针对性的数据标签和任务定义。比如在图像描述任务中,为了增加实体密度,研究团队设计了实体加权交叉熵损失,对描述中的实体词汇分配更高的损失权重。
强化学习阶段则高度定制化。以图像描述任务为例,除了确保描述的准确性和简洁性外,还需要实现更高的实体词密度。团队定义了实体密度奖励、关键信息奖励等多个奖励函数,确保模型能够在相同的生成长度内输出更丰富的信息。
六、量化压缩与移动端部署优化
将AI模型部署到手机上就像是要把一台大型计算机的功能装进口袋里的设备中。研究团队开发了端到端的量化优化流程,包括基础模型的量化感知训练框架和场景特定的量化感知LoRA微调框架。
量化感知训练支持多种量化配置:权重可以量化到2、3、4或8位,激活可以量化到8或16位。这个框架还支持细粒度的混合精度组合,并包含了自动精度分配策略,在保持模型精度的同时最大化推理效率。通过与芯片厂商的紧密合作,建立了确定性的映射机制,可以直接将静态量化感知训练模型转换为硬件兼容的边缘可部署量化表示。
针对多LoRA场景的特殊需求,研究团队与联发科共同开发了量化感知LoRA微调框架。这个框架首先对量化感知训练预训练的基础模型应用后训练量化并永久冻结其量化编码,然后在这个固定的量化骨干网络上训练LoRA权重。这种设计使得可以独立更新特定场景的LoRA模块,而无需重新量化基础模型。
为了进一步提升移动端推理速度,团队还开发了多项加速技术。缓存淘汰算法OKV在保持相同压缩率的情况下超越了现有解决方案,支持高达128K的上下文长度。定制化的投机解码技术基于移动端设备特性进行了优化,充分利用设备的存储和计算资源。
七、全面基准测试验证模型能力
为了全面评估AndesVL的能力,研究团队在32个开源基准测试上进行了详细评估,这些测试涵盖了六个主要领域:文本丰富图像理解、推理和数学、多图像理解、通用VQA、幻觉缓解和多语言理解。
在推理和数学能力测试中,AndesVL-4B-思考版在8个基准测试中取得了58.3的总体评分,显著超过了现有模型。特别是在MathVista、MathVerse和WeMath基准测试中表现突出。这得益于团队在预训练中使用了大量精炼的长推理链多模态数据,以及在后训练中精心设计的强化学习过程。
在文本丰富图像理解方面,AndesVL-4B-思考版达到了86.0的评分,在ChartQA基准测试中得分90.4,比之前的最佳结果InternVL3.5-4B高出4.4分。类似的显著优势也出现在DocVQA基准测试中。这些成果直接证明了模型不仅能够准确识别长文本,还能对复杂的上下文问题进行高级推理。
在多图像理解任务中,AndesVL-4B-思考版获得了67.8的评分,比之前的最佳结果高出5.5分,在四个多图像基准测试中的三个都取得了最高分。这表明模型的高级预训练策略和增强的训练数据集显著提升了捕获和推理图像间关系的能力。
八、移动端性能表现与实际应用
在实际的移动端部署测试中,AndesVL展现了令人印象深刻的性能表现。在联发科天玑9500芯片上,通过综合使用缓存淘汰、投机解码和稀疏化技术,AndesVL-4B实现了6.7倍的峰值解码加速比、高达30.9%的内存占用减少,以及1.8位每权重的极致压缩。
缓存淘汰策略在长文本处理任务中表现优异。在通话摘要任务中,团队开发的OKV算法在50%缓存淘汰率下,相比SnapKV在Rouge-1指标上提升了10%以上。在某些情况下,使用缓存淘汰的性能甚至超过了使用完整KV缓存的基准模型。
投机解码技术结合硬件压缩和大型语言模型稀疏化,实现了高达7.9的块效率,相比基准的自回归解码和无压缩优化实现了约6.7倍的端到端解码加速。这些技术的成功应用为移动端大模型的实际部署提供了可行的解决方案。
量化感知训练的效果也得到了验证。通过对比量化模型和浮点模型在OCR相关基准测试上的表现,量化感知训练加后训练量化的组合在四个OCR基准测试上实现了95.8%的Top-1重叠度,显著优于单独使用后训练量化的90.7%。
九、创新技术突破与未来展望
AndesVL的技术创新不仅体现在模型架构的设计上,更体现在对移动端AI部署完整解决方案的探索。研究团队首次实现了在移动端设备上的高质量多模态对话系统,这为未来的AI应用开辟了新的可能性。
模型的指令版和思考版分离设计是一个重要创新。指令版专注于高效的理解和生成任务,而思考版则擅长复杂的数学推理和规划应用。这种设计理念为不同应用场景提供了更精准的解决方案,用户可以根据具体需求选择最合适的版本。
1+N LoRA架构的提出解决了移动端AI模型部署的一个关键问题:如何在有限的计算资源下实现多任务适配。这种架构不仅减少了训练资源消耗,还提升了模型的泛化能力,为未来的个性化AI应用奠定了基础。
量化感知LoRA微调框架的开发填补了多LoRA场景下量化部署的技术空白。这个框架使得可以独立更新特定场景的LoRA模块而无需重新量化基础模型,大大简化了模型更新和维护的流程。
研究团队还展望了未来的发展方向。首先是开发更优化的视觉编码器解决方案,通过先进的网络架构和新颖的特征提取策略,提升视觉信息处理的效率和准确性。其次是开发更优秀的后训练方案,优化模型在处理各种多模态任务时的性能,减少幻觉并增强输出的一致性和可靠性。
第三个方向是在大模型和小模型之间实施有效的蒸馏方案,通过从大型高性能云端模型向较小的移动端模型转移知识,显著提升后者的性能资源比。最后是开发集成文本、图像和语音模态的统一移动端模型,这样的三模态集成模型将为用户提供更自然和智能的交互体验。
AndesVL的成功不仅证明了在移动端部署高质量多模态AI的可行性,更为整个行业指明了发展方向。随着移动设备性能的不断提升和AI技术的持续演进,我们有理由相信,未来每个人的手机都将成为一个强大的AI助手,能够看懂、听懂并与用户进行深度的多模态交流。
对于普通用户而言,这项技术的意义在于将原本需要依赖网络和云端服务器的AI能力直接带到了手边。无论是拍照识别物品、翻译外文图片,还是与AI讨论照片内容,所有这些交互都可以在本地完成,既保护了隐私安全,又提供了更快速的响应体验。
OPPO AI中心的这项研究为移动AI的发展树立了新的标杆。通过开源所有模型和技术细节,研究团队展现了推动整个行业发展的决心。有兴趣深入了解技术细节的读者可以通过论文编号arXiv:2510.11496v2查询完整的技术文档,相关模型和代码也已在GitHub和Hugging Face平台上公开发布。
Q&A
Q1:AndesVL系列包含哪些不同版本的模型?
A:AndesVL系列包含从0.6B到4B参数的不同版本模型,每个版本都有指令版和思考版两种类型。指令版专注于日常对话和高效的理解生成任务,思考版则擅长深度推理、数学计算和复杂规划,用户可以根据具体需求和设备性能选择最适合的版本。
Q2:AndesVL如何在手机上实现这么快的运行速度?
A:AndesVL采用了多项优化技术来提升手机端运行速度。包括量化感知训练将模型压缩到1.8位每权重、OKV缓存淘汰算法减少30.9%内存占用、定制化投机解码技术,以及1+N LoRA架构实现场景化适配。这些技术综合使用后,在联发科天玑9500芯片上实现了6.7倍的解码加速比。
Q3:普通用户如何体验AndesVL技术?
A:OPPO已经将AndesVL技术集成到实际的手机AI应用中,用户可以通过OPPO AI手机体验这些功能。研究团队还在GitHub和Hugging Face平台开源了所有模型,开发者可以基于这些模型创建各种应用。随着技术的不断成熟,预计会有更多消费级产品集成这项技术。
好文章,需要你的鼓励
谷歌DeepMind等顶级机构联合研究揭示,当前12种主流AI安全防护系统在面对专业自适应攻击时几乎全部失效,成功率超过90%。研究团队通过强化学习、搜索算法和人类红队攻击等多种方法,系统性地突破了包括提示工程、对抗训练、输入过滤和秘密检测在内的各类防护技术,暴露了AI安全评估的根本缺陷。
西蒙弗雷泽大学和Adobe研究院联合开发的MultiCOIN技术,能够将两张静态图片转换为高质量的过渡视频。该技术支持轨迹、深度、文本和区域四种控制方式,可单独或组合使用。采用双分支架构和分阶段训练策略,在运动控制精度上比现有技术提升53%以上,为视频制作提供了前所未有的灵活性和精确度。
英国国王学院研究团队开发了潜在精炼解码(LRD)技术,解决了AI文本生成中的速度与准确性平衡难题。该方法通过两阶段设计模仿人类思考过程:先让AI在连续空间中"深思熟虑",保持多种可能性的混合状态,然后"果断行动",逐步确定答案。实验显示,LRD在编程和数学推理任务中准确性提升最高6.3个百分点,生成速度提升最高10.6倍,为AI并行文本生成开辟了新路径。
清华大学团队开发的ViSurf是一种创新的大型视觉语言模型训练方法,巧妙融合了督导式学习和强化学习的优势。该方法通过将标准答案整合到强化学习过程中,让AI既能从正确答案中学习又能保持自主推理能力。实验显示ViSurf在多个视觉任务上显著超越传统方法,特别是在处理模型知识盲区时表现突出,同时有效避免了灾难性遗忘问题,为AI训练提供了更高效稳定的新范式。