这项由阿里巴巴集团Ovis团队开发的研究成果于2025年6月29日发布在arXiv平台上,论文编号为arXiv:2506.23044v1。感兴趣的读者可以通过GitHub项目页面(https://github.com/AIDC-AI/Ovis-U1)或者HuggingFace模型库(https://huggingface.co/AIDC-AI/Ovis-U1-3B)来了解更多技术细节和使用方法。
在人工智能的世界里,我们经常看到这样的现象:有些AI模型特别擅长理解图片内容,能够准确描述一张照片里有什么;有些模型专门负责根据文字描述来生成精美的图像;还有些模型专门用来编辑和修改现有的图片。就像现实生活中的专业分工一样,每个AI都有自己的专长领域。然而,阿里巴巴的研究团队却提出了一个大胆的想法:能不能培养出一个"全才"AI,让它同时掌握看图、画图和修图这三项本领?
这个想法听起来简单,实际操作起来却充满挑战。就好比要培养一个既能当翻译、又能当画家、还能当摄影师的全能人才一样困难。不同技能之间需要不同的"思维方式",如何让一个AI模型同时具备这些能力,而且每项技能都不输给专业选手,这是一个技术难题。
现在,阿里巴巴的研究团队交出了他们的答案——Ovis-U1模型。这个名字中的"U"代表"Unified",意思是"统一的",寓意着它能把多种能力统一在一个模型中。有趣的是,尽管它只有36亿个参数(在AI模型的世界里,这算是"轻量级选手"),但它的表现却让人刮目相看。
为了验证Ovis-U1的能力,研究团队设计了一系列测试,就像给这个AI全才安排了三场不同的考试。在理解图片的考试中,它在OpenCompass多模态学术基准测试中获得了69.6分的成绩,超过了许多专门做这件事的AI模型,比如Ristretto-3B和SAIL-VL-1.5-2B。在文字生成图片的测试中,它在DPG-Bench和GenEval两个权威测试平台上分别获得了83.72分和0.89分的优异成绩。而在图片编辑方面,它在ImgEdit-Bench和GEdit-Bench-EN测试中分别取得了4.00分和6.42分的表现。
更令人印象深刻的是,Ovis-U1采用了一种全新的训练策略。传统做法往往是先让AI学会一项技能,然后再尝试添加其他功能。但阿里巴巴的研究团队发现,如果让AI同时学习理解图片和生成图片这两项技能,它在每个方面的表现都会更好。这就像学习音乐时,同时练习弹琴和唱歌的人,往往比只专注一项技能的人在音乐理解上更加全面深入。
这种发现具有重要意义,因为它暗示着AI能力之间可能存在某种相互促进的关系。当AI学会如何生成图像时,它对图像的理解也会变得更加深刻;反过来,更好的图像理解能力也有助于生成更高质量的图像。
一、Ovis-U1的"大脑结构":像搭积木一样组装AI能力
要理解Ovis-U1是如何工作的,我们可以把它想象成一个精密的工厂流水线。这个工厂有几个关键的车间,每个车间负责处理不同类型的信息。
整个系统的核心是一个叫做"多模态大语言模型"的中央处理器,就像工厂的总调度室一样。这个调度室基于阿里巴巴自己开发的Qwen3-1.7B语言模型,它就像一个经验丰富的工厂主管,能够理解和协调各种不同类型的信息。
当一张图片进入这个系统时,它首先会经过"视觉编码器"这个车间。这个车间的工作就像是把图片翻译成AI能够理解的"数字语言"。研究团队使用了一个叫做Aimv2-large-patch14-448的预训练模型作为这个车间的基础设备。有趣的是,这个车间经过了特殊改造,能够处理各种尺寸的图片,不需要像以前那样把大图片切成小块再处理。
接下来是"适配器"模块,它就像工厂里的转换器,负责把视觉信息转换成语言模型能够理解的格式。这个转换过程使用了一种概率化的方法,就像用不同浓度的颜料来调配出最合适的色彩一样。
当系统需要生成图片时,就轮到"视觉解码器"出场了。这个部分基于扩散变换器架构,可以把文字描述转换成具体的图像。研究团队把这个解码器的规模控制在10亿参数左右,通过减少层数和注意力头数来实现轻量化设计。它使用了一种叫做"流匹配"的训练目标,就像教导一位画家如何从粗糙的草图逐步绘制出精美的作品。
特别值得一提的是系统中的"精炼器"模块。这个模块就像是质量检查员,负责提升文字和图像信息之间的互动质量。它由两个变换器块组成,使用调制机制来工作。研究团队还引入了一个可学习的特殊标记,用来捕获全局信息,这就像给检查员配备了一副能够看到全局的特殊眼镜。
整个系统还包含一个VAE(变分自编码器),它就像是图像处理的专用工具,负责在图像的像素表示和潜在空间表示之间进行转换。研究团队选择使用SDXL的VAE模型,并在训练过程中保持其参数不变。
二、数据准备:为AI全才准备丰富的"教材"
要培养一个具备多种技能的AI,就需要为它准备种类丰富的学习材料。就像培养一个全才学生需要提供各学科的教科书一样,Ovis-U1的训练需要三种不同类型的数据。
第一类是多模态理解数据,这就像是给AI提供的"阅读理解教材"。这类数据包含了图片和对应的文字描述,让AI学会如何理解图像内容。研究团队收集了来自公开数据集的材料,包括COYO、Wukong、Laion、ShareGPT4V和CC3M等数据库。为了确保教材质量,他们还建立了专门的数据预处理流程,就像编辑教科书时要筛选优质内容、提升文字质量并调整不同材料的比例一样。
第二类是文字到图像生成数据,这相当于"创作课教材"。研究团队从Laion5B数据集中精心挑选了美学评分在6分以上的高质量图片,然后使用Qwen模型为每张图片生成详细的文字描述,最终创建了Laion-aes6数据集。他们还使用了JourneyDB数据集作为补充材料。
第三类是图像加文字到图像生成数据,这类似于"实用技能教材",包含了四个细分方向。图像编辑数据来源于OmniEdit、UltraEdit和SeedEdit等公开数据集,教会AI如何根据指令修改现有图片。参考图像驱动的图像生成数据包括Subjects200K和SynCD等数据集,让AI学会基于参考图片创作新作品。像素级控制的图像生成数据涵盖了从边缘检测图生成真实图像、从深度图生成图像、图像修复和图像扩展等任务,这些数据来自MultiGen 20M数据集。此外,研究团队还构建了大量内部数据,包括风格转换、内容移除、风格翻译、去噪去模糊、图像着色、文字渲染等各种实用功能的训练材料。
三、训练过程:六个阶段的渐进式学习之旅
Ovis-U1的训练过程就像培养一位全才艺术家,需要经过六个精心设计的学习阶段。这种渐进式的训练方法确保了AI能够逐步掌握各种技能,而不是一开始就被复杂的任务搞得手忙脚乱。
第一个阶段是视觉解码器的基础训练。在这个阶段,研究团队专注于让AI学会最基本的"画画"技能。他们使用文字到图像的训练数据,让视觉解码器和精炼器从随机初始化开始学习,就像教一个完全不会画画的人如何握笔、如何在纸上留下第一笔。这个阶段使用了500,000个训练步骤,批次大小为1024,学习率设置为1e-4。
第二个阶段是适配器的预训练。适配器的作用就像是翻译官,负责在视觉信息和语言信息之间建立桥梁。在这个阶段,系统开始学习如何处理理解、生成和编辑这三种任务。适配器从随机初始化开始训练,使用1510个训练步骤,批次大小增加到8192,学习率为5e-4。
第三个阶段是视觉编码器的对齐训练。这时候,视觉编码器和适配器一起进行微调,进一步提升视觉信息和文字信息之间的对齐效果。这个阶段继续使用三种任务的混合训练,训练步骤为2630步,批次大小保持8192,学习率调整为1e-4。与前面不同的是,生成任务在这个阶段也有助于不同模态之间的信息对齐。
第四个阶段是理解能力的专门学习。这个阶段相当于Ovis原始模型的训练过程,专门优化视觉编码器、适配器和语言模型在理解任务上的表现。训练完成后,这些参数会被固定下来,以保持已经获得的理解能力。这个阶段的训练最为intensive,使用了23,000个训练步骤,批次大小为2240,学习率为5e-5。
第五个阶段是生成能力的学习。由于第四阶段调整了语言模型的参数,研究团队需要重新训练精炼器和视觉解码器,让它们适应优化后的文字和图像嵌入表示。实验结果表明,相比第一阶段,这个阶段的文字到图像生成性能有了明显提升,这说明前面几个阶段的训练确实优化了文字嵌入的质量。这个阶段使用275,000个训练步骤,批次大小为256,学习率为5e-5。
第六个阶段是生成能力的精细调优。在具备了文字到图像生成能力的基础上,最后一个训练阶段专门针对文字到图像生成和图像编辑任务进行解码器的精细调优。这个阶段使用325,000个训练步骤,批次大小为256,学习率保持5e-5。
这种六阶段的训练策略体现了研究团队的深刻洞察:不同的AI能力需要在合适的时机以合适的方式进行培养。通过这种渐进式的方法,Ovis-U1最终获得了在理解、生成和编辑三个方面都表现出色的综合能力。
四、性能表现:小身材大能量的全面验证
当Ovis-U1完成训练后,研究团队进行了全面的性能测试,就像给一位全才学生安排期末考试一样。测试结果表明,这个只有36亿参数的"小个子"AI在多个方面都表现出了令人惊喜的能力。
在图像理解能力的测试中,研究团队使用了OpenCompass多模态学术基准测试,这个测试包括八个不同的子项目,涵盖了多模态推理、数学视觉理解、幻觉检测、科学图表理解、文字识别等各个方面。Ovis-U1在这项测试中获得了69.6分的平均成绩,超过了许多同等规模甚至更大规模的专业模型。特别值得注意的是,在与其他30亿参数左右的模型比较中,Ovis-U1的表现尤其突出,超过了InternVL2.5-2B、SAIL-VL-2B、InternVL3-2B、Qwen2.5-VL-3B、Ovis2-2B、SAIL-VL-1.5-2B和Ristretto-3B等多个竞争对手。
在文字到图像生成能力的评估中,研究团队使用了GenEval和DPG-Bench两个权威测试平台。GenEval测试主要评估模型在处理单个物体、两个物体、计数、颜色、位置和属性绑定等方面的能力。Ovis-U1在这项测试中获得了0.89分的优异成绩,显著超过了许多专业的图像生成模型。在DPG-Bench测试中,Ovis-U1获得了83.72分,这个成绩在同类模型中也是相当突出的。
图像编辑能力的测试使用了ImgEdit-Bench和GEdit-Bench-EN两个最新推出的基准测试。ImgEdit-Bench包含811个图像指令对,测试模型在添加、调整、提取、替换、移除、背景处理、风格转换、混合操作和动作处理等九个方面的表现。Ovis-U1在这项测试中获得了4.00分的总分,在各个细分项目中都表现出了均衡的能力。GEdit-Bench-EN包含606个图像指令对,涵盖背景更换、颜色调整、材质修改、动作变化、肖像美化、风格转换、主体添加、主体移除、主体替换、文字修改和色调转换等11个方面。Ovis-U1在这项测试中获得了6.42分,证明了其在复杂编辑任务上的可靠性。
为了验证统一训练方法的有效性,研究团队还进行了对比实验。他们发现,采用统一训练方法的Ovis-U1比只进行理解任务训练的基线模型在理解能力上提升了1.14分。这个结果证明了同时学习生成任务确实有助于提升模型的理解能力,就像同时学习多种乐器的音乐学生往往对音乐有更深刻的理解一样。
在图像生成性能的阶段性分析中,研究团队发现训练过程中每个阶段都对最终性能有积极贡献。特别有趣的是,他们发现在生成训练中加入图像编辑数据能够将文字到图像生成的性能在DPG-Bench上提升0.77分,这说明不同类型的生成任务之间也存在相互促进的关系。
五、技术创新:精炼器设计的巧思
Ovis-U1的一个重要创新是引入了精炼器模块,这个模块的设计体现了研究团队的技术巧思。精炼器的作用就像是一个经验丰富的编辑,负责提升文字和图像信息之间的交互质量。
传统的文字到图像生成模型通常使用CLIP模型来捕获全局特征,但Ovis-U1采用了一种不依赖CLIP的创新方法。研究团队引入了一个可学习的特殊标记,这个标记就像一个智能的"全局观察员",能够汇聚和整理来自语言模型的信息。
精炼器的结构相对简洁,由两个变换器块组成,使用调制机制来处理信息。研究团队发现,仅使用语言模型最后一层的特征会导致性能下降,但如果将倒数第二层和最后一层的特征连接起来,就能恢复到基线水平的性能。这个发现反映了语言模型不同层次包含不同粒度信息的特点,通过结合多层信息,精炼器能够更好地利用语言模型的表征能力。
在无CLIP方法的探索中,研究团队比较了两种不同的设计:一种是对精炼器输出进行平均池化,另一种是使用可学习的特殊标记来聚合全局信息。实验结果表明,使用特殊标记的方法表现更好,特别是在较大数据集上训练时,这种方法在DPG-Bench上甚至超过了基线方法。
这些技术细节看似微小,但它们共同构成了Ovis-U1出色性能的基础。就像制作精美手表需要每个零件都精确配合一样,AI模型的优异表现也需要每个组件都经过精心设计和调优。
六、实际应用:从技术到生活的桥梁
Ovis-U1的能力不仅仅停留在测试分数上,它在实际应用中也展现出了强大的实用性。通过研究团队提供的定性结果展示,我们可以看到这个AI在真实场景中的表现。
在图像理解方面,Ovis-U1能够准确识别和描述复杂场景中的各种元素。比如,当看到一张厨房照片时,它不仅能识别出新鲜炸制的薯条、深度油炸锅、番茄酱罐和番茄等物品,还能注意到花岗岩台面的斑点图案等细节。在文字识别任务中,它能够准确读取图像中的笑话内容,展现出了优秀的光学字符识别能力。
在文字到图像生成方面,Ovis-U1能够根据各种复杂的文字描述创作出高质量的图像。研究团队展示的样例包括科幻风格的水下城市、优雅的蝴蝶图案、温馨的咖啡杯静物、时尚的绿色连衣裙人物、抽象的艺术肖像等各种不同风格和主题的作品。这些生成的图像不仅在技术质量上表现出色,在艺术表现力方面也很有吸引力。
在图像编辑功能上,Ovis-U1展现出了精确的局部修改能力。它能够根据指令将长椅的材质替换为大理石,让人物表情变得快乐,将背景换成森林场景,将图像转换为涂鸦风格,移除花生等物品,将夜景转换为白天场景,应用水彩画风格,在背景中添加现代摩天大楼,修改背景颜色并添加金色边框,甚至能够将图像中的狗替换为从车窗伸出的向日葵等复杂操作。
特别值得注意的是,Ovis-U1在处理这些任务时表现出了很好的指令理解能力和执行精度。它能够准确理解用户的编辑意图,并在保持图像其他部分不变的同时,精确地执行指定的修改操作。
七、分类器自由引导:给AI创作过程加上"调节器"
在图像编辑功能中,Ovis-U1采用了一种叫做"分类器自由引导"的技术,这个技术就像给AI的创作过程装上了两个可调节的旋钮。一个旋钮控制生成的图像与原始图像的相似程度,另一个旋钮控制生成结果对文字指令的遵循程度。
研究团队通过大量实验发现,这两个"旋钮"的设置会显著影响最终的编辑效果。当图像相似度参数设置得较高时,生成的图像会保留更多原始图像的细节;当文字遵循度参数设置得较高时,模型会更严格地按照编辑指令执行操作。
有趣的是,Ovis-U1对这些参数变化表现出了很好的鲁棒性,即使参数设置有所变化,结果的差异也保持在合理范围内。这种稳定性对于实际应用来说非常重要,因为用户不需要花费大量时间来调试参数就能获得满意的结果。
研究团队发现,在不同的测试基准上,最优的参数设置可能略有不同,但总体而言,模型都能保持稳定的高水平表现。这种灵活性使得Ovis-U1能够适应各种不同的应用场景和用户需求。
八、统一训练的相互促进效应
Ovis-U1最重要的发现之一是不同任务之间的相互促进效应。传统观念认为,让AI同时学习多种不同的任务可能会导致"样样通,样样松"的问题。但Ovis-U1的实验结果却显示了相反的情况:统一训练实际上能够提升模型在各个单项任务上的表现。
在理解能力方面,采用统一训练的Ovis-U1比只进行理解任务训练的基线模型获得了明显的性能提升。这说明学习生成任务能够帮助模型更好地理解图像内容,就像学会画画的人往往能更敏锐地观察和理解视觉细节一样。
在生成能力方面,研究团队发现不同训练阶段都对最终性能有积极贡献。特别是在加入图像编辑任务后,模型的文字到图像生成能力也得到了提升。这种现象表明,各种视觉生成任务之间存在共同的底层机制,掌握一种技能有助于提升其他相关技能。
这种相互促进效应为AI模型的未来发展指明了一个重要方向:与其追求单一任务的极致性能,不如通过多任务学习来实现更全面、更智能的AI系统。这种思路不仅能够提升模型的综合能力,还能够提高参数使用效率,在相同的模型规模下实现更强的功能。
说到底,阿里巴巴团队通过Ovis-U1向我们展示了一种全新的AI发展思路。这个只有36亿参数的"小个子"模型,通过巧妙的架构设计和创新的训练策略,实现了在多个任务上都不输于专业模型的综合表现。更重要的是,它证明了不同AI能力之间存在相互促进的关系,为未来开发更强大、更全面的AI系统提供了宝贵的经验。
归根结底,Ovis-U1的成功不仅仅在于它优秀的性能表现,更在于它所代表的技术发展方向。随着AI技术的不断进步,我们可能会看到更多这样的"全才"AI出现,它们能够在保持高效的同时处理更多样化的任务。对于普通用户来说,这意味着未来我们可能只需要一个AI助手就能完成图像理解、创作和编辑的各种需求,而不需要在不同的专业工具之间切换。
当然,研究团队也坦承Ovis-U1还有一些需要改进的地方。比如,相比于更大规模的模型,它在某些复杂任务上可能还存在一定差距;在图像生成质量方面,较小的模型规模也可能导致一些伪影和幻觉问题。此外,目前的模型还缺少强化学习阶段,这在大模型优化中通常是一个重要环节。
展望未来,研究团队计划从几个方向继续改进。首先是扩大模型规模,通过增加参数数量来提升图像生成质量和减少伪影。其次是改进训练数据,收集和整理更多高质量、多样化的数据,特别是交错的图像文本内容。第三是创新架构设计,开发专门针对统一模型的优化结构,特别是改进视觉编码器解码器结构以保持输入图像的精细细节。最后是探索如何将强化学习应用到统一的多模态模型中,以便更好地与人类偏好对齐。
研究团队还提到了开源的重要性。通过开源Ovis-U1,他们希望能够推动整个AI社区在统一多模态模型方向的发展,鼓励更多研究者参与到这个有趣而充满挑战的领域中来。毕竟,AI技术的进步需要整个社区的共同努力,只有通过开放合作,我们才能更快地实现真正智能的AI系统。
想要深入了解技术细节的读者,可以访问GitHub项目页面(https://github.com/AIDC-AI/Ovis-U1)获取代码和更多信息,或者通过HuggingFace模型库(https://huggingface.co/AIDC-AI/Ovis-U1-3B)直接体验这个模型的能力。
Q&A Q1:Ovis-U1和其他AI模型相比有什么特别之处? A:Ovis-U1最大的特点是"一专多能",它能同时完成看图说话、根据文字画图和编辑图片三项任务,而且每项任务的表现都很出色。更重要的是,它只有36亿参数,比很多专业模型都要"轻量",但性能却不输给那些专门做单一任务的大模型。
Q2:统一训练是什么意思?为什么这种方法更好? A:统一训练就是让AI同时学习多种不同的技能,而不是一次只学一种。研究发现,当AI同时学习看图和画图时,它在每个方面的表现都会比单独学习时更好,就像同时学习弹琴和唱歌的人对音乐理解更深刻一样。
Q3:普通人能使用Ovis-U1吗?如何获取这个模型? A:是的,Ovis-U1是开源的。技术爱好者可以通过GitHub(https://github.com/AIDC-AI/Ovis-U1)获取源代码,或者通过HuggingFace平台(https://huggingface.co/AIDC-AI/Ovis-U1-3B)直接下载和使用模型。不过目前主要面向开发者和研究人员,普通用户可能需要一定的技术基础才能部署使用。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了SPIRAL框架,通过让AI与自己对弈零和游戏来提升推理能力。实验显示,仅训练AI玩简单扑克游戏就能让其数学推理能力提升8.6%,通用推理提升8.4%,且无需任何数学题目作为训练材料。研究发现游戏中的三种推理模式能成功转移到数学解题中,为AI训练提供了新思路。
同济大学团队开发的GIGA-ToF技术通过融合多帧图像的"图结构"信息,创新性地解决了3D相机噪声问题。该技术利用图像间的不变几何关系,结合深度学习和数学优化方法,在合成数据集上实现37.9%的精度提升,并在真实设备上展现出色泛化能力,为机器人、AR和自动驾驶等领域提供更可靠的3D视觉解决方案。
伊利诺伊大学研究团队通过对比实验发现,经过强化学习训练的视觉语言模型虽然表现出"顿悟时刻"现象,但这些自我纠错行为并不能实际提升推理准确率。研究揭示了AI模型存在"生成-验证差距",即生成答案的能力强于验证答案质量的能力,且模型在自我验证时无法有效利用视觉信息,为AI多模态推理发展提供了重要启示。
MIT等顶尖机构联合提出SparseLoRA技术,通过动态稀疏性实现大语言模型训练加速1.6倍,计算成本降低2.2倍。该方法使用SVD稀疏性估计器智能选择重要计算部分,在保持模型性能的同时显著提升训练效率,已在多个任务上验证有效性。