微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 北京人工智能研究院推出OmniGen2:一个模型搞定所有图像生成任务的全能选手

北京人工智能研究院推出OmniGen2:一个模型搞定所有图像生成任务的全能选手

2025-06-26 19:51
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-26 19:51 科技行者

这项由北京人工智能研究院的吴晨原、郑鹏飞、闫瑞然、肖世涛等研究团队共同完成的突破性研究,发表于2025年6月,论文标题为《OmniGen2: Exploration to Advanced Multimodal Generation》。感兴趣的读者可以通过arXiv:2506.18871v1访问完整论文,或者访问项目页面https://vectorspacelab.github.io/OmniGen2以及GitHub仓库https://github.com/VectorSpaceLab/OmniGen2获得更多资源。

要理解OmniGen2的重要性,我们可以把现在的AI图像生成比作一群各有专长的厨师。有的厨师只会做中餐,有的只会烘焙,有的只会改良现有菜品。当你想要一顿完整的晚餐时,就需要在不同厨房之间跑来跑去,既麻烦又费时。而OmniGen2就像是一位全能大厨,能够独自完成从前菜到甜点的所有料理,还能根据你的要求即时调整菜品风格。

与之前的版本OmniGen相比,OmniGen2采用了一种全新的"双厨房"设计理念。传统的方法就像让同一个厨师既要处理文字菜单又要制作图像菜品,结果往往顾此失彼。而OmniGen2则设置了两个专门的工作台:一个专门处理文字理解和生成,另一个专门负责图像创作。这种分工让每个部分都能发挥最佳水平,就像让专业的面点师傅专心做面食,让炒菜师傅专心掌勺一样。

研究团队在数据准备方面也下了一番苦功。他们不满足于现有的"半成品食材",而是从头开始构建了一套完整的"食材供应链"。特别是在图像编辑和情境生成方面,他们开发了从视频中提取高质量训练数据的方法,就像从新鲜农场直接采摘蔬菜,而不是使用冷冻食品。

更令人惊喜的是,OmniGen2还具备了"自我反思"的能力。当它生成一张图像后,能够像经验丰富的大厨一样品尝自己的作品,发现不足之处并主动改进。比如当你要求"一张有四个红苹果的图片",它生成的图片只有三个苹果时,OmniGen2会自动意识到这个问题,然后重新制作一张符合要求的图片。

为了全面评估这种"情境理解"能力,研究团队还专门设计了一套名为OmniContext的评测标准。这就像为大厨设计了一套全面的烹饪考试,包含了人物、物品、场景等各种复杂情况的测试。结果显示,OmniGen2在这些测试中表现优异,特别是在保持角色一致性方面达到了开源模型中的最高水平。

一、双轨制设计:让专业的人做专业的事

OmniGen2最核心的创新在于它的双轨制架构设计。这种设计思路源于一个简单而深刻的观察:让同一套系统既要精通文字处理又要擅长图像生成,就像要求一个人既是莎士比亚又是达芬奇,实际上是强人所难的。

研究团队通过大量实验发现了一个有趣的现象。当他们尝试用更强大的语言模型替换原有系统时,图像生成质量竟然下降了。这就好比一个顶级的文学评论家未必能画出好画,甚至可能因为过于注重文字的精确性而束缚了视觉创作的自由度。

基于这个发现,OmniGen2采用了"术业有专攻"的策略。它设置了两条完全独立的处理路径:一条专门负责自回归文本建模,另一条专门处理扩散图像生成。这两条路径各自使用独立的参数,互不干扰,就像交响乐团中小提琴手专注于弦乐部分,而不需要兼顾打击乐器一样。

在图像编码方面,OmniGen2也采用了分层处理的策略。系统使用视觉变换器(ViT)来理解图像的语义内容,同时使用变分自编码器(VAE)来捕捉图像的细节特征。这种双重编码就像人类既用眼睛看整体构图,又用放大镜观察细节纹理。ViT负责理解"这是一只猫坐在沙发上",而VAE则关注"猫毛的质感"和"沙发布料的纹理"。

特别值得一提的是OmniGen2的位置编码创新。传统的位置编码就像给每个像素点编号,但在复杂的多图像任务中,这种简单编号会造成混乱。OmniGen2设计了一种三维位置编码系统,叫做Omni-RoPE。这个系统为每个图像分配唯一的身份标识,同时在图像内部使用局部坐标系。这就像给每栋建筑一个门牌号,同时在建筑内部使用楼层和房间号的组合编码,既能区分不同建筑,又能精确定位建筑内的具体位置。

二、数据工厂:从源头保证食材新鲜

数据质量对AI模型的重要性,就如同食材新鲜度对美食的重要性。研究团队发现,现有的开源数据集就像超市里打折的隔夜蔬菜,虽然便宜易得,但质量堪忧,特别是在图像编辑和情境生成任务上。

为了解决这个问题,研究团队建立了一套完整的"数据农场"。他们的核心思路是从视频中提取高质量的训练样本。视频天然包含了同一对象在不同条件下的多种表现,就像一个人在不同灯光、不同角度下的连续照片,为模型提供了丰富的学习素材。

在情境生成数据的构建过程中,研究团队设计了一套精密的流水线。首先,他们从视频中提取关键帧,然后使用Qwen2.5-VL-7B模型识别画面中的主要对象。这就像让一个经验丰富的摄影师从大量照片中挑选出最具代表性的几张。接下来,他们使用GroundingDINO技术精确定位对象的位置,再用SAM2技术进行对象分割和跟踪。

整个过程还加入了严格的质量控制环节。系统会使用多重过滤机制确保提取的对象确实是同一个,避免将相似但不同的对象误认为是同一个。这就像在生产线上设置多道质检关卡,确保每一件产品都符合标准。

在图像编辑数据方面,研究团队采用了一种巧妙的"逆向工程"方法。他们不是先有编辑指令再生成对应的图像,而是先制作图像对,然后让AI模型观察两张图像的差异并描述编辑过程。这种方法避免了指令与实际效果不匹配的问题,就像让厨师品尝两道菜的区别,然后描述如何从第一道菜改进到第二道菜。

特别创新的是反思数据的构建。研究团队让模型生成图像后,再让它自己评判生成结果是否符合要求。如果发现问题,模型需要分析错误原因并提出改进方案,然后重新生成。这个过程就像让学生不仅要完成作业,还要自己批改作业并总结错误,从而培养自我改进的能力。

三、全能测试:OmniContext基准的诞生

为了全面评估OmniGen2的能力,研究团队意识到现有的评测标准就像用小学数学题来考察大学生,既不够全面也不够深入。特别是在情境生成能力的评测上,市面上缺乏一套像样的"综合考试"。

于是,研究团队开发了OmniContext基准测试。这套测试就像为AI设计的"全能竞赛",涵盖了人物、物体、场景三大类别,总共八个细分任务。每个任务都有50个精心设计的测试案例,确保覆盖各种复杂情况。

测试的设计理念很巧妙。它不仅要求模型生成好看的图像,更要求生成的图像在内容上高度准确。比如,给模型看一张小女孩的照片,然后要求生成"这个小女孩在海边堆沙堡"的场景。模型不仅要生成一张质量上佳的海边图片,还要确保图片中的小女孩确实是输入照片中的那个孩子,而不是另一个相似的小孩。

评测过程采用了GPT-4.1作为"考官"。这个AI考官会从两个维度打分:一是"指令遵循度",看生成的图像是否按照要求完成了任务;二是"主体一致性",检查生成图像中的人物或物体是否与参考图像保持一致。这种评测方式比传统的数值指标更接近人类的判断标准。

测试结果显示,OmniGen2在这套严格的考试中表现出色,总分达到7.18分(满分10分),在开源模型中排名第一。特别值得一提的是,OmniGen2在处理多对象组合任务时表现尤为突出,展现了优秀的"情境理解"能力。

四、反思机制:会自我改进的AI

OmniGen2最令人印象深刻的功能之一是它的自我反思能力。这种能力让AI不再是一个"一次性"的工具,而是一个能够持续改进的"学习伙伴"。

反思机制的工作原理很有趣。当OmniGen2生成一张图像后,它会像一个严格的老师一样检查自己的作品。如果用户要求"一张有四个红苹果的图片",而生成的图片只有三个苹果,系统会自动识别这个问题,并分析:"描述中提到四个苹果,但图像中只显示三个,需要再添加一个苹果。"然后系统会基于这个分析重新生成图像。

这种反思过程是可以多轮进行的。如果第二次生成的图像仍有问题,系统会继续反思和改进,直到达到满意的结果或者确认已经符合要求。整个过程就像一个认真的学生反复修改作文,每次都针对发现的问题进行具体改进。

研究团队发现,这种反思机制在处理颜色、数量、形状等具体要求时特别有效。比如用户要求"黄色的西兰花",如果系统生成了绿色的西兰花,反思机制会准确识别颜色错误并进行修正。同样,在数量要求上,如果要求"三块披萨"却只生成了一块,系统也能准确发现并补充。

不过,研究团队也诚实地指出了反思机制的局限性。有时候系统会"过度反思",对本来正确的结果提出不必要的修改意见。这就像一个过于严格的完美主义者,有时会对已经很好的作品吹毛求疵。另外,在处理一些简单指令时,反思机制可能会增加不必要的复杂性。

尽管如此,反思机制的引入标志着AI图像生成技术的一个重要进步。它让AI从"被动执行"转向"主动优化",这种转变的意义不仅仅在于技术层面,更在于它展示了AI系统向更智能、更自主方向发展的可能性。

五、性能表现:数据说话的实力证明

OmniGen2的实际表现就像一场全能比赛的成绩单,在多个项目上都展现了强劲实力。在视觉理解能力测试中,OmniGen2在MMBench上得到79.1分,在MMMU测试中获得53.1分,在MM-Vet评估中达到61.8分。这些成绩虽然不是最顶尖的,但考虑到OmniGen2同时还要兼顾图像生成任务,这样的表现已经相当出色。

在文字转图像的核心任务上,OmniGen2的表现更加亮眼。在GenEval测试中,它获得了0.86分的高分(满分1.0),这个成绩与参数量和训练数据都多得多的BAGEL模型(0.88分)相当接近。更令人赞叹的是,OmniGen2只使用了40亿个可训练参数和1500万张训练图片,而BAGEL使用了140亿参数和16亿张图片。这种效率差异就像一个小排量汽车跑出了大排量汽车的速度。

在DPG-Bench测试中,OmniGen2得到83.57分,同样表现优异。这个测试主要评估模型处理复杂长文本指令的能力,高分说明OmniGen2能够很好地理解和执行复杂的创作要求。

图像编辑能力的测试结果更加说明了OmniGen2的实用价值。在Emu-Edit测试中,OmniGen2在CLIP-Out指标上获得最高分0.309,这个指标衡量的是编辑结果与指令的匹配度。同时,它在CLIP-I和DINO指标上分别获得0.876和0.822的次优成绩,这两个指标评估的是对未编辑区域的保护程度。这种平衡表现说明OmniGen2既能准确执行编辑指令,又能很好地保持图像其他部分不受影响。

在ImgEdit-Bench这个更全面的编辑测试中,OmniGen2取得了3.44分的总成绩,在开源模型中名列前茅。特别值得一提的是,在动作修改这个细分任务上,OmniGen2获得了4.68分的高分,展现了从视频数据中学习的优势。

最引人注目的是在OmniContext基准测试中的表现。OmniGen2作为第一个在该基准上测试的模型,就取得了7.18分的优异成绩。在单一对象任务中获得7.81分,多对象任务中获得7.23分,场景任务中获得6.71分。这种全面而均衡的表现,证明了OmniGen2在情境生成方面的强大能力。

与闭源商业模型相比,OmniGen2在某些方面仍有差距。比如GPT-4o在OmniContext测试中获得了8.80分的更高成绩。但考虑到OmniGen2是完全开源的,任何人都可以下载使用和改进,它的价值远不止性能数字那么简单。

六、实际应用:从实验室到现实世界

OmniGen2的强大功能在实际应用中展现出了广阔的前景。在文字转图像方面,它能够处理各种复杂的创作需求,从简单的物体描述到复杂的场景构建,都能生成高质量的结果。更重要的是,它支持不同的图像比例,从方形到宽屏,从竖版到横版,都能很好地适应。

在图像编辑领域,OmniGen2展现了令人印象深刻的灵活性。它可以进行局部修改,比如改变衣服颜色、添加装饰品;也可以进行整体风格转换,比如将真实照片转换为动漫风格;还可以进行复杂的场景替换,比如将人物从室内场景移到海边。这种全方位的编辑能力让它成为内容创作者的得力助手。

情境生成功能则为个性化内容创作开辟了新的可能性。用户可以上传自己的照片,然后让OmniGen2生成各种有趣的场景。比如,上传一张宠物猫的照片,然后要求生成"这只猫在巴黎埃菲尔铁塔前留影"的图像。这种功能对于社交媒体内容创作、个人纪念品制作等场景都有很大价值。

反思功能的实际应用价值尤其突出。在传统的AI图像生成中,如果结果不满意,用户只能重新输入指令碰运气。而OmniGen2的反思机制让整个过程变得更可控和高效。系统能够理解哪里出了问题,并主动进行改进,大大减少了用户的试错成本。

不过,研究团队也诚实地指出了一些使用限制。OmniGen2在处理中文指令时的表现不如英文指令稳定,这主要是因为训练数据中英文内容占主导地位。在处理低质量输入图像时,输出质量也会受到明显影响。另外,在处理涉及多个图像源的复杂指令时,如果指令表述不够明确,系统可能会产生混淆。

特别需要注意的是,OmniGen2在某些特定任务上还有改进空间。比如在人体形态修改方面,由于缺乏足够的训练数据,效果还不够理想。在处理一些需要精确细节的任务时,比如修改图像中的文字内容,表现也有待提升。

七、技术细节:深入了解工作原理

OmniGen2的技术架构体现了现代AI设计的智慧。整个系统基于Qwen2.5-VL-3B作为多模态理解的基础,这个30亿参数的模型负责处理文本和图像的理解任务。在训练过程中,这部分参数基本保持冻结状态,只更新新引入的特殊标记,这样既保持了原有的理解能力,又加入了图像生成的触发机制。

扩散生成部分采用了独立的变换器架构,包含32层网络,隐藏维度为2520,总计约40亿参数。这个规模的设计既保证了生成质量,又控制了计算成本。系统使用修正流(Rectified Flow)方法进行图像生成,这种方法相比传统的扩散过程更加高效。

Omni-RoPE位置编码的设计特别巧妙。它将位置信息分解为三个组件:序列和模态标识符、二维高度坐标、二维宽度坐标。对于文本标记,只使用序列标识符,自然退化为标准的一维位置编码。对于图像标记,所有三个组件都发挥作用,能够精确编码图像中每个位置的信息。

训练策略采用了分阶段的方法。首先在文字转图像任务上训练扩散模型,然后引入混合任务训练,最后进行反思能力的端到端训练。这种渐进式的训练方法确保了模型在每个阶段都能稳定学习,避免了同时学习多个复杂任务可能带来的干扰。

在推理过程中,当系统遇到特殊标记时,会自动切换到图像生成模式。MLLM产生的隐藏状态与VAE提取的视觉特征一起输入到扩散解码器中,生成最终的图像。整个过程是端到端的,用户体验流畅自然。

数据处理流程也体现了严格的质量控制。从视频中提取的每一帧都要经过多重过滤,包括DINO相似性过滤、VLM一致性检查等。这种多层过滤机制确保了训练数据的高质量,这对最终模型性能至关重要。

八、未来展望:走向更智能的多模态世界

OmniGen2的发布标志着多模态AI发展的一个重要里程碑,但它更像是一个新起点而不是终点。研究团队在论文中坦诚地分析了当前的限制,并指出了未来的发展方向。

在模型规模方面,当前的30亿参数MLLM虽然在效率上有优势,但在处理复杂推理任务时还有提升空间。研究团队计划探索更大规模的模型,同时保持系统的整体效率。这就像在汽车设计中既要提升发动机功率,又要保持燃油经济性的平衡。

数据质量的提升是另一个重要方向。虽然研究团队已经建立了从视频中提取高质量数据的流程,但在某些特定领域,比如文字编辑、人体形态修改等方面,还需要更多针对性的数据。未来的工作可能会包括更精细化的数据收集和处理方法。

反思机制的完善也是一个重要的研究方向。当前的反思系统有时会出现过度反思或者反思不准确的问题。研究团队计划引入强化学习等方法来提升反思的准确性和效率。这种改进将让AI系统变得更加智能和可靠。

多语言支持的改进也在计划之中。目前OmniGen2在处理中文等非英语指令时表现不够稳定,这主要是由于训练数据的语言分布不均匀导致的。未来的版本将加强对多语言的支持,让更多国家和地区的用户能够享受到优质的AI服务。

从更广阔的角度来看,OmniGen2代表了向通用人工智能迈进的重要一步。它展示了单一模型处理多种复杂任务的可能性,这种统一性对于构建更智能、更自然的AI系统具有重要意义。未来的AI助手可能会像OmniGen2一样,能够无缝地在不同模态之间切换,为用户提供真正智能化的服务。

更重要的是,OmniGen2的开源特性为整个AI社区提供了宝贵的资源。世界各地的研究者和开发者都可以基于这个基础进行改进和创新,这种开放合作的模式有望加速整个领域的发展进程。

说到底,OmniGen2不仅仅是一个技术产品,更是对AI发展方向的一次重要探索。它告诉我们,真正智能的AI系统应该具备统一性、适应性和自我改进的能力。虽然距离完美还有很长的路要走,但OmniGen2已经为我们展示了一个充满可能性的未来。对于普通用户来说,这意味着更强大、更易用的AI工具正在向我们走来。对于研究者来说,这提供了新的思路和平台。对于整个人工智能领域来说,这是向下一个发展阶段迈出的重要一步。

研究团队承诺将继续开源更多的模型、代码和数据集,这种开放的态度值得赞赏。毫无疑问,OmniGen2将激发更多的研究和应用,推动多模态AI技术向更高水平发展。对于关注AI发展的人们来说,这确实是一个值得期待的时代。

Q&A

Q1:OmniGen2相比其他AI图像生成工具有什么特别之处? A:OmniGen2最大的特点是"一个模型搞定所有任务",它可以同时进行文字转图像、图像编辑、情境生成等多种任务,而不需要切换不同的工具。更重要的是,它具备自我反思能力,能发现生成图像的问题并自动改进,这是其他工具很少具备的功能。

Q2:普通用户能直接使用OmniGen2吗?使用门槛高不高? A:是的,OmniGen2是完全开源的,普通用户可以通过GitHub仓库下载使用。不过目前主要面向有一定技术基础的用户,需要自己搭建运行环境。对于没有技术背景的用户来说,可能需要等待基于OmniGen2开发的更友好的应用产品。

Q3:OmniGen2的反思功能是如何工作的?会不会出错? A:反思功能让OmniGen2在生成图像后自动检查结果是否符合要求,如果发现问题(比如数量不对、颜色错误),会自动重新生成。不过这个功能也有局限性,有时会出现"过度反思"的情况,对本来正确的结果提出不必要的修改建议。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-