
这项由上海AI实验室、上海交通大学、悉尼大学、南京大学、香港中文大学和清华大学联合完成的研究发表于2025年10月,研究团队由辛义、秦奇、罗思琪等学者领导。有兴趣深入了解的读者可以通过论文编号arXiv:2510.06308查询完整论文。
在人工智能的世界里,通常存在着一种有趣的分工现象,就像人类社会中的专业分工一样。有些AI模型专门负责"看图说话",也就是理解图片内容并描述出来,而另一些模型则专门负责"画画",根据文字描述创造出精美的图像。然而,这种分工虽然效率高,却带来了一个问题:要完成复杂的多媒体任务时,需要多个不同的模型协同工作,就像需要请不同的专家来完成一个项目一样,既复杂又耗时。
上海AI实验室的研究团队最近开发了一个名为Lumina-DiMOO的AI模型,这个模型的特别之处在于它打破了传统的专业分工模式,成为了一个真正的"全才"。它既能像资深的艺术评论家一样深入理解图像内容,又能像技艺精湛的画家一样根据描述创作出精美的图片。更令人印象深刻的是,它的工作效率极高,在生成图像方面比传统方法快了32倍,就像从马车时代跨越到了高铁时代。
这项研究的核心创新在于采用了一种全新的技术路径,研究团队称之为"离散扩散建模"。如果把传统的图像生成比作用铅笔一笔一划地画画,那么这种新方法就像是用拼图的方式来创作,可以同时处理多个部分,大大提高了效率。同时,这种方法还让模型具备了一种独特的能力:可以根据用户的要求对图像的特定区域进行精确修改,而保持其他部分完全不变,就像是一位技艺精湛的修复师,能够在不影响整幅画作的情况下修复任何细节。
一、革命性的统一架构:打破传统AI模型的壁垒
在探讨Lumina-DiMOO的技术创新之前,我们需要理解传统AI模型面临的根本问题。当前的多模态AI系统就像是一个大型企业的不同部门,每个部门都有自己的专业领域和工作方式。图像理解部门使用一套完全不同的工作流程来分析图片内容,而图像生成部门则采用另一套截然不同的方法来创作图像。这种分工虽然让每个部门都能在自己的领域内表现出色,但当需要跨部门协作时,就会出现各种协调问题和效率瓶颈。
Lumina-DiMOO的第一个重大突破就是彻底打破了这种部门壁垒,创建了一个真正统一的工作架构。这就像是将原本分散在不同楼层的各个部门整合到一个开放式的办公空间中,让所有员工都使用同一套工作流程和沟通语言。在技术层面上,这意味着无论是理解图像还是生成图像,模型都使用同一套核心算法和数据处理方式。
这种统一架构的实现依赖于一个巧妙的设计理念。研究团队将所有的多媒体内容,无论是文字、图像还是其他类型的数据,都转换成了一种通用的"数字语言"。这就像是联合国的同声传译系统,将来自不同国家的语言都翻译成一种通用语言,让所有代表都能无障碍地交流。在这个系统中,一张图片会被分解成数千个小的"图像单词",每个单词代表图片的一个小片段或特征。同样,文字也被转换成相应的"文字单词"。这样,模型就可以用统一的方式处理各种类型的信息。
更令人惊叹的是,这种统一架构不仅仅是技术上的整合,它还带来了意想不到的协同效应。当模型在学习如何理解图像时,这种理解能力会自动提升它的图像生成质量。反过来,在练习图像生成的过程中积累的经验也会增强它对图像内容的理解深度。这就像是一个既会画画又会写诗的艺术家,绘画技巧的提升会让他的诗歌描述更加生动,而写诗时对细节的敏感又会让他的画作更加细腻传神。
这种统一架构还解决了传统多模态系统中的一个长期难题:不同模态之间的信息失真问题。在传统系统中,当信息从一个专业模块传递到另一个模块时,就像是多次转译的过程,每次转译都可能造成信息的丢失或扭曲。而Lumina-DiMOO的统一架构就像是让所有人都说同一种语言,信息传递变得直接而准确,大大减少了理解偏差和生成错误。
二、离散扩散建模:从顺序创作到并行构建的范式转变
要理解Lumina-DiMOO的第二个重要创新,我们可以把传统的图像生成方法比作用毛笔写书法的过程。传统的自回归模型就像是书法家必须严格按照笔画顺序,一笔一划地完成每个字,前一笔没有完成就无法开始下一笔。这种方法虽然能够产生优美的作品,但速度相对缓慢,而且一旦某一笔出现错误,就会影响整个字的质量。
相比之下,Lumina-DiMOO采用的离散扩散建模就像是用拼图的方式来创作艺术作品。设想你面前有一幅被分割成数千个小块的拼图,传统方法要求你必须按照固定顺序,从左上角开始一块一块地拼接。而离散扩散建模则允许你同时处理多个区域,可以先拼好天空部分,同时组装建筑物的轮廓,然后再填充细节,最后将所有部分无缝地连接在一起。
这种并行处理的能力带来的速度提升是革命性的。研究团队的测试显示,Lumina-DiMOO在生成1024×1024分辨率的图像时,速度比传统的自回归模型快了32倍。这意味着原本需要几分钟才能完成的图像生成任务,现在只需要几秒钟就能完成。这种速度优势不仅仅是技术指标的改善,它为实际应用开辟了全新的可能性,比如实时图像编辑和交互式创作。
离散扩散建模的另一个重要优势在于它的容错性和可控性。在传统的顺序生成方法中,如果生成过程中出现了错误,往往需要重新开始整个过程。而离散扩散建模就像是在组装一个复杂的机械装置,如果某个部分不满意,可以单独调整或重新制作这个部分,而不会影响其他已经完成的部分。这种特性为用户提供了前所未有的创作控制能力。
更有趣的是,这种建模方法还具有自我优化的特性。在生成过程中,模型会持续评估当前的生成质量,并动态调整生成策略。这就像是一个经验丰富的拼图高手,能够根据当前的进度和剩余的图块情况,智能地决定下一步应该优先处理哪个区域。这种自适应能力确保了生成结果的一致性和高质量。
研究团队还开发了一种创新的加速技术,称为"最大逻辑值缓存"。这种技术的工作原理类似于摄影师的取景器预览功能。在实际拍摄之前,摄影师可以通过取景器快速预览不同角度和设置的效果,只有在确定最佳方案后才按下快门。类似地,这种缓存技术能够预测哪些图像部分在后续生成步骤中不太可能发生变化,然后将这些稳定的部分缓存起来,避免重复计算,从而将生成速度进一步提升2倍。
三、多分辨率图像处理:适应真实世界的灵活性需求
现实世界中的图像就像是大自然的画廊,有横向的山水长卷,有竖直的参天古树,还有正方形的精致小品。然而,许多传统的AI图像模型就像是只能处理标准尺寸画布的画家,面对不同比例的创作需求时往往力不从心。这种局限性在实际应用中造成了很多不便,用户经常需要将图像裁剪成固定尺寸,或者接受画面扭曲的结果。
Lumina-DiMOO在这方面展现出了真正的"全能性"。它就像是一位技艺精湛的裁缝,能够根据客户的具体需求制作任何尺寸和比例的服装。无论你需要的是社交媒体上流行的正方形图片,还是手机屏幕适配的竖直图像,或者是电脑桌面使用的宽屏壁纸,Lumina-DiMOO都能够游刃有余地处理。
这种多分辨率处理能力的实现需要解决一个技术难题。传统的图像处理模型通常使用固定的位置编码系统,就像是为每个座位分配固定编号的剧院。当剧院的座位布局发生变化时,原有的编号系统就会失效。而Lumina-DiMOO采用了一种巧妙的解决方案:引入了"行结束标记"的概念。
这种设计就像是在拼图中增加了分隔线的概念。当处理一张宽屏图像时,每当一行图像块处理完毕,模型就会插入一个特殊的"换行符",告诉系统这一行已经结束,可以开始处理下一行了。这样,无论图像的宽高比如何,模型都能够正确理解图像的二维结构,确保生成结果的质量不会因为分辨率的变化而受到影响。
这种多分辨率处理能力在实际应用中带来了巨大的便利。比如,一位内容创作者可以用同一个模型为不同的社交媒体平台生成适配的图像:为Instagram创作正方形的精美图片,为抖音制作竖屏的视频封面,为微博准备横屏的头图。所有这些不同格式的内容都能保持一致的艺术风格和质量水准。
更重要的是,这种灵活性扩展了AI图像生成的应用场景。在广告设计领域,设计师可以根据不同的投放渠道需求,快速生成各种尺寸的广告图片。在建筑可视化领域,可以生成适合不同展示需求的效果图,从手机查看的小图到大型展板使用的高分辨率图像。在游戏开发中,可以为不同的游戏场景和界面元素生成相应比例的美术资源。
四、智能图像修复:精准控制的艺术创作
传统的图像编辑就像是外科手术,需要使用各种专业工具和复杂的操作步骤。即使是简单的修改,也往往需要打开厚重的图像编辑软件,学习复杂的操作界面,花费大量时间来完成。而且,很多时候用户只是想修改图片的某个小细节,却不得不面对整个软件的复杂功能。
Lumina-DiMOO带来了一种革命性的图像编辑体验,研究团队称之为"交互式修饰"。这种技术就像是拥有了一支魔法画笔,用户只需要在想要修改的区域轻轻点击或划出一个区域,然后说出自己的要求,模型就能精确地按照要求修改这个区域,而保持其他部分完全不变。
这种精确控制能力源于离散扩散建模的天然优势。当用户指定了需要修改的区域后,模型会将这个区域的内容"遮盖"起来,然后根据用户的文字描述和周围环境的上下文信息,重新生成这个区域的内容。这个过程就像是在一幅完整的拼图中取出某几块,然后根据新的要求重新设计这几块的内容,确保它们既符合新的要求,又能与周围的部分完美融合。
这种技术的应用场景非常广泛。摄影师可以用它来快速移除照片中不想要的路人或物体,然后让AI智能填充背景。室内设计师可以在现有房间照片的基础上尝试不同的装修方案,比如更换墙面颜色、替换家具样式或调整灯光效果。电商卖家可以快速更换产品照片的背景,让同一件商品适配不同的营销场景。
更令人兴奋的是,这种交互式修饰支持多轮编辑。用户可以先修改图片的一个部分,看到效果后再继续修改其他部分,逐步完善自己的创意。这就像是与一位非常有耐心的艺术家合作,可以反复讨论和调整,直到达到满意的效果。这种迭代式的创作过程让用户能够更好地探索自己的创意想法,而不必担心一次性要把所有要求都表达清楚。
研究团队特别强调,这种交互式修饰能够保证100%的区域外保真度。这意味着除了用户明确指定要修改的区域外,图片的其他任何部分都不会发生丝毫变化。这种精确控制是传统图像编辑工具难以做到的,也是许多其他AI图像生成模型的薄弱环节。
五、全面的性能表现:在多个维度上的卓越成就
评估一个AI模型的能力就像是评价一位全能运动员的水平,需要在多个不同的项目中测试其表现。研究团队在五个权威的图像生成基准测试上全面评估了Lumina-DiMOO的性能,这些测试就像是AI界的"奥运会",涵盖了从基础技能到高级应用的各个方面。
在GenEval基准测试中,Lumina-DiMOO取得了88%的综合得分,这个成绩就像是在满分100分的综合考试中获得了88分,不仅超越了所有开源的统一多模态模型,甚至超过了许多专门的图像生成模型。更令人印象深刻的是,在一些特定的子项目中,比如位置关系理解和属性绑定方面,Lumina-DiMOO的表现尤为出色。这意味着它不仅能生成美观的图像,还能准确理解和表达复杂的空间关系和物体特征。
在DPG基准测试中,Lumina-DiMOO以86.04分的成绩遥遥领先。这项测试专门评估模型对复杂提示的理解和执行能力,就像是测试一位厨师能否根据复杂的食谱制作出精美菜肴。Lumina-DiMOO在这方面的优异表现说明它能够准确理解用户的详细要求,并将这些要求转化为高质量的图像输出。
特别值得一提的是,在新发布的UniGenBench排行榜上,Lumina-DiMOO获得了71.12分的总体成绩,在所有开源多模态模型中排名第一。这个排行榜由腾讯混元团队维护和评估,涵盖了27个不同的评估维度,是目前最全面和权威的多模态模型评估平台。Lumina-DiMOO能够在如此严格和全面的评估中脱颖而出,充分证明了其技术的先进性和实用性。
在图像理解方面,Lumina-DiMOO同样表现出色。在POPE、MME-P、MMBench、SEED和MMMU等五个主要的视觉语言基准测试中,它的成绩分别达到了87.4、1534.2、84.5、83.1和58.6分。这些数字背后代表的是模型在文字识别、图像描述、数学几何理解、表格分析等各个方面的综合能力。
研究团队还特别测试了模型的生成速度。结果显示,Lumina-DiMOO在生成1024×1024分辨率图像时只需要45秒,而传统的自回归模型需要545秒,速度提升了12倍以上。当启用ML-Cache加速技术后,生成时间进一步缩短到22秒,总体速度提升达到了25倍。这种速度优势使得实时或近实时的图像生成成为可能,为交互式创作应用开辟了新的可能性。
六、训练策略:从基础学习到专业精通的四阶段培养
Lumina-DiMOO的训练过程就像是培养一位全能艺术家的教育历程,需要经过系统性的四个阶段。每个阶段都有明确的学习目标和训练重点,确保模型能够循序渐进地掌握复杂的多模态技能。
第一阶段是多模态预训练阶段,就像是让一个完全不懂艺术的学生开始接触基础的绘画和文学知识。在这个阶段,模型需要学习如何将文字和图像建立起对应关系。研究团队为此收集了约8000万对高质量的文本-图像配对数据,这些数据来源于多个可靠的数据集,包括经过重新标注的公共数据和专门为图像生成任务准备的数据。模型通过学习这些配对关系,逐渐理解文字描述与视觉内容之间的对应规律。
为了应对长视觉序列学习的复杂性,研究团队采用了渐进式训练策略。训练从低分辨率图像开始,让模型先掌握基本的图像-文本对应关系,然后逐步过渡到更高分辨率的图像。这种方法就像是学画画时先从简单的素描开始,逐步过渡到复杂的彩色绘画,确保基础技能扎实。
第二阶段是中期训练阶段,重点是整合多样化的图像到图像任务。这个阶段就像是让已经掌握基础技能的学生开始学习各种专业技巧。模型需要学会处理图像编辑、主题驱动生成、可控生成、风格转换和多视角生成等复杂任务。同时,模型还需要增强对专业视觉数据的理解能力,包括表格、图表、用户界面、数学公式和几何结构等。
在这个阶段,研究团队加入了约300万张来自各种挑战性领域的图像,这些图像都经过了专业标注。为了提高训练效率,团队对不同类型的任务采用了不同的分辨率策略:图像到图像任务使用512分辨率以应对较长的序列,而文本到图像任务使用1024分辨率以获得更好的细节表现。
第三阶段是监督微调阶段,主要目标是增强模型的指令遵循能力和整体质量。这个阶段就像是让学生开始接受一对一的专业指导,学习如何准确理解和执行具体的创作要求。研究团队构建了大量高质量的"系统提示-用户提示-回答"三元组数据,涵盖了1500万个视觉理解样本和1500万个视觉生成样本。
在训练过程中,系统提示和用户提示保持不变,只对回答部分进行掩码和损失计算。这种训练方式确保模型能够准确理解用户意图,并生成符合要求的内容。图像分辨率的处理策略与第二阶段保持一致,确保训练的连续性和稳定性。
第四阶段是Self-GRPO强化学习阶段,这是Lumina-DiMOO独有的创新训练方法。这个阶段就像是让已经掌握各种技能的艺术家开始自我反思和持续改进。该方法充分利用了统一生成和理解模型的特性,通过联合优化文本到图像生成和多模态理解任务来实现自我提升。
在这个阶段,模型会根据给定的文本提示生成多个候选图像,然后对每个图像进行一系列问答测试,评估生成图像的质量和准确性。基于这些评估结果,模型会调整自己的生成策略,优先学习那些能够产生高质量结果的生成路径。这种自我改进的机制让模型能够不断优化自己的性能,特别是在颜色理解和属性绑定方面取得了显著提升。
七、技术创新的深层影响:重新定义多模态AI的可能性
Lumina-DiMOO所代表的不仅仅是一个技术产品的成功,更是对整个多模态AI领域的深刻影响。它的出现就像是在AI发展历程中埋下了一颗重要的种子,可能会催生出一系列新的技术方向和应用模式。
从技术架构的角度来看,Lumina-DiMOO证明了统一建模方法的可行性和优越性。传统的"分而治之"策略虽然在短期内能够实现较好的性能,但在长期发展中会遇到集成复杂性和维护困难等问题。而统一建模方法就像是从分散的手工作坊升级到现代化的流水线生产,不仅提高了效率,还为后续的扩展和优化提供了更好的基础。
这种统一架构的成功应用可能会启发更多研究者探索类似的技术路径。我们可以预期,未来会有更多的AI模型采用这种统一建模的思路,不仅在视觉和语言领域,还可能扩展到音频、视频、3D建模等其他模态。这种趋势最终可能会催生出真正意义上的"全模态"AI系统,能够无缝处理人类日常交流中涉及的所有信息类型。
从应用创新的角度来看,Lumina-DiMOO的交互式修饰功能开创了一种全新的人机协作模式。这种模式不再是人类使用工具来完成任务,而更像是人类与AI助手的创意合作。用户可以提出初步想法,AI负责实现技术细节,然后用户根据结果进行调整和改进,形成一个持续的创意迭代循环。
这种新的协作模式可能会重新定义许多创意行业的工作流程。设计师不再需要花费大量时间在技术操作上,而可以将更多精力投入到创意构思和用户需求理解上。摄影师可以更专注于捕捉决定性瞬间,而将后期处理的繁琐工作交给AI助手。甚至普通用户也能够轻松地表达和实现自己的创意想法,降低了创意表达的门槛。
从社会影响的角度来看,Lumina-DiMOO这样的技术进步可能会推动内容创作的民主化进程。当高质量的图像生成和编辑不再需要专业技能和昂贵工具时,更多的人能够参与到内容创作中来。这种变化就像是从印刷机的发明到互联网的普及,每一次技术突破都会扩大信息创作和传播的参与群体。
同时,这种技术也提出了新的思考题。当AI能够如此高效地生成和编辑图像时,我们需要重新思考原创性、真实性和版权等概念的定义。社会需要建立新的规范和制度来确保这些强大工具被负责任地使用,既要保护创作者的合法权益,也要防止技术被恶意利用。
八、未来展望:迈向更智能的多模态AI时代
虽然Lumina-DiMOO已经在多个方面取得了突破性进展,但研究团队并没有停止前进的步伐。他们已经明确了下一步的发展方向,致力于将Lumina-DiMOO发展成为一个更加全面的多模态模型。
最引人注目的发展方向是向视频和音频模态的扩展。当前的Lumina-DiMOO主要处理静态图像和文本,但未来版本计划无缝整合视频、音频等动态媒体类型。这种扩展就像是从平面绘画发展到动画电影制作,需要处理时间维度的信息和更复杂的多模态交互关系。
为了实现这个目标,研究团队需要解决几个关键的技术挑战。首先是如何设计一个能够处理时间信息的通用分词器,让模型能够理解不同时刻之间的关联性。其次是如何扩展现有的模型架构来处理时间序列数据,同时保持计算效率。最后是如何开发新的训练技术来有效学习多模态时间序列的复杂模式。
另一个重要的发展方向是提升模型在低级视觉任务上的表现。目前的Lumina-DiMOO在图像超分辨率、去雾、去噪等任务上的表现还有提升空间。这些任务虽然看起来技术性较强,但在实际应用中非常重要。比如,当用户上传一张模糊的老照片希望AI帮助修复时,模型需要具备相应的图像增强能力。
研究团队还计划进一步优化模型的效率和可扩展性。虽然Lumina-DiMOO已经在速度方面取得了显著优势,但面对越来越高的分辨率要求和更复杂的生成任务,持续的效率优化仍然至关重要。这包括开发更先进的缓存和压缩技术,设计更高效的注意力机制,以及探索新的模型量化和剪枝方法。
从更长远的角度来看,Lumina-DiMOO的发展可能会推动整个AI领域向着更加统一和智能的方向发展。我们可以设想这样一个未来:AI助手不再是分散的专业工具,而是像人类一样具备综合感知和创作能力的智能伙伴。它们能够理解我们的语言、感受我们的情感、欣赏我们的创意,并且能够用各种媒体形式与我们进行丰富的交流和协作。
这种愿景的实现将对教育、娱乐、通讯、设计等各个领域产生深远影响。在教育领域,AI可以根据每个学生的学习特点创建个性化的多媒体教学内容。在娱乐领域,可以实现真正的交互式故事体验,用户的每个选择都会生成相应的视觉和听觉内容。在设计领域,可以实现实时的创意协作,设计师的每个想法都能立即转化为可视化的原型。
说到底,Lumina-DiMOO的意义不仅在于它所展现的技术能力,更在于它为我们描绘了一个更加智能、更加创意、更加协作的未来。在这个未来里,人类和AI将形成真正的创意伙伴关系,共同探索和创造前所未有的可能性。这项研究不仅推动了技术的边界,也拓展了我们对人机交互未来形态的想象空间。
当然,这样的未来也需要我们做好充分的准备。技术发展的同时,我们需要建立相应的伦理框架、法律规范和社会制度,确保这些强大的工具能够真正造福人类社会。只有在技术进步和社会发展的良性互动中,我们才能充分实现Lumina-DiMOO这样的技术创新所蕴含的巨大潜力。
Q&A
Q1:Lumina-DiMOO相比传统AI图像模型有什么优势?
A:Lumina-DiMOO最大的优势是同时具备图像理解和生成能力,打破了传统模型只能专门做一件事的局限。它的生成速度比传统自回归模型快32倍,支持任意分辨率图像处理,还能进行精确的区域编辑而不影响其他部分,就像一位既会看图又会画画的全能艺术家。
Q2:什么是离散扩散建模,为什么这种方法更快?
A:离散扩散建模就像用拼图方式创作,可以同时处理图像的多个部分,而传统方法像用毛笔写字必须一笔一划按顺序进行。这种并行处理方式大大提高了效率,让原本需要几分钟的图像生成任务缩短到几秒钟,同时还能对局部区域进行精确控制和修改。
Q3:普通用户如何使用Lumina-DiMOO的交互式修饰功能?
A:交互式修饰让图像编辑变得像聊天一样简单。用户只需在想修改的图像区域点击或划出范围,然后用文字描述想要的效果,比如"把这朵花换成红色"或"移除背景中的路人",AI就会精确修改指定区域而保持其他部分完全不变,支持多轮编辑直到满意为止。
好文章,需要你的鼓励
过去十年,终端厂商比拼的是“性能”和“参数”,如今,竞争的焦点正转向“智能程度”。
Fractal AI Research实验室开发了Fathom-DeepResearch智能搜索系统,该系统由两个4B参数模型组成,能够进行20多轮深度网络搜索并生成结构化报告。研究团队创新了DUETQA数据集、RAPO训练方法和认知行为奖励机制,解决了AI搜索中的浅层化、重复性和缺乏综合能力等问题,在多项基准测试中显著超越现有开源系统,为AI助手向专业研究工具转变奠定了基础。
快手科技与清华大学合作发现当前AI语言模型训练中存在严重的权重分配不平衡问题,提出了非对称重要性采样策略优化(ASPO)方法。该方法通过翻转正面样本的重要性权重,让模型把更多注意力放在需要改进的部分而非已经表现良好的部分,显著提升了数学推理和编程任务的性能,并改善了训练稳定性。