微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 华为团队打造"万能AI助手":EMMA让机器既会看图又会画画

华为团队打造"万能AI助手":EMMA让机器既会看图又会画画

2025-12-09 15:06
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-12-09 15:06 科技行者

这项由华为公司的何鑫、魏龙辉、欧阳建波、谢凌曦和田奇教授等人共同完成的突破性研究发表于2024年12月的arXiv预印本平台,论文编号为arXiv:2512.04810v2。有兴趣深入了解的读者可以通过这个编号查询完整论文。

在人工智能的世界里,研究人员一直在追求一个看似简单却极具挑战性的目标:创造一个真正"全能"的AI助手。就像我们希望找到一个既会做菜又会修电器的万能管家一样,科学家们也梦想着开发出既能理解图片内容,又能根据描述创作图像的统一AI系统。然而,现实中的AI往往像专业技师一样,要么专精于理解图像(比如识别照片中的物体),要么专精于生成图像(比如根据文字描述画出图片),很难在两个方面都表现出色。

华为的研究团队在这个挑战面前提出了一个创新的解决方案——EMMA(Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture),这是一个统一的多模态架构,能够同时胜任图像理解、文本到图像生成以及图像编辑等多项任务。更令人印象深刻的是,这个系统仅使用4B参数的语言模型就实现了比许多更大规模模型更优秀的性能表现。

这项研究的意义远超技术本身。对于普通用户而言,EMMA代表了一种全新的人机交互方式的可能性。未来,我们可能不再需要在不同的应用之间切换来完成不同的图像相关任务,而是可以通过一个统一的AI助手来完成从理解照片内容到创作新图像的所有需求。这种技术突破不仅能够显著提升工作效率,还可能为创意产业、教育领域以及日常生活带来革命性的变化。

一、技术创新的核心:四大突破让AI更聪明更高效

EMMA的成功并非偶然,而是建立在四个关键技术创新基础之上的。这些创新就像烹饪中的四道关键工序,每一步都至关重要,缺一不可。

首先是高效的自动编码器技术,这可以理解为一个超级压缩大师。在传统方法中,处理一张图像就像用普通快递包装一件衣服,需要很大的包装盒和大量填充物。而EMMA使用的DCAE自动编码器则像是真空压缩袋,能够将图像信息压缩到原来的三十二分之一,而且不会丢失重要信息。具体来说,一张1024×1024分辨率的图像在传统方法中可能需要几千个信息单元来表示,而EMMA只需要1024个单元就够了。这种压缩不仅大大减少了计算量,还确保了理解和生成任务能够使用相同的信息密度,就像统一了烹饪中所有食材的切块大小,让整道菜的口感更加协调。

第二个创新是通道级连接技术,这就像改变了信息传递的方式。传统方法在处理图像理解和生成信息时,就像把两个人的话逐字逐句地串联起来,结果变得冗长而低效。EMMA采用的通道级连接则更像是将两个人的核心观点融合在一起,既保持了信息的完整性,又大大提高了效率。这种方法使得EMMA在处理图像编辑任务时只需要传统方法五分之一的视觉信息量,就能达到同样甚至更好的效果。

第三个突破是共享与解耦的网络设计。这种设计哲学就像建造一栋既有公共区域又有私人空间的智能建筑。在网络的浅层部分,EMMA让不同任务共享参数,就像建筑中的公共大厅,所有住户都能使用,这样可以让不同任务相互促进、共同提升。而在网络的深层部分,EMMA为不同任务设置了独立的参数空间,就像给每个住户分配专属的私人房间,满足各自的特殊需求。理解任务更注重语义信息的提取,而生成任务则需要同时处理语义和细节信息,这种设计恰好满足了两者的不同要求。

第四个创新是专家混合机制的应用。这就像为AI系统配置了一个智能的专家调度中心。在面对不同类型的图像时,系统能够自动识别并调用最合适的专家模块。比如,当遇到科学、技术、工程或数学相关的图像时,系统会自动启用STEM专家来处理,这个专家经过专门训练,更擅长处理这类复杂的专业图像。而对于日常生活中的图像,则使用通用专家来处理。这种设计只增加了大约5000万个额外参数,相当于在原有基础上增加了不到百分之一的复杂度,却能显著提升系统在各种场景下的表现能力。

二、训练数据的精心配置:从理解到创作的完整覆盖

数据是AI系统的养料,而EMMA的训练过程就像精心调配一道营养均衡的大餐。研究团队为EMMA准备了三大类训练数据,每一类都针对特定的能力培养目标。

多模态理解数据是整个训练体系的基础部分,总计超过540万个样本。这些数据就像是给AI学生准备的各种"教科书"和"练习题"。其中包括了55.6万个对齐数据,这些数据的作用是帮助AI理解图像和文字之间的对应关系,就像学习外语时的图文对照词典。接下来是4亿个预训练数据,主要来源于大规模的开源数据集如LAION,同时研究团队还使用了重新标注技术来提升数据质量,这就像给模糊的老照片重新修复和标注说明文字。

监督微调数据包含1.2亿个高质量的图像-问题-答案三元组,覆盖了文档解析、图表识别、光学字符识别、数学问题求解等广泛领域。这些数据来自LLaVA-OneVision、FineVision等知名开源数据集,同时也包含了内部构建的数据集。为了进一步提升质量,研究团队还准备了100万个质量调优数据,这些是从监督微调数据中精选出来的高质量样本,并在各个任务间进行了平衡采样。

特别值得注意的是STEM专家调优数据,包含1500万个科学、技术、工程和数学领域的专业样本,以及300万个路由器调优数据。这些数据的作用就像给AI配备专业的科学顾问,让它能够更好地理解和处理专业领域的复杂图像。

文本到图像生成数据同样经过了精心筛选和处理。预训练阶段使用了6亿个样本,主要来自经过美学质量过滤的大规模数据集。监督微调阶段则使用了1.05亿个样本,这些样本根据图像分辨率(1K分辨率及以上)和美学评分进行筛选,在通用图像和人像图像之间保持平衡。为了解决文本渲染数据稀缺的问题,研究团队还使用最先进的生成模型合成了专门的文本渲染图像。质量调优阶段使用了15万个精选样本,确保最终模型的生成质量。

图像编辑数据的构建过程最为复杂和创新。除了利用现有的高质量数据集如X2I2和OmniEdit,研究团队还开发了一套完整的数据生成和过滤流水线。这个流水线就像一个智能的内容创作工厂,首先使用视觉语言模型为输入图像生成编辑指令,然后使用图像编辑模型生成编辑后的图像,同时生成反向编辑指令来获得反向编辑对。为了确保数据质量,系统还会使用视觉语言模型判断编辑后的图像是否符合编辑指令,对于包含人像的图像,还会进一步使用面部相似性进行过滤。

这种数据构建方式涵盖了各种编辑类型,包括对象添加、移除、替换、背景转换、色调转换和虚拟试穿等。特别地,研究团队还构建了专门的文本编辑数据流水线,首先对输入图像进行文字检测以提取文本信息,然后随机选择一个或多个单词进行替换或移除,同时生成相应的编辑指令,最后使用图像编辑模型产生编辑后的图像。

三、分阶段训练策略:从基础到专业的渐进学习

EMMA的训练过程就像培养一个多才多艺的艺术家,需要经历从基础技能学习到专业能力精进的完整过程。整个训练分为五个递进阶段,每个阶段都有明确的目标和重点。

第一阶段是对齐训练,这就像教孩子认识物品和名称之间的对应关系。在这个阶段,系统的视觉编码器和统一模型的参数被冻结,只有理解分支的适配器被训练。输入图像固定为512×512分辨率,学习率设置为0.001。这个阶段的目标是让视觉信息能够与统一模型建立基本的连接,为后续的复杂学习打下基础。而生成分支的适配器则被随机初始化,留待预训练阶段进行学习。

第二阶段是预训练,这是整个系统能力建立的关键期。除了视觉生成编码器DCAE之外,EMMA的所有参数都参与训练。输入图像对于理解和生成分支都设置为512×512分辨率,两个分支的批样本比例设为1:1,学习率降为0.0001。这个阶段就像让学生同时学习阅读理解和绘画技巧,通过大量的练习建立起基本的多模态处理能力。

第三阶段是监督微调,在这个阶段,系统开始学习处理更复杂和多样化的任务。与预训练阶段一致,除了DCAE之外的所有参数继续被调整。但有个重要变化是,理解分支开始支持原生分辨率的图像训练,而生成分支则支持根据原始宽高比缩放到最近预定义桶大小的1K分辨率图像训练。

在使用初始的理解和生成监督微调数据训练一轮后,EMMA会使用平衡采样策略进行进一步微调。对于文本到图像生成数据,系统选择约5000万个样本,在人像和通用图像之间保持1:1的比例,同时确保不同宽高比的平衡并采用基于美学的排名策略。类似地,对于图像到文本理解数据,系统采样约5000万个实例,在STEM和通用类别之间保持1:1的比例。在训练末期,系统还会加入图像编辑的监督微调数据,以1:1:1的平衡混合比例训练所有三个任务。

第四阶段是质量调优,这就像艺术家在作品接近完成时进行的精细雕琢。与监督微调阶段一致,系统在文本到图像、图像到文本和图像编辑任务之间进行1:1:1的平衡批训练,初始学习率设为0.00001。这个阶段使用精选的高质量数据,目标是进一步提升系统在各个任务上的表现质量。

第五阶段包含两个并行的专门化训练:STEM专家调优和路由器调优。在STEM专家调优阶段,只有STEM专家的参数被训练,其他参数保持冻结状态。系统使用1200万STEM数据进行训练,初始学习率设为0.000004。在路由器调优阶段,只有路由器模块的参数被训练,使用专门选择的300万数据,初始学习率设为0.0001。这两个阶段就像为通用艺术家配备专业顾问,让系统在处理特殊类型图像时能够调用专门的专业知识。

这种分阶段的训练策略确保了EMMA能够循序渐进地掌握各种能力,同时避免了不同任务之间的相互干扰。每个阶段都有明确的目标和评估标准,就像教育中的阶段性考核,确保学习效果的扎实可靠。

四、卓越性能表现:全面超越现有技术水平

EMMA在各项基准测试中的表现就像一位全能选手在多项运动中都夺得金牌一样令人瞩目。这些测试结果不仅证明了EMMA设计理念的正确性,也展示了其在实际应用中的巨大潜力。

在多模态理解任务方面,EMMA展现出了令人印象深刻的能力。以Qwen3-VL这个业界认可的强基线为例,EMMA在11个评估数据集上平均超越了0.4个百分点,在InternVL3.5上则平均超越了2.6个百分点。更令人惊喜的是,EMMA仅使用4B参数就能显著超越使用7B参数的BAGEL模型,在MMVet基准测试中取得了5.8个百分点的显著提升。这就像一个体重较轻的选手在力量竞赛中击败了更重量级的对手,充分说明了EMMA架构设计的高效性。

特别值得注意的是,当EMMA加入了专家混合机制后,其在理解基准测试中的准确性进一步提升,在11个评估数据集上平均获得了0.4%的额外收益。这种提升虽然看似微小,但在AI系统的性能评估中,每0.1%的提升都需要巨大的技术努力,这0.4%的提升实际上代表了显著的技术进步。

在文本到图像生成任务中,EMMA的表现更是令人刮目相看。在GenEval这个权威的生成评估基准上,EMMA获得了0.91的评分,这在不使用提示重写和强化学习策略的情况下是首次达到这样的高分。相比之下,BAGEL-7B只获得了0.82分,即使是参数规模达到20B的Qwen-Image也只有0.87分。这种成绩的取得证明了统一架构在文本到图像生成任务中的独特优势。

在DPG-Bench这个综合性的图像生成评估平台上,EMMA同样表现卓越,获得了85.63的总分,超越了包括BAGEL在内的所有现有统一多模态架构。更重要的是,EMMA的生成图像质量达到了专业级水平,能够准确理解和执行复杂的文本描述,生成的图像在细节处理、色彩搭配、构图布局等方面都表现出了很高的水准。

在图像编辑任务中,EMMA展现了其精确的控制能力。虽然在GEdit基准测试中EMMA相比现有统一模型的提升相对较小,但考虑到EMMA使用的图像-文本交互数据相对有限(1200万对比BAGEL的6500万),这种表现已经相当令人满意。更重要的是,EMMA在处理图像编辑任务时只需要传统方法五分之一的视觉标记来表示参考图像,这大大提高了处理效率。

特别令人印象深刻的是EMMA展现出的一些意外能力。尽管在训练过程中没有包含中文的文本到图像生成和编辑数据,EMMA却能够直接支持基于中文指令的图像生成和编辑。这种能力的出现可能归因于多模态理解数据集中包含的中文数据,使得EMMA的理解分支能够处理中文指令。

另一个令人惊喜的发现是,虽然EMMA只在单一指令编辑数据上进行训练,但它却能够执行复杂指令的编辑任务。这种能力的涌现可能得益于多模态思维链数据的作用,这些数据使得统一模型能够理解复杂指令并成功执行相应的编辑任务。

研究团队还注意到现有评估指标的一些局限性。比如在GEdit评估中,虽然许多最新方法通过整合GPT-Image-Edit-1.5M数据集来显著提升GEdit分数,但这些方法严重破坏了主体一致性。因此,研究团队认为这个数据集对基于区域的编辑任务有害,并将其从训练语料库中排除。这一观察也强调了在图像编辑评估中需要更准确评估指标的重要性,特别是主体一致性方面的评估。

五、技术细节深度解析:创新设计的精妙之处

深入了解EMMA的技术架构,就像拆解一台精密的瑞士手表,每一个组件都有其独特的设计理念和精确的功能定位。

在视觉编码器的选择上,EMMA采用了双编码器策略,分别服务于理解和生成任务。对于理解编码器,研究团队选择了SigLIP2-so400m-patch16-512作为基础,这是一个经过大量数据训练的强大视觉编码器。为了支持原生分辨率的输入图像,团队对位置嵌入进行了插值处理,使得系统能够处理各种尺寸的图像而不必强制调整到固定分辨率。

通过SigLIP2的补丁操作和像素重排策略,理解编码器实现了32倍的压缩比例。这意味着一张1024×1024分辨率的图像会被压缩成1024个视觉标记。这种压缩比例的选择并非随意,而是经过精心平衡的结果,既能保持足够的信息密度,又能确保计算效率。

对于生成编码器,EMMA使用了具有32倍压缩比的高压缩自动编码器DCAE。与其他通常采用8倍压缩比自动编码器加上2×2标记合并策略的统一架构相比,EMMA只需要四分之一的视觉标记来完成生成任务。这种设计选择看似激进,但实验结果证明,即使使用这样高的压缩比,生成质量仍然保持竞争力。

由于理解和生成编码器都使用相同的32倍压缩比,EMMA能够直接对相应的视觉标记进行通道级连接,而不是像BAGEL等先前方法那样使用标记级连接。这种设计允许EMMA有效地融合语义信息和细节信息,而不会增加视觉标记的总数,从而支持更高效的统一模型训练和推理。

在注意力策略方面,EMMA采用了混合注意力机制,这种机制能够根据不同任务的特点进行调整。对于理解任务,系统使用纯因果掩码,确保文本和视觉标记都只能关注先前的标记。这种设计符合自然语言处理中的标准做法,确保模型在理解过程中不会"偷看"后续信息。

对于生成任务,注意力策略更加灵活。文本标记仍然被限制为只能关注先前的标记,但视觉标记可以关注先前的标记以及同一图像内的其他视觉标记。这种设计允许图像生成过程中的空间信息交换,使得生成的图像能够保持内部一致性和连贯性。

在网络架构的具体实现上,EMMA采用了精心设计的参数共享和解耦机制。在浅层,系统让理解和生成分支共享查询和键的投影参数,但保持值投影参数的独立性。这种设计既允许不同任务之间的知识共享,又保持了必要的任务特异性。

在深层,系统完全分离了理解和生成分支的参数,确保每个分支都能专注于其特定的建模需求。理解任务主要关注语义建模,而生成任务需要同时处理语义和高频细节信息,这种参数分离确保了每个任务都能得到最优的参数配置。

专家混合机制的实现也颇具巧思。系统在SigLIP2的基础上增加了一个STEM专家模块,专门处理科学、技术、工程和数学相关的图像。路由器模块能够动态判断输入图像的类型,当识别为STEM数据时,会将图像分配给STEM专家处理,否则使用通用专家。这种设计只增加了约5000万参数,相对于系统总体规模来说增加幅度很小,但能显著提升在专业领域图像上的处理能力。

在数据处理和优化目标方面,EMMA采用了任务特定的策略。对于理解任务,系统使用下一个标记预测机制指导整体学习,这与标准的语言模型训练方式一致。对于生成任务,系统使用流匹配与速度预测,这是一种更适合图像生成的训练目标。

在将视觉标记输入到大语言模型之前,系统会应用二维位置编码来融入空间先验知识。随后,所有文本和视觉标记都被统一处理,使用一维RoPE位置嵌入。这种设计确保了不同模态信息的有效融合,同时保持了处理的一致性。

六、创新意义与未来展望:开启多模态AI新时代

EMMA的成功不仅仅是一项技术突破,更像是为整个AI发展史开启了新篇章的里程碑事件。这项研究的深远意义体现在多个层面,从学术研究到产业应用,从用户体验到社会影响,都将产生持久而广泛的影响。

从技术发展的角度来看,EMMA证明了统一多模态架构的可行性和优越性。过去,研究人员往往需要为不同任务开发专门的模型,就像古代手工业者需要为不同工作准备不同的专用工具。EMMA的成功表明,我们可以创造出真正的"万能工具",一个模型就能胜任多种复杂任务。这种统一性不仅提高了开发效率,更重要的是,它让不同任务之间的协同效应成为可能。

在实际应用场景中,EMMA的影响将是革命性的。对于内容创作者而言,这意味着他们可以在一个平台上完成从构思到实现的整个创作流程。比如,一个设计师可以先让AI理解现有设计的特点,然后基于这些理解生成新的变体,最后根据需求对生成的图像进行精确编辑。这种无缝的工作流程将大大提升创意工作的效率。

对于教育领域,EMMA的多语言能力特别值得关注。尽管没有在中文生成和编辑数据上进行专门训练,EMMA却能够理解和执行中文指令,这为多语言教育内容的创建提供了强大工具。教师可以用中文描述需要的教学图像,系统能够准确理解并生成相应的视觉内容,这对于语言教学和跨文化教育具有重要意义。

从商业角度来看,EMMA的效率优势可能会重塑整个AI服务产业。传统上,企业需要部署多个专门的AI模型来处理不同类型的视觉任务,这不仅增加了系统复杂性,也提高了维护成本。EMMA提供的统一解决方案能够显著降低部署和运维成本,同时提供更一致的用户体验。

研究团队在论文中特别提到的新兴能力也预示着AI发展的新趋势。EMMA能够处理复杂指令编辑任务,即使它只在单一指令数据上进行训练,这种能力的涌现表明AI系统正在向更高层次的智能演进。这就像学会了基本数学运算的学生突然能够解决复杂的应用题,显示出真正理解能力的萌芽。

然而,EMMA的成功也带来了新的挑战和思考。研究团队注意到现有评估指标的局限性,特别是在图像编辑任务中,传统指标无法很好地评估主体一致性。这提醒我们,随着AI能力的提升,评估体系也需要相应地发展和完善。

从更宏观的角度来看,EMMA代表了向通用人工智能迈进的重要一步。虽然当前的系统还主要局限于视觉和文本模态,但其统一架构的设计理念为未来整合更多模态(如音频、视频、三维空间信息)奠定了基础。我们可以想象,未来的AI系统可能能够同时处理声音、图像、文字、动作等各种信息,成为真正的通用智能助手。

对于普通用户而言,EMMA技术的成熟和普及意味着数字内容创作门槛的显著降低。过去需要专业技能才能完成的图像编辑和创作任务,未来可能只需要简单的文字描述就能实现。这种变化可能会释放人类的创造潜能,让更多人能够参与到数字内容的创作中来。

当然,这种技术进步也需要我们谨慎考虑其社会影响。随着AI生成内容质量的提升,如何区分真实内容和AI生成内容变得越来越重要。研究团队在开发EMMA时也需要考虑技术的负责任使用,确保这一强大工具能够为社会带来积极影响。

展望未来,EMMA的成功为多模态AI研究指明了方向。统一架构、高效压缩、任务协同等设计理念将继续影响后续研究。我们有理由相信,基于这些原理发展出来的下一代AI系统将在能力和效率方面实现更大突破,最终实现真正智能化的人机协作。

说到底,EMMA不仅仅是一个技术产品,更是人类探索智能本质的重要尝试。它向我们展示了统一、高效、智能的AI系统是完全可能的,也为我们描绘了一个更加智能化的未来图景。在这个图景中,人类和AI系统将能够更加自然、高效地协作,共同创造出更美好的数字世界。虽然我们距离这个理想还有距离,但EMMA的成功让我们看到了实现这一愿景的曙光。

Q&A

Q1:EMMA相比其他AI模型有什么突出优势?

A:EMMA最大的优势是用更小的模型实现了更强的性能。它只用4B参数就超越了许多7B参数的模型,而且能同时处理图像理解、生成和编辑三种任务。就像一个体积更小但功能更全面的多功能设备,效率更高、成本更低。

Q2:普通用户什么时候能用上EMMA这样的技术?

A:目前EMMA还是研究阶段的成果,但考虑到华为在AI产品化方面的实力,这项技术可能会在1-2年内以某种形式出现在消费级产品中。未来可能会集成到手机、平板等设备的AI助手功能中。

Q3:EMMA能理解中文指令是怎么实现的?

A:虽然EMMA没有专门用中文图像生成数据训练,但它在图像理解训练中接触了大量中文数据。这让它的理解模块学会了中文,然后这种能力自然地迁移到了图像生成和编辑任务上,这是AI系统智能涌现的一个有趣例子。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-