微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 ByteDance Seed研究团队发布BAGEL:探索统一多模态预训练中的涌现能力

ByteDance Seed研究团队发布BAGEL:探索统一多模态预训练中的涌现能力

2025-05-26 08:20
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-26 08:20 科技行者

在人工智能研究领域,2025年迎来了一项重要突破。由ByteDance Seed团队主导的研究成果《Emerging Properties in Unified Multimodal Pretraining》(统一多模态预训练中的涌现能力)于2025年5月20日发表在arXiv预印本平台(arXiv:2505.14683v1),向公众展示了他们开发的强大开源基础模型BAGEL(Scalable Generative Cognitive Model)。这项研究由多位杰出研究者共同完成,包括Chaorui Deng、Deyao Zhu、Kunchang Li、Chenhui Gou、Feng Li、Zeyu Wang等首要贡献者,以及由Haoqi Fan担任项目负责人。研究团队来自ByteDance Seed、深圳先进技术研究院、莫纳什大学、香港科技大学和加州大学圣克鲁兹分校等多家研究机构。有兴趣深入了解的读者可以通过项目官网https://bagel-ai.org/获取更多信息。

想象一下,如果我们把传统的AI模型比作专业厨师,那么他们通常只擅长一种菜系——有些只会做中餐,有些只会做西餐。而现在,ByteDance的研究团队打造了一位全能大厨BAGEL,不仅能同时精通多种菜系,还能在烹饪过程中展现出令人惊讶的创新能力,比如根据客人的简单描述创造出全新的菜品,或者仅凭一张食物图片就能复制出相同的美味。

什么是BAGEL?简单来说,它是一个能够同时理解和生成多种模态(如文本、图像、视频)内容的AI模型。与市面上那些要么专注于理解(比如识别图片中的物体),要么专注于生成(比如根据文字描述创建图像)的模型不同,BAGEL就像是一个既能听懂你说话,又能用绘画、写作等多种方式回应你的全能伙伴。

这项研究最令人兴奋的发现是"涌现能力"(Emerging Properties)。这有点像孩子的成长过程:刚开始学习基础技能时,孩子只能分别掌握听、说、读、写等能力,但随着学习的深入,突然有一天,他们能将这些基础能力融合起来,展现出解决复杂问题的综合能力,比如能根据一篇阅读材料写出有深度的感想。同样,BAGEL在训练过程中,随着数据量和模型规模的增加,不仅提升了基础的理解和生成能力,还"涌现"出了一些研究人员都没有直接教给它的高级能力。

接下来,让我们深入了解BAGEL是如何工作的,它带来了哪些突破性进展,以及这对我们的日常生活可能产生什么影响。

一、研究背景与挑战:为什么我们需要统一的多模态模型?

在人工智能发展的漫长道路上,研究人员一直面临着一个类似"专才vs通才"的两难选择。想象一下,你是一家公司的招聘经理,你是该招聘一位精通销售但不懂市场营销的专家,还是招聘一位销售和市场营销都擅长的全能人才?在AI领域,这个问题表现为:是开发专门用于理解图像的模型和专门用于生成图像的不同模型,还是尝试创建一个既能理解又能生成的统一模型?

长期以来,AI研究遵循"专才路线"——为不同任务开发专门的模型。比如GPT系列专注于文本理解和生成,DALL-E专注于图像生成,而CLIP则专注于图像理解。这就像是一个厨房里有多位厨师,每位只负责一道菜。这种方法虽然在各个领域取得了显著成就,但也带来了明显的局限性:各个模型之间缺乏协作,用户需要同时使用多个工具才能完成复杂任务,并且模型之间的知识无法有效共享。

ByteDance Seed团队意识到,人类智能的一个关键特征是能够无缝地在理解和表达之间切换。比如当我们看到一幅画作时,不仅能理解其内容,还能描述它,甚至受到启发创作类似的作品。这种统一的理解和生成能力是实现真正通用人工智能的关键一步。

然而,创建这样的统一模型面临着巨大挑战:

首先是"优化冲突"问题。这就像是让一个学生同时精通文学和数学一样困难,因为这两个学科需要不同的思维方式和学习策略。同样,训练模型理解图像和生成图像需要不同的优化目标和学习方法,如何在一个模型中协调这些目标是一个巨大挑战。

其次是"数据结构差异"问题。理解任务通常使用配对数据(如图像及其标签),而生成任务则需要更复杂的序列数据(如一系列指令和相应的输出)。如何设计一个统一的数据格式来训练模型同时执行这两类任务?

第三是"架构设计"难题。传统的理解模型和生成模型采用不同的网络结构。理解模型通常是编码器结构,而生成模型则是解码器或扩散模型。如何设计一个能够同时有效支持这两种功能的统一架构?

ByteDance团队通过创新的方法解决了这些挑战,开发出了BAGEL模型。就像一位既能欣赏艺术又能创作艺术的全能艺术家,BAGEL能够无缝地在理解和生成之间切换,并在这个过程中展现出令人惊讶的涌现能力。

二、BAGEL的创新架构:打造AI世界的"变形金刚"

如果把传统AI模型比作只会单一技能的工具,那么BAGEL就像是一个能够根据需要变形的"变形金刚"。它究竟是如何实现这种灵活转换的呢?答案就在于其创新的架构设计。

BAGEL采用了一种名为"混合变换器专家"(Mixture-of-Transformer-Experts,简称MoT)的架构。这听起来很复杂,但我们可以用一个简单的比喻来理解:想象BAGEL像是一个拥有两位专家顾问的CEO。一位专家擅长"理解"业务(比如市场分析),另一位专家擅长"生成"业务(比如产品创新)。当CEO面对不同任务时,会选择性地咨询相应的专家,但最终决策是CEO在综合两位专家意见后做出的。

具体来说,BAGEL模型包含两个主要部分:

1. 两个变换器专家:一个专注于多模态理解(比如识别图像中的物体),另一个专注于多模态生成(比如创建新图像)。

2. 两个视觉编码器:一个用于理解视觉内容,另一个用于生成视觉内容。理解编码器负责捕捉图像的语义信息(比如"这是一只猫"),而生成编码器则关注像素级细节(比如猫毛的纹理和颜色)。

这两个专家模块通过一个巧妙的机制协同工作:共享自注意力操作。想象两位专家虽然擅长不同领域,但他们坐在同一个会议室里,能听到彼此的讨论并分享信息。这种设计使得理解和生成模块能够无缝协作,共享知识,而不是像传统方法那样彼此孤立。

研究团队在设计这种架构时面临一个关键选择:是采用"瓶颈"设计还是"无瓶颈"设计?这听起来像是一个技术问题,但实际上可以用日常生活中的比喻来理解。想象你正在组织一场大型会议,需要两个团队(理解团队和生成团队)进行交流。"瓶颈"设计就像是让两个团队通过几位代表进行沟通,信息需要压缩和提炼;而"无瓶颈"设计则像是让两个团队的所有成员都参与到同一个大会议室中,实现全面而直接的交流。

ByteDance团队选择了后者——无瓶颈设计。这种方法虽然计算成本更高,但能够保持信息的完整性,尤其是在处理复杂的长上下文多模态推理时。研究显示,这种设计确实帮助模型在大规模训练中展现出了惊人的涌现能力。

为了验证不同架构的效果,研究团队进行了对比实验。他们比较了三种设计:标准的密集变换器(所有参数都用于所有任务)、混合专家(MoE,只复制部分网络层)和混合变换器(MoT,复制全部网络层为专家使用)。结果显示,MoT架构在理解和生成任务上都取得了最佳性能。

这就像是比较三种不同的团队协作方式:一种是让所有人都成为全能选手(密集变换器),一种是设立专业顾问但大家共用基础设施(MoE),最后一种是设立完全独立的专业团队但保持高效沟通(MoT)。实验表明,最后一种方式在处理复杂多模态任务时效果最佳。

三、数据是王道:BAGEL的秘密武器

在AI世界里,有一句广为流传的格言:"模型和方法固然重要,但数据才是王道。"这就像一个厨师,无论技艺多么精湛,如果没有优质的食材,也难以做出美味佳肴。对于BAGEL这样的多模态模型来说尤其如此。

ByteDance团队意识到,要打造真正强大的统一多模态模型,关键在于构建一个能够同时支持理解和生成的高质量、多样化的训练数据集。他们的创新之处在于开发了一种名为"多模态交错数据"(Multimodal Interleaved Data)的新型数据格式。

什么是"多模态交错数据"?想象一本特殊的杂志,其中文字、图片和视频不是简单地并排放置,而是精心编排,形成一个连贯的叙事。例如,一篇关于烹饪的文章不仅包含食谱文本,还包含食材图片、烹饪过程的视频片段,以及成品的展示图。这种自然交错的格式模拟了人类在现实世界中接收信息的方式,使模型能够学习到不同模态之间的复杂关系。

ByteDance团队从两大类源头构建了这种交错数据:

1. 视频数据:视频本质上是一种天然的交错数据源。想象一部电影,它包含了时间上连续的画面、对话和声音,展现了物体如何移动、人物如何互动。团队利用公开的视频资源和两个专门数据集(Koala36M和MVImgNet2.0)来捕捉这种丰富的时空动态。从视频中,模型可以学习到物体的一致性(同一辆车在不同角度下的样子)、物理规律(物体如何运动)和时间连续性(一个动作如何自然过渡到下一个)。

2. 网页数据:现代网页通常包含文本、图像和其他多媒体元素的混合。团队利用OmniCorpus数据集,这是一个从Common Crawl中预处理的大规模网页集合,包含自然交错的文本和图像。此外,他们还纳入了开源的图像编辑数据集,这些数据集展示了如何一步步编辑和修改图像,教会模型精细的编辑行为。

数据收集只是第一步。原始数据往往包含噪声、无关内容和低质量样本。就像厨师需要仔细挑选和处理食材一样,研究团队开发了一套复杂的数据过滤管道:

对于视频数据,他们应用了时间分割(将长视频切分为有意义的片段)、空间裁剪(移除黑边和叠加物如徽标)和质量过滤(根据长度、分辨率、清晰度和稳定性筛选)。

对于网页数据,他们设计了一个两阶段过滤系统:首先使用轻量级主题选择过程(使用fastText分类器进行大规模筛选),然后应用更精细的规则过滤(如移除低质量图像、确保文本与图像的相关性等)。

收集和过滤完数据后,关键的一步是构建高质量的交错序列。对于视频数据,团队生成了连续帧之间的变化描述,捕捉物体运动、动作转换和场景变化。这些帧间描述作为学习视觉动态的时间监督信号。

对于网页数据,他们采用了"先说后示"策略:在每个图像前插入简洁的描述,作为概念性脚手架,帮助模型形成关于目标图像的概念草图,从而提高生成质量。

此外,研究团队受DeepSeek-R1的启发,用推理导向的内容丰富了交错数据,以促进多模态推理能力。他们构建了50万个推理增强示例,涵盖文本到图像生成、自由形式图像操作和抽象编辑等任务。

最终,团队构建了一个包含数万亿个标记的庞大数据集,其中包括纯文本数据、图像-文本对理解数据、图像-文本对生成数据,以及最关键的交错理解和生成数据(来自视频和网页)。这种规模和多样性的数据是BAGEL模型展现涌现能力的关键基础。

四、培养AI全能冠军:BAGEL的训练过程

训练一个统一的多模态模型就像培养一位要参加"十项全能"比赛的运动员。这位运动员需要同时精通跳高、短跑、铅球等多种完全不同的运动项目。要实现这个目标,教练需要精心设计训练计划,确保运动员在所有项目上都达到最佳状态,而不是只在某一项上出色。

ByteDance团队面临着类似的挑战:如何设计训练过程,使BAGEL模型在理解和生成这两个"项目"上都表现出色?他们采用了一个分阶段的训练策略,就像运动员的训练通常分为基础训练、专项训练和赛前准备一样。

BAGEL的训练分为四个关键阶段:

1. 对齐阶段(Alignment):这相当于运动员的基础热身。在这个阶段,团队将视觉理解编码器(SigLIP2)与语言模型(Qwen2.5 LLM)对齐。具体来说,他们只训练连接这两个组件的多层感知器(MLP)连接器,而保持视觉编码器和语言模型冻结。这个阶段只使用图像-文本对数据进行图像描述任务,每张图像都被调整为固定分辨率(378×378),以匹配预训练的SigLIP2输入大小。

2. 预训练阶段(Pre-training,PT):这相当于运动员的全面基础训练。在这个阶段,团队向语言模型添加了QK-Norm,并让除VAE外的所有模型参数都可训练。训练语料包含2.5万亿个标记,由纯文本、图像-文本对、多模态对话、网页交错和视频交错数据组成。他们采用原生分辨率策略进行多模态理解和生成,但限制了每个图像的最大长边和最小短边。

3. 持续训练阶段(Continued Training,CT):这相当于运动员的专项强化训练。与预训练阶段相比,CT阶段增加了视觉输入分辨率,这对多模态生成和理解性能都很重要。团队还战略性地增加了交错数据的采样比例,以强调跨模态推理的学习,因为此时模型的核心理解和生成能力已经变得更加稳定可靠。CT阶段消耗了约2.6万亿个标记。

4. 监督微调阶段(Supervised Fine-tuning,SFT):这相当于运动员的赛前针对性训练。在SFT阶段,团队从图像-文本对数据集和交错生成数据集中构建了高质量子集用于多模态生成。对于多模态理解,他们从LLaVA-OV和Mammoth-VL指令调整数据中过滤了一个子集。这个阶段的训练标记总数为727亿。

在所有训练阶段,团队使用了AdamW优化器,β1=0.9,β2=0.95。受启发于之前的研究,他们设置ε=1.0×10^-15以抑制损失峰值。在增加生成分辨率时,他们还将扩散时间步从1.0增加到4.0,以确保适当的噪声级别分布。他们为PT、CT和SFT阶段采用恒定学习率,这样可以轻松地扩展训练数据而无需重启训练过程。

与单独训练VLM或T2I模型不同,统一多模态预训练需要仔细调整两个关键超参数——数据采样比例和学习率——以平衡来自理解和生成任务的信号。

研究团队进行了一系列对照研究,调整多模态生成数据与多模态理解数据的比例。结果表明,将生成数据的采样比从50%("1g1u")增加到80%("4g1u")会稳步降低MSE损失,结果是0.4%的绝对减少——这在实践中对整流流模型是一个相当大的改进。相比之下,交叉熵(CE)损失在各个采样比例中没有显示出一致的模式。这些发现表明,在训练过程中应该更频繁地采样生成示例,而不是理解示例。

对于学习率的选择,团队发现更大的学习率使MSE损失收敛更快,而更小的学习率有利于CE损失。为了调和这种权衡,他们为两个目标分配了单独的加权因子。

这些精心设计的训练策略,加上创新的数据处理方法,共同打造了BAGEL的强大能力。就像一位经过科学训练计划培养出的全能冠军,BAGEL在各种多模态任务上都展现出卓越的表现。

五、令人惊叹的涌现能力:BAGEL如何超越其训练目标

在AI研究中,有一个特别令人着迷的现象叫做"涌现能力"(Emerging Properties)。这就像是当你教孩子学习基础的加减乘除后,有一天他突然能够解决复杂的应用题,而你从未直接教过他这种能力。这种能力不是被明确编程或训练的,而是随着模型规模和训练数据增加自然"涌现"出来的。

BAGEL模型展示了令人惊叹的涌现能力,这些能力远超研究团队最初的设计目标。为了理解这一现象,团队对训练过程中的历史检查点进行了详细评估,观察模型能力如何随着训练数据量的增加而演变。

他们发现不同任务表现出不同的学习动态和饱和行为。如果以达到85%峰值性能所需的标记数作为指标,研究团队观察到以下模式:

1. 基础理解和生成能力较早达到饱和:多模态理解任务在看到约0.18万亿标记后就达到了85%的性能,而生成任务则在0.68万亿标记后达到同等水平。这就像孩子先学会基础的阅读和写作,这些基础技能相对容易掌握。

2. 编辑任务需要更长时间:需要同时具备理解和生成能力的编辑任务表现出更慢的收敛速度,直到看到2.64万亿标记后才达到85%的性能。这相当于孩子需要先掌握阅读和写作后,才能发展出评论和改进文章的能力。

3. 智能编辑能力最晚出现:设计用来消除简单编辑案例并强调复杂多模态推理的"智能编辑"任务需要3.61万亿标记才能达到85%,展现出类似于涌现行为的模式。在这种情况下,模型最初显示低性能,然后在看到3万亿标记后性能逐渐并显著提高。这就像孩子突然展现出创造性写作或深度批判性思维的能力。

更有趣的是,当研究团队在3万亿标记处增加分辨率时,传统编辑任务的性能基本不受影响,但智能编辑性能继续显著提高——从15分增加到45分,在后期训练阶段翻了三倍,突显了其对统一多模态推理的依赖性。

研究团队还发现,理解能力,特别是视觉输入,在多模态推理中起着关键作用:移除ViT标记对GEdit-Bench几乎没有影响,但导致智能编辑任务的表现下降16%,这突显了视觉-语义推理在复杂编辑任务中的重要性。

除了量化评估,研究团队还通过检查不同训练检查点的生成输出来观察质量上的涌现行为。他们发现,生成质量在1.5万亿标记前就已经很强,在3.0万亿标记后使用更高分辨率训练时有小幅质量提升。文本渲染能力,如正确生成"hello"和"BAGEL"的拼写,则出现得更晚——大约在1.5万亿到4.5万亿标记之间。

智能编辑任务的质性可视化也展示了明显的涌现行为。与传统编辑不同,智能编辑通常需要基于多模态推理生成全新概念,而不仅仅是对输入图像进行部分修改。在3.5万亿标记之前,模型倾向于复制输入图像并只做最小的更改——这是一种在任务没有被完全理解时的回退策略。然而,在看到3.5万亿标记后,模型开始展示出清晰的推理能力,产生连贯且语义上适当的编辑,与图7中观察到的涌现行为一致。

这些涌现能力使BAGEL能够执行各种令人印象深刻的任务,从基本的图像生成和理解,到复杂的图像编辑、多视图合成和世界导航——这些能力构成了超越传统图像编辑模型范围的"世界建模"任务。

六、超越竞争对手:BAGEL的实际表现

想象一场AI的奥林匹克运动会,各种模型在不同项目上竞争。BAGEL作为一个统一的多模态模型,是如何与那些专门设计用于单一任务的"专业选手"相比的呢?ByteDance团队进行了全面的评估,结果令人印象深刻。

首先,在图像理解方面,研究团队使用了六个广泛使用的基准测试:MME、MMBench、MMVet、MMMU、MathVista和MMVP。这些测试共同提供了一个简洁但全面的测试平台,涵盖了感知、认知和多模态推理能力。

在可比的7B激活参数规模下,BAGEL在理解任务上优于现有的统一模型。例如,在MMMU和MM-Vet上,BAGEL分别比Janus-Pro提高了14.3和17.1个百分点。值得注意的是,虽然MetaQuery-XL的表现也很强,但它依赖于冻结的预训练Qwen2.5-VL主干,限制了其适应性。更令人惊讶的是,BAGEL在这些基准测试中的大多数表现优于专门设计用于理解的模型,如Qwen2.5-VL和InternVL2.5,这表明MoT设计有效地缓解了任务冲突,同时保持了强大的视觉理解能力。

在图像生成方面,研究团队使用了两个基准:GenEval和WISE。在相同的评估设置下,BAGEL达到了88%的总体得分,优于专门的生成模型(FLUX-1-dev:82%,SD3-Medium:74%)和统一模型(Janus-Pro:80%,MetaQuery-XL:80%)。即使没有LLM重写器,BAGEL也达到了82%,超过了之前最先进的统一模型Janus-Pro-7B。在WISE基准上,BAGEL超过了除领先的专有模型GPT-4o之外的所有先前模型,这表明BAGEL具有强大的推理能力和世界知识。

研究团队还进行了BAGEL与Janus-Pro 7B、SD3-medium和GPT-4o的定性比较。如图10所示,BAGEL生成的图像质量显著高于Janus-Pro 7B,也超过了广泛使用的专业文本到图像模型SD3-medium。此外,它原生支持中文和英文提示,并允许以任意宽高比生成图像。

在图像编辑方面,研究团队使用GEdit-Bench评估BAGEL的古典图像编辑能力。BAGEL的表现与当前领先的专业图像编辑模型Step1X-Edit相当,并且优于Gemini 2.0。此外,团队还在新提出的IntelligentBench上报告了结果,BAGEL获得了44.9分的表现,显著超过了现有的开源Step1X-Edit模型30分。

研究团队还在各种图像编辑场景中提供了定性比较,对比了BAGEL与Gemini 2.0、GPT-4o、Step1X-Edit和IC-Edit。如图所示,BAGEL在各种编辑任务中始终表现出比Step1X-Edit和IC-Edit更优秀的性能,并且也超过了Gemini 2.0的能力。虽然GPT-4o成功处理了这些场景,但它往往会对源图像进行非预期的修改,这是BAGEL有效避免的问题。

此外,研究团队还验证了推理增强生成在各种基准测试中的有效性。对于文本到图像任务,使用显式思维链(CoT)推理过程的BAGEL在WISE上达到了0.70的得分,超过了非CoT对应物0.18,并且也大大超过了所有现有开源模型(之前的最高水平:MetaQuery-XL为0.55)。同样,在IntelligentBench上,将CoT纳入BAGEL将其智能得分从44.9提高到55.3。这种性能提升主要归因于推理的引入,使模型能够利用世界知识并提供详细的编辑指导。

最后,为了提高BAGEL的世界建模能力,研究团队通过增加训练配方中视频和导航数据的比例对模型进行了微调。在图14中,团队展示了BAGEL在导航、旋转和多帧生成等世界建模能力方面的示例。BAGEL展示了强大的世界理解和模拟能力,能够按照输入指令生成动态数量的图像,用于导航和旋转输入图像等任务,或基于给定提示生成多个图像。此外,BAGEL还展示了世界理解方面的强大泛化能力。例如,虽然它仅在真实世界街道导航上进行训练,但它无缝地扩展到各种领域,如水墨画、卡通和视频游戏。

综合来看,BAGEL在各种多模态任务上的表现令人印象深刻,不仅与专门设计的模型相媲美,在许多情况下甚至超越了它们。这表明统一的多模态模型不仅可行,而且可以成为未来AI研究和应用的有力方向。

七、未来展望:BAGEL开启的可能性

BAGEL模型的成功不仅仅是技术上的突破,它开启了一系列激动人心的可能性,就像一把钥匙打开了通往未来的大门。让我们一起展望BAGEL及其背后的统一多模态方法可能带来的变革。

首先,BAGEL模型的开源性质是一个重大贡献。与专有系统相比,开源模型允许更广泛的研究社区参与、贡献和改进。ByteDance团队不仅分享了模型的代码和检查点,还详细说明了关键发现、预训练细节和数据创建协议。这种开放性为多模态研究创造了更多机会,可能催生新一代更强大、更灵活的AI系统。

其次,BAGEL的涌现能力表明,随着数据规模和模型容量的增加,我们可能会看到更多意想不到的能力出现。就像超过某个临界点的水突然变成蒸汽一样,当AI系统超过某个规模阈值时,可能会展现出质的飞跃。BAGEL的经验表明,这些涌现能力不仅限于语言模型,也存在于多模态系统中。

第三,BAGEL展示的世界建模能力开辟了新的应用可能性:

1. 增强人机交互:能够理解和生成多种模态的AI可以创造更自然、更直观的人机交互体验。比如,用户可以通过自然语言描述编辑需求,AI理解后直接生成修改后的图像,无需学习复杂的编辑软件。

2. 创意助手:BAGEL可以作为创意专业人士的强大助手,帮助设计师、艺术家和内容创作者快速将想法转化为视觉作品,并允许通过自然语言指令进行精细调整。

3. 虚拟现实和增强现实:BAGEL的导航和3D操作能力可以应用于构建更逼真、更响应用户意图的虚拟环境,为元宇宙等应用奠定基础。

4. 自动化内容生成:新闻机构、营销团队和教育机构可以利用BAGEL自动生成与文本内容匹配的视觉材料,大大提高内容制作效率。

5. 辅助技术:对于视障人士,BAGEL可以提供更详细、更上下文相关的图像描述;对于有表达困难的人,它可以帮助将想法转化为视觉表示。

然而,随着这些令人兴奋的可能性而来的是重要的伦理考量。强大的图像生成和编辑能力可能被滥用于创建误导性内容或深度伪造。BAGEL的开发团队认识到这些挑战,并强调了负责任的使用和进一步研究安全措施的重要性。

此外,尽管BAGEL展现了令人印象深刻的能力,它仍有改进空间。如图17所示,涉及特定知识产权、复杂文本渲染、反事实场景、对象交换等任务对BAGEL和其他模型仍然构成挑战。与GPT-4o相比,还有明显的提升空间。BAGEL的性能可以通过多种方式增强,例如扩充含有更多文本的图像数据、增加模型容量,或在最终后训练阶段应用人类反馈强化学习(RLHF)。

ByteDance团队在论文结尾表示:"我们呈现了BAGEL,一个统一的多模态理解和生成模型,在扩大统一预训练时展现出涌现能力。BAGEL在标准多模态理解和生成基准上产生顶级性能,并以强大的世界建模和推理能力进一步区分自己。为了开启多模态研究的更多机会,我们向研究社区开源BAGEL。"

这一结语不仅总结了他们的成就,也表明了他们对开放协作和推动AI边界的承诺。随着时间的推移,BAGEL开创的道路可能会导致更加智能、更有用的AI系统,这些系统能够无缝地理解我们的世界并帮助我们以新的方式与之互动。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-