微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

AI也能看图学本事了！南开大学团队让机器像人一样举一反三

视觉上下文学习通用图像生成AI多任务学习

AI也能看图学本事了！南开大学团队让机器像人一样举一反三

作者：科技行者

2025-07-15 10:10

分享至：

南开大学团队开发的VisualCloze系统通过"视觉上下文学习"实现了通用图像生成，让AI能够像人类一样通过观察几个例子就学会新的图像处理任务。该系统采用统一架构处理多种任务，在风格转换、图像编辑、条件生成等方面都表现出色，并具备处理训练时未见过任务的泛化能力。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-15 10:10 • 科技行者

这项由南开大学视觉计算与图像处理实验室的李中宇、北京邮电大学的杜若艺、清华大学的燕俊成等研究者联合上海AI实验室、香港中文大学共同完成的研究发表于2025年4月，论文题为"VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning"。感兴趣的读者可以通过项目主页https://visualcloze.github.io或论文编号arXiv:2504.07960v1访问完整研究内容。

日常生活中，我们经常遇到这样的情况：看到朋友穿了一件好看的衣服，我们立刻就能想象出自己穿上会是什么样子；或者看到一幅画的绘画风格，马上就能想象出用同样风格画其他东西的效果。这种"看几个例子就能学会"的能力，对人类来说再自然不过，但对计算机来说却是一个巨大的挑战。

目前的AI图像生成技术虽然已经非常强大，比如能根据文字描述生成逼真的图片，但它们都有一个共同的局限：每种任务都需要专门训练一个模型。如果你想要一个能把照片变成卡通风格的AI，你需要训练一个专门的模型；如果你想要一个能修复老照片的AI，你又需要另一个专门的模型。这就像为了做不同的菜，你需要买不同的锅一样，既不方便也不经济。

更重要的是，当遇到训练时没有见过的新任务时，这些专用AI就束手无策了。比如，一个专门用来给黑白照片上色的AI，如果你想让它学会把彩色照片转换成素描风格，它就完全不知道该怎么办了，必须重新训练。

针对这个问题，研究团队提出了一个革命性的解决方案：让AI学会"看图学本事"。他们开发的VisualCloze系统就像一个超级聪明的学生，只需要看几个例子，就能理解你想要它完成什么任务，然后举一反三地处理新的情况。

这个系统的工作原理可以用"视觉填空题"来理解。研究团队把各种图像处理任务都转换成了一种统一的形式：给AI展示几个完整的例子，然后给它一个"不完整"的例子，让它填补空白。就像我们小时候做的填空题一样，通过前面几道完整的例题，你就能理解出题规律，然后完成最后一道题的空白部分。

举个具体例子来说明：如果想让AI学会把人物照片转换成卡通风格，研究团队会给它展示几组"原始照片→卡通风格照片"的对比例子，然后给它一张新的原始照片，AI就能自动生成对应的卡通风格图片。更神奇的是，如果你想让它学会把风景照片转换成油画风格，只需要给它展示几组"风景照片→油画风格图片"的例子，它立刻就能学会这个新技能。

一、突破传统框架的创新思路

传统的图像生成AI面临着三个核心难题，就像三座大山阻挡着通用人工智能的发展道路。

第一座大山是"任务指令"问题。现有的系统主要依靠文字描述来告诉AI要做什么，但这就像用文字向盲人描述颜色一样困难。图像处理任务往往涉及复杂的视觉概念，用语言很难准确表达。比如，当你想让AI把一张照片处理成"复古胶片风格"时，仅仅这几个字很难传达出具体的色调、对比度、颗粒感等视觉特征。这导致AI经常"理解错误"，产生与用户期望不符的结果。

第二座大山是"任务覆盖"问题。目前的训练数据就像拼图游戏中分散的碎片，不同任务之间缺乏关联性。比如，负责图像修复的数据和负责风格转换的数据完全独立，AI无法从中学到可以跨任务应用的通用知识。这就像一个学生只会做数学的加法题，遇到减法题就完全不知所措，因为老师从来没有告诉过他加法和减法之间的内在联系。

第三座大山是"架构统一"问题。不同的图像处理任务往往需要不同的网络结构，就像不同的工具适合不同的工作一样。但这意味着每当出现新任务时，研究者都需要设计新的架构，这不仅耗时耗力，还难以充分利用已有模型的强大能力。

面对这三座大山，研究团队选择了一条完全不同的路径。他们受到大语言模型成功经验的启发，决定将"上下文学习"这个在自然语言处理中大获成功的概念引入到图像生成领域。

在自然语言处理中，上下文学习已经展现出了惊人的效果。比如，当你给GPT几个翻译例子，它立刻就能学会在英语和法语之间进行翻译，即使它之前从未专门学习过这种语言对。研究团队想：既然语言AI能通过几个例子学会新任务，为什么图像AI不能呢？

但是，直接将语言中的上下文学习搬到图像领域并不容易。图像比文字复杂得多，包含的信息更丰富，处理起来也更困难。研究团队需要解决一个根本问题：如何让AI理解图像之间的关系和模式？

他们的答案是"纯视觉学习"。与其用复杂的文字描述来指导AI，不如直接用图像来"说话"。这就像教小孩学习绘画时，与其用文字解释什么是"印象派风格"，不如直接给他看几幅莫奈的作品，让他通过观察来理解这种风格的特点。

这种方法的优势是显而易见的。首先，它避免了语言和视觉之间的鸿沟，AI不需要"翻译"文字描述，而是直接从视觉例子中学习。其次，它更符合人类的学习方式——我们往往通过观察和模仿来掌握新技能。最重要的是，这种方法具有强大的泛化能力，AI可以轻松应对训练时从未见过的新任务。

二、Graph200K数据集：编织知识之网

解决了学习方式的问题后，研究团队面临第二个挑战：如何构建一个能够支持跨任务学习的数据集？

现有的图像数据集就像一个个孤立的图书馆，每个图书馆只收藏特定类型的书籍。人像处理的数据在一个"图书馆"，风景照片的数据在另一个"图书馆"，风格转换的数据又在第三个"图书馆"。这些"图书馆"之间缺乏联系，AI无法从中学到通用的知识。

为了解决这个问题，研究团队创建了Graph200K数据集，这可以比作一个超级图书馆，不仅收藏了各种类型的"书籍"，还在它们之间建立了复杂的交叉引用系统。

在这个数据集中，每张图片都不再是孤立的个体，而是一个信息丰富的"节点"。围绕每个节点，研究团队构建了49种不同类型的标注信息，涵盖了五个主要的任务类别：条件生成、身份保持、风格转换、图像编辑和图像修复。

这种设计的巧妙之处在于，它将原本分散的任务连接成了一个紧密的网络。比如，一张人物照片既可以用于"照片转卡通"的风格转换任务，也可以用于"添加帽子"的图像编辑任务，还可以用于"修复划痕"的图像修复任务。通过这种方式，AI在学习一个任务时，实际上也在为其他相关任务积累知识。

这就像学习烹饪一样。传统的学习方式是分别学习如何做川菜、粤菜、湘菜，每种菜系独立学习。但Graph200K的方式是同时学习所有菜系，并且明确标注出它们之间的关系：比如川菜和湘菜都喜欢用辣椒，粤菜和淮扬菜都注重原汁原味，等等。这样，AI在学会做麻婆豆腐的同时，也为学会做辣椒炒肉积累了基础。

数据集的构建过程也颇为精巧。研究团队以Subjects200K数据集为基础，为每张图片生成了多种类型的条件信息。比如，对于一张人物照片，他们会生成对应的边缘检测图、深度图、语义分割图等12种不同的条件信息。对于风格转换，他们会创建语义保持和语义变化两种不同类型的风格化版本。对于图像编辑，他们设计了背景保持和背景变化两种编辑策略。

更重要的是，这个数据集支持灵活的任务组合。研究团队可以通过随机采样和组合不同的标注信息，创造出多达134种高度重叠的任务。这种高度的重叠性确保了AI能够学到任务之间的共同模式，从而获得强大的泛化能力。

三、统一架构：化繁为简的智慧

解决了数据问题后，研究团队面临第三个挑战：如何设计一个统一的架构来处理所有这些不同的任务？

他们的解决方案展现了"化繁为简"的智慧。与其为每种任务设计专门的架构，他们发现了一个惊人的事实：他们的通用图像生成任务实际上可以完美地映射到图像填充任务上。

这个发现可以用"拼图游戏"来理解。在传统的拼图游戏中，你需要将散乱的碎片拼成完整的图片。而在VisualCloze系统中，AI面对的是一个特殊的拼图游戏：部分区域已经填好了（这些是输入的条件图片），AI需要填补剩下的空白区域（这就是要生成的目标图片）。

具体来说，系统会将所有相关的图片排列成一个网格布局。比如，如果是风格转换任务，网格中会包含几个完整的例子（原图和风格化后的图片），以及一个不完整的例子（只有原图，风格化图片的位置留空）。AI的任务就是观察完整的例子，理解其中的模式，然后填补空白。

这种设计的天才之处在于，它与现有的图像填充模型完全兼容。图像填充是计算机视觉中一个成熟的领域，已经有许多强大的预训练模型。研究团队选择了FLUX.1-Fill-dev作为基础模型，这是一个在图像填充任务上表现优异的开源模型。

通过这种巧妙的设计，研究团队无需从头训练一个新模型，而是可以直接在现有的强大模型基础上进行微调。这不仅大大降低了计算成本，还能充分利用预训练模型中蕴含的丰富知识。

为了处理不同尺寸图片带来的挑战，研究团队采用了3D位置编码技术。当不同的图片具有不同的长宽比时，简单的网格排列会产生问题。他们的解决方案是将这些图片沿着时间维度进行连接，就像制作动画片时将不同帧画面按顺序排列一样。这样，即使图片大小不同，AI也能正确理解它们之间的关系。

四、训练策略：循序渐进的学习过程

有了统一的架构和丰富的数据集，接下来就是训练过程。研究团队采用了一种循序渐进的训练策略，就像教小孩学习时要从简单到复杂一样。

训练过程使用了LoRA（Low-Rank Adaptation）技术，这是一种高效的微调方法。可以把它理解为"精准手术"：与其对整个大脑进行大手术，不如只对需要改进的特定区域进行精细调整。这种方法不仅降低了计算成本，还避免了过度训练可能带来的问题。

在训练时，系统会随机提供不同数量的上下文例子，最多两个例子。这种随机性确保了AI能够适应不同的情况：有时候用户只能提供一个例子，有时候能提供两个例子，AI都应该能够正常工作。

更有趣的是，研究团队在训练过程中还加入了"反向生成"的元素。也就是说，AI不仅要学会从条件生成结果，还要学会从结果推断条件。这就像让学生不仅要会做正向的数学题，还要会做逆向题一样，这种双向训练大大增强了AI的理解能力。

训练过程在8张A100 GPU上进行了20000次迭代，累计批次大小为64。研究团队使用了AdamW优化器，学习率设置为1e-4。整个训练过程采用了动态时间调节和对数正态噪声策略，这些技术细节确保了训练的稳定性和效果。

五、神奇的能力展示：超越想象的表现

经过训练的VisualCloze系统展现出了令人惊叹的能力，这些能力可以归纳为四个主要方面。

首先是"任务理解能力"的提升。在传统方法中，AI经常会出现"理解错误"的情况，比如把深度估计任务当成边缘检测任务来做。但有了视觉上下文学习，这种错误大大减少了。研究团队发现，仅仅提供一两个视觉例子，就能让AI明确理解用户的真实意图。这就像有了"翻译官"一样，消除了语言和视觉之间的误解。

其次是"举一反三"的泛化能力。最令人惊喜的是，VisualCloze能够处理训练时从未见过的任务。比如，虽然训练时只学习了侧脸到正脸的转换例子，但AI却能自动学会将正脸转换为侧脸，或者将左侧脸转换为右侧脸。这种能力就像一个学会了加法的小学生，即使没有专门学过，也能理解减法的概念。

研究团队展示了一个特别有趣的例子：多主体生成任务。虽然AI在训练时只见过单个人物的身份保持任务，但当给它展示多个人物同时出现的例子时，它竟然能够理解并完成包含多个特定人物的图像生成。这展现了视觉上下文学习的强大威力。

第三个令人印象深刻的能力是"任务融合"。VisualCloze能够将多个独立的任务合并成一个复合任务。比如，它能够同时进行深度估计、表面法向量计算和边缘检测，将三个通常需要分别处理的任务一次性完成。这就像一个多面手工匠，能够在一次操作中完成雕刻、打磨和上色三个步骤。

最神奇的是"反向推理"能力。给定一个风格化的图像，VisualCloze能够推断出原始图像和风格参考图像分别是什么样的。这种能力在训练时并没有专门学习，完全是通过视觉上下文学习自发涌现出来的。这就像一个侦探能够从犯罪现场的蛛丝马迹推断出事件的全过程一样。

六、严格的科学验证：数字说话

为了验证VisualCloze的实际效果，研究团队进行了全面的定量评估，将其与多个现有的先进系统进行了对比。

在条件图像生成任务中，研究团队使用了三个维度的评估标准：可控性、视觉质量和文本一致性。可控性衡量的是生成结果与输入条件的匹配程度，视觉质量评估生成图像的真实感和美观度，文本一致性则检查生成结果是否符合文字描述。

结果显示，VisualCloze在大多数任务上都达到或超过了专用模型的性能。特别是在深度条件生成任务中，VisualCloze的RMSE（均方根误差）从其他方法的15-25降低到了9.68，这意味着生成结果与真实深度信息更加接近。在图像去模糊任务中，VisualCloze同样表现出色，RMSE从其他方法的19-37降低到了25.57。

在风格转换任务的评估中，VisualCloze在文本一致性方面比OmniGen提高了2%，在风格一致性方面提高了3%。这些数字看似微小，但在图像生成领域，每一个百分点的提升都代表着显著的进步。

更重要的是，研究团队还验证了上下文学习数量的影响。他们发现，随着提供的例子数量增加，AI的表现会持续改善。这证明了视觉上下文学习机制的有效性：更多的例子能够帮助AI更好地理解任务要求。

在主观评估中，研究团队邀请了多位专家对生成结果进行盲评。结果显示，VisualCloze生成的图像在视觉质量、任务完成度和创意性方面都获得了较高评分。特别是在处理复杂场景和细节丰富的图像时，VisualCloze表现出了明显的优势。

七、技术细节的精妙设计

在技术实现层面，VisualCloze包含了许多精妙的设计细节，这些细节虽然看似微小，但对最终效果起着关键作用。

语言指令的设计就是一个很好的例子。虽然VisualCloze主要依靠视觉例子进行学习，但语言指令仍然发挥着重要的辅助作用。研究团队将语言指令分为三个部分：布局指令描述图像网格的排列方式，任务指令说明具体要完成的任务类型，内容指令描述目标图像的内容特征。

这种分层的指令设计就像给AI提供了一份详细的"作业说明书"。布局指令告诉AI"这些图片是怎么排列的"，任务指令说明"你需要完成什么类型的工作"，内容指令则提供"最终结果应该包含哪些要素"。三者结合，确保AI能够准确理解用户的完整意图。

在处理不同尺寸图像时，研究团队采用了巧妙的时间维度连接策略。当多张图片具有不同的长宽比时，简单的空间拼接会导致布局混乱。他们的解决方案是将这些图片沿着时间轴进行连接，就像电影胶片一样，每一帧可以有不同的尺寸，但整体序列仍然保持连贯性。

掩码策略的设计也体现了研究团队的深思熟虑。在训练过程中，系统不仅会掩盖目标位置，还会随机掩盖某些条件位置，这种策略促进了反向生成能力的发展。就像让学生不仅要会填空题，还要会逆向思考一样，这种训练方式大大增强了AI的推理能力。

八、与现有技术的深度比较

将VisualCloze与现有技术进行比较，可以更清楚地看出其独特价值。

与ControlNet、OmniControl这些专用模型相比，VisualCloze的最大优势在于通用性。专用模型就像专业工具，在特定任务上可能表现优异，但面对新任务就束手无策。而VisualCloze更像一把瑞士军刀，虽然在某个特定功能上可能不是最强的，但能够灵活应对各种不同的需求。

与OmniGen、OneDiffusion这些通用模型相比，VisualCloze的优势主要体现在学习效率和泛化能力上。这些现有的通用模型虽然也能处理多种任务，但它们主要依靠语言指令，在理解复杂视觉概念时往往力不从心。而VisualCloze通过视觉上下文学习，能够更直接、更准确地理解用户意图。

特别值得一提的是，VisualCloze相比基于FLUX.1-dev微调的版本也展现出了明显优势。研究团队同时测试了两种方案：一种是基于FLUX.1-Fill-dev的VisualCloze，另一种是基于FLUX.1-dev的修改版本。结果显示，基于填充模型的版本在大多数任务上都表现更好，这验证了将通用图像生成映射到图像填充任务的设计思路的正确性。

在计算效率方面，VisualCloze也有明显优势。由于采用了LoRA微调技术，整个训练过程只需要调整模型的一小部分参数，大大降低了计算成本。同时，由于建立在成熟的预训练模型基础上，VisualCloze避免了从头训练的巨大开销。

九、实际应用的广阔前景

VisualCloze的技术突破为实际应用开辟了广阔的前景，这些应用可能深刻改变我们的日常生活和工作方式。

在内容创作领域，VisualCloze可以成为设计师和艺术家的得力助手。设计师只需要向AI展示几个风格例子，就能快速生成大量符合要求的设计方案。这就像有了一个永不疲倦的助理，能够根据少量指导快速产出创意作品。对于小型设计工作室来说，这种技术可以大大提高工作效率，降低人力成本。

在教育培训方面，VisualCloze的"看例子学习"特性与人类的学习方式高度契合。教师可以用它来创建各种教学素材，比如通过展示几个历史事件的插画风格，快速生成整套历史教材的配图。这种应用不仅能提高教学效果，还能让教育内容更加生动有趣。

在电商和广告行业，VisualCloze可以帮助商家快速生成产品展示图片。比如，一个服装品牌只需要提供几个模特穿着样衣的照片作为例子，就能为所有新款服装快速生成标准化的展示图片。这对于需要大量产品图片的电商平台来说，无疑是一个革命性的工具。

在个人娱乐应用方面，VisualCloze可以让普通用户轻松创作个性化内容。用户可以上传几张自己喜欢的艺术风格图片，然后让AI将自己的照片转换成相同风格。这种应用门槛低、效果好，有望成为社交媒体上的新潮流。

在科研和技术开发领域，VisualCloze的通用性使其成为一个强大的研究工具。研究人员可以用它来快速验证新的图像处理想法，而不需要为每个新想法都开发专门的模型。这将大大加速计算机视觉研究的进展。

十、面临的挑战与未来发展

尽管VisualCloze展现出了惊人的能力，但研究团队也坦诚地指出了当前技术面临的挑战和限制。

稳定性问题是当前最主要的挑战之一。虽然VisualCloze在大多数情况下表现出色，但在某些特定任务上仍然存在不稳定的情况。比如，在物体移除任务中，系统的表现就不够稳定。这主要是因为物体移除需要AI不仅要理解什么需要被移除，还要合理地填补被移除物体留下的空白，这对AI的理解和创造能力都提出了很高要求。

对于未见过的任务，VisualCloze的表现虽然令人惊喜，但仍然不够稳定。系统能否成功处理新任务很大程度上取决于该任务与训练任务的相似程度，以及提供的例子是否足够清晰和准确。这就像人类学习新技能一样，有时候能够举一反三，有时候却可能理解错误。

例子质量的影响也是一个需要注意的问题。研究团队发现，不同质量的例子会对最终结果产生显著影响。如果提供的例子不够典型或者包含误导性信息，AI可能会学到错误的模式。这提醒我们，在实际应用中需要仔细选择和验证用作例子的图片。

从技术发展的角度来看，VisualCloze还有很大的改进空间。首先是扩展到更多的任务类型。虽然当前系统已经能够处理许多常见的图像处理任务，但仍有一些复杂的任务，比如3D场景理解、动态场景分析等，需要进一步的技术突破。

其次是提高学习效率。虽然VisualCloze已经能够从少量例子中学习，但如何进一步减少所需的例子数量，甚至实现"一次学习"（one-shot learning），仍然是一个有趣的研究方向。

多模态融合也是一个重要的发展方向。虽然VisualCloze主要关注视觉信息，但在实际应用中，往往需要结合文字、声音等多种模态的信息。如何有效地融合这些不同类型的信息，创建更加智能和全面的AI系统，是未来研究的重要课题。

十一、对AI发展的深远意义

VisualCloze的成功不仅仅是一个技术突破，更代表了AI发展的一个重要方向转变。它向我们展示了一种新的AI学习范式：不是通过大量数据的暴力训练，而是通过智能的例子学习来快速适应新任务。

这种范式转变对AI的普及和应用具有深远意义。传统的AI开发需要大量的专业知识、计算资源和时间投入，这使得AI技术主要掌握在少数大型科技公司手中。而基于上下文学习的AI系统大大降低了使用门槛，让更多的人能够根据自己的需求快速定制AI工具。

从更广阔的视角来看，VisualCloze体现了AI向更接近人类学习方式发展的趋势。人类之所以能够快速适应新环境、学会新技能，很大程度上依靠的就是观察、模仿和举一反三的能力。VisualCloze在图像领域实现了类似的能力，这为开发更加通用、更加智能的AI系统提供了重要启示。

这项研究还展示了跨学科合作的重要性。VisualCloze的成功结合了计算机视觉、机器学习、认知科学等多个领域的知识。这提醒我们，未来的AI突破可能更多地来自于不同领域知识的创新性结合，而不是单一技术路线的深度挖掘。

从产业发展的角度来看，VisualCloze代表的技术路线可能会催生新的商业模式和应用场景。当AI能够快速学习和适应新任务时，我们可以期待看到更加个性化、更加灵活的AI服务，这将为创业公司和中小企业提供更多机会。

说到底，VisualCloze的真正价值在于它向我们证明了AI可以变得更加智能、更加灵活。它不再是一个只会执行预设程序的机器，而是一个能够观察、学习、适应的智能体。虽然距离真正的通用人工智能还有很长的路要走，但VisualCloze无疑是这条路上的一个重要里程碑。

这项由南开大学、上海AI实验室等机构联合完成的研究，不仅在技术上取得了突破，也为整个AI社区提供了新的思路和方向。它提醒我们，有时候最大的突破不是来自于更复杂的技术，而是来自于更聪明的思考方式。正如这项研究所展示的，让AI学会"看图学本事"，可能比教会它无数种专门技能更加重要。对于那些希望深入了解这项技术细节的读者，可以通过访问项目主页https://visualcloze.github.io或查阅完整论文来获取更多信息。

Q&A

Q1：VisualCloze是什么？它能做什么？ A：VisualCloze是一个通用的AI图像生成系统，它最大的特点是能够通过"看例子学习"来完成各种图像处理任务。比如你想让它把照片转换成卡通风格，只需要给它看几个"原照片→卡通图片"的例子，它就能学会这个技能，然后处理你的新照片。它能处理的任务包括风格转换、图像编辑、图像修复、条件生成等多种类型。

Q2：VisualCloze会不会取代现有的专用AI工具？ A：短期内不会完全取代，但会改变使用方式。专用AI工具在特定任务上可能仍有优势，但VisualCloze的价值在于它的通用性和灵活性。它更像是一个多功能工具，虽然在某个特定功能上可能不是最强的，但能够快速适应新需求，特别适合那些需要处理多种图像任务的用户。

Q3：普通人如何使用VisualCloze？有什么要求？ A：目前VisualCloze还主要是一个研究项目，普通用户可以通过项目主页https://visualcloze.github.io了解技术详情。由于这是开源研究，技术人员可以基于公开的代码进行开发。对于普通用户来说，使用这种技术最简单的方式是准备几个清晰的例子图片，展示你想要的效果，然后提供需要处理的新图片。

视觉上下文学习通用图像生成AI多任务学习

分享至