
这项由以色列理工学院的Shelly Golan、Adobe研究院的Yotam Nitzan和Zongze Wu,以及特拉维夫大学的Or Patashnik共同完成的研究发表于2024年10月,论文编号为arXiv:2510.10715v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
想象你正在教一个朋友画画,但这个朋友总是画出千篇一律的小猫小狗。每当你说"画一个有创意的宠物",他还是画出蓝色的猫或者长翅膀的狗。这正是当今AI图像生成面临的困境。无论是最先进的GPT-4o、FLUX还是Stable Diffusion,当你要求它们生成"创意宠物"时,得到的仍然是各种常见动物的变体组合。
这个问题的根源在于AI模型就像一个过度依赖经验的厨师,总是按照熟悉的菜谱做菜。它们在训练过程中见过无数张猫狗鸟鱼的图片,所以即使你要求"创新",它们也只会在这些熟悉的模式中打转。就好比你让一个只会做中餐的厨师创新,他最多也就是把宫保鸡丁改成宫保牛丁,本质上还是在原有框架内变化。
Adobe研究院的团队提出了一个巧妙的解决方案:既然AI总是倾向于生成熟悉的东西,那就在生成过程中实时告诉它"不要画这个"。这就像在厨师做菜时不断提醒他"别再放辣椒了"、"别用老套的调料",逼迫他探索全新的味道组合。
他们的方法被称为"VLM引导的自适应负向提示",听起来很复杂,但原理相当直观。在AI生成图片的每一个步骤中,都有一个"观察员"在旁边盯着,这个观察员就是视觉语言模型(VLM)。当观察员发现生成的图像开始朝着"猫"的方向发展时,就会立即在AI的"禁止清单"上加上"猫"这一项。接下来AI继续生成时,就会自动避开猫的特征。如果又发现图像开始像狗,观察员就再加上"狗"。这样一步步累积下来,AI被迫探索那些从未涉足的创意领域。
这个过程就像玩一个"不许说"的游戏。假设你要描述一个四条腿的毛茸茸动物,但不能说"猫"、"狗"、"兔子"等常见词汇,你就必须想出全新的描述方式,甚至创造出前所未有的概念。AI在这种约束下,被迫跳出舒适圈,生成真正具有创意的内容。
研究团队通过大量实验证明了这种方法的有效性。他们生成的"创意宠物"不再是蓝猫或飞狗的简单组合,而是完全无法归类到任何已知动物的全新生物。这些生物保持着作为"宠物"的基本特征——可爱、适合饲养,但在形态上完全超出了人们的想象。
一、打破AI的"舒适圈":创意生成的核心挑战
当前的AI图像生成就像一个被宠坏的孩子,总是选择最容易的路径。这些模型在训练时见过数百万张图片,学会了什么样的猫最受欢迎,什么样的车最常见,什么样的建筑最典型。因此,当你要求它们"创新"时,它们的第一反应仍然是从这些熟悉的模式中挑选和组合。
研究团队发现,即使在提示词中明确要求"创意"、"新型"或"独特",现有的AI模型仍然会生成高度典型化的内容。这就好比你告诉一个只会唱流行歌的歌手"来首有创意的歌",他最多也就是把几首熟悉的歌曲混合一下,而不会真正创作出全新的旋律。
问题的根源在于AI模型的训练目标。它们被训练来生成"好看"和"准确"的图片,而"好看"和"准确"往往意味着符合大众审美和常见认知。这种训练方式让AI变得像一个优秀的模仿者,但缺乏真正的创新能力。
更深层的问题是,创意本身就是一个悖论。真正的创意意味着偏离常规,但AI模型的工作原理恰恰是基于统计规律和常见模式。这就像要求一个严格按照交通规则开车的司机去探索从未有人走过的路径,两者在本质上存在冲突。
现有的一些解决方案要么需要大量的计算资源和时间进行优化,要么只能在预定义的概念之间进行简单组合。比如ConceptLab方法虽然能生成一些创意内容,但往往会牺牲物体的基本功能性——生成的杯子可能无法装水,沙发可能没有可坐的地方。这就像一个过分追求艺术感的设计师,创作出了美丽但不实用的作品。
二、实时"纠偏":VLM引导的创新机制
Adobe团队的解决方案就像给AI配备了一个实时的"创意导师"。这个导师不是告诉AI应该画什么,而是在关键时刻提醒它"别再走老路了"。
整个过程可以比作一次探险。AI开始时拿到的是一张模糊的地图(初始噪声),然后一步步清晰化这张地图,最终形成完整的图像。在传统方法中,AI会本能地朝着熟悉的地标前进——如果目标是"宠物",它就会朝着"猫村"或"狗镇"的方向走。
但在新方法中,每走几步就有一个向导(VLM)观察当前位置,判断AI是否又在朝老地方走。一旦发现AI开始朝"猫村"方向前进,向导就会说"这条路不行,我们已经去过太多次了",并在地图上标记这个区域为"禁区"。AI被迫改变方向,探索那些从未涉足的区域。
这个向导的特殊之处在于,它能够在地图还很模糊的时候就识别出AI的意图。就像一个经验丰富的导游,仅仅看到远处的轮廓就能判断那是什么建筑。研究显示,即使在生成过程的早期阶段,当图像还非常模糊时,VLM就能以90%的准确率预测最终的生成结果。
更巧妙的是,这个"禁区列表"是动态累积的。如果AI先是朝"猫"的方向走,被阻止后改向"狗",再次被阻止后又想去"鸟"的领域,每一次都会在禁区列表上增加新的项目。这样一来,AI的选择空间越来越小,最终被迫进入那些真正未知的创意领域。
这种方法的优雅之处在于它不需要预先定义什么是"创意",而是通过排除法让创意自然涌现。就像雕塑家米开朗基罗说的,雕塑本来就在石头里,他只是把多余的部分去掉。AI的创意也本来就存在于可能性空间中,只是被常见模式掩盖了。
三、从理论到实践:技术实现的精妙之处
将这个创意想法转化为实际可行的技术方案,研究团队面临了许多挑战。首先是效率问题。在AI生成图像的每一步都调用VLM进行分析,这就像在做菜的每个步骤都请专家来品尝,虽然能保证质量,但会大大增加时间成本。
研究团队发现了一个重要规律:创意引导主要在生成过程的前半段起作用。这就像画画时,最初的几笔决定了整幅画的基本走向,后续的细节修饰虽然重要,但不会改变根本方向。因此,他们只需要在前10-15个步骤中进行VLM引导,就能达到全程引导的效果,大大降低了计算成本。
另一个技术挑战是如何让VLM理解模糊的中间状态。传统上,VLM是用来分析清晰完整的图像,但在这里它需要分析像素化、模糊、充满噪声的中间产物。这就像要求一个医生通过模糊的X光片诊断疾病。令人惊讶的是,现代VLM在这方面表现出了超乎预期的能力,即使面对高度模糊的图像,也能准确识别出正在形成的物体类型。
在问题设计方面,研究团队发现不同的提问方式会引导AI探索不同的创意方向。如果问VLM"这是什么动物",AI会在动物种类上创新;如果问"这是什么材质",AI会在材料和质感上突破;如果问"这是什么风格",AI会在艺术表现上求新。这就像给探险者不同的指南针,每种指南针都会指向不同的未知领域。
为了处理实时性要求,团队还开发了一些巧妙的优化技巧。比如使用线性近似代替复杂的图像解码过程,这就像用简笔画代替精细素描来快速传达信息。虽然细节有所损失,但核心信息得以保留,而速度大大提升。
四、实验验证:创意的量化与评估
评估创意是一个哲学问题,更是一个技术挑战。如何判断一张AI生成的图片是否真的具有创意?研究团队采用了多维度的评估体系,就像评判一道菜需要考虑色香味形一样。
他们设计了一个大规模的人类评估实验,邀请25名参与者对3200对图像进行比较。每个参与者需要从两个维度评判图像:创意性和有效性。创意性衡量的是图像是否新颖、出人意料;有效性衡量的是图像是否仍然符合基本的类别定义——比如一个"创意杯子"再怎么创新,也应该能够装水。
结果显示,传统的"创意提示"方法(比如在提示词中加入"创意"、"新型"等词汇)确实能保持高有效性,但创意性几乎没有提升。这就像一个厨师声称要做"创新菜",但端上来的还是传统菜品的微调版本。
相比之下,现有的创意生成方法如ConceptLab能够产生较高的创意性,但往往以牺牲有效性为代价。生成的物体虽然看起来新奇,但可能失去了基本功能。这就像一个过分追求创新的设计师,设计出了美观但不实用的产品。
Adobe团队的方法在两个维度上都取得了优异表现,实现了创意性和有效性的平衡。生成的"创意宠物"中,约87%被归类为"未知"或"无法分类"的动物,这意味着它们确实超越了现有的动物类别,同时又保持着作为宠物的基本特征。
在定量分析方面,研究团队还使用了多种数学指标来衡量创意性。比如"相对典型性"指标衡量生成图像与常见类别的距离,"多样性指标"衡量生成结果的丰富程度。结果显示,新方法在所有创意相关指标上都显著优于现有方法,同时在有效性指标上保持竞争力。
五、超越单一物体:复杂场景中的创意生成
真正的创意不仅仅体现在单个物体上,更体现在复杂场景和多元素组合中。研究团队发现,他们的方法不仅能生成单个创意物体,还能在复杂的场景描述中保持创意性。
比如,当提示为"一个想象中的宠物在海岛附近冲浪"时,传统方法可能会生成一只普通的狗站在冲浪板上。而新方法会生成一个全新的生物,这个生物既具有宠物的亲和特质,又拥有适合冲浪的独特身体结构,整个场景既合理又充满想象力。
更令人印象深刻的是,该方法还能生成连贯的创意物品集合。当要求生成"创意茶具套装"时,不仅每件茶具都具有独特的设计,整套茶具还保持着统一的风格和功能协调性。这就像一个设计师不仅能设计出单件创新产品,还能创造出完整的产品系列。
在复杂提示的处理上,新方法展现出了良好的适应性。无论是"穿着创意夹克的女性在法式咖啡厅"这样的人物场景,还是"在北极盛开的新型植物旁边有企鹅"这样的自然场景,该方法都能在满足场景要求的同时,在指定的物体上实现创意突破。
这种能力的关键在于方法的"正交性"——创意引导机制与其他生成约束相互独立。就像一个多才多艺的演员,既能在喜剧中发挥创意,也能在悲剧中展现新意,而不会因为追求创新而忽略剧情要求。
六、方法的局限性与未来展望
尽管取得了显著成果,研究团队也坦诚地指出了方法的局限性。首先是计算开销问题。虽然通过优化已经将额外时间控制在13秒以内(相比基础生成的22秒),但对于需要大量生成的应用场景,这种开销仍然不可忽视。
其次是对VLM能力的依赖。创意生成的质量很大程度上取决于VLM识别模糊图像的能力。虽然实验显示现有VLM已经足够胜任,但更强大的VLM确实能带来更好的创意效果。这就像一个团队的创新能力受限于其中最有洞察力的成员。
问题设计也是一个需要人工干预的环节。不同的物体类别需要不同的提问策略,目前还没有实现完全自动化的问题生成。这就像不同的探险需要不同的向导,还无法做到一个万能向导适用所有情况。
展望未来,研究团队认为这种反馈驱动的创意生成范式有望扩展到更多领域。比如视频生成中,可以通过分析中间帧来避免常见的动作模式;在3D模型生成中,可以通过分析几何特征来引导形状创新;在音乐生成中,可以通过分析旋律片段来避免陈词滥调。
更有趣的是,这种方法可能启发我们重新思考人类创意的本质。人类的创意过程是否也包含类似的"避免重复"机制?艺术家在创作时是否也在潜意识中排除那些过于熟悉的表达方式?这些问题不仅具有技术价值,也具有认知科学的意义。
说到底,这项研究最大的贡献不是提供了一个完美的创意生成工具,而是开辟了一条全新的思路:通过"不做什么"来实现"做什么"。这种逆向思维在AI领域具有广泛的应用前景,也为我们理解创意本身提供了新的视角。
归根结底,创意不是凭空产生的,而是在约束中绽放的。就像诗歌在韵律的约束中展现美感,AI也在"禁止清单"的约束中找到了创新的路径。这项研究让我们看到,有时候最好的前进方式,就是明确知道不该往哪里走。
Q&A
Q1:VLM引导的自适应负向提示方法是如何工作的?
A:这个方法就像给AI配备了一个实时观察员。在AI生成图片的每个步骤中,观察员(VLM)会分析当前的生成状态,一旦发现AI开始朝着常见的模式发展(比如生成普通的猫或狗),就会立即将这些特征加入"禁止清单"。AI在后续生成中会自动避开这些被禁止的特征,被迫探索全新的创意领域。
Q2:这种创意生成方法与现有方法相比有什么优势?
A:现有的创意生成方法要么需要大量时间进行优化训练,要么会牺牲生成物体的基本功能性。比如ConceptLab可能生成无法装水的杯子或没有座位的沙发。而Adobe团队的方法既能产生真正的创意(87%的生成宠物被归类为未知动物),又能保持物体的有效性,且只需要额外13秒的计算时间。
Q3:这个方法能应用到哪些实际场景中?
A:该方法可以广泛应用于需要创意内容的场景,包括广告设计、游戏开发、艺术创作等。它不仅能生成单个创意物体,还能处理复杂场景(如"想象中的宠物在冲浪")和生成连贯的创意物品集合(如整套创意茶具)。未来还有望扩展到视频生成、3D建模和音乐创作等领域。
好文章,需要你的鼓励
谷歌DeepMind等顶级机构联合研究揭示,当前12种主流AI安全防护系统在面对专业自适应攻击时几乎全部失效,成功率超过90%。研究团队通过强化学习、搜索算法和人类红队攻击等多种方法,系统性地突破了包括提示工程、对抗训练、输入过滤和秘密检测在内的各类防护技术,暴露了AI安全评估的根本缺陷。
西蒙弗雷泽大学和Adobe研究院联合开发的MultiCOIN技术,能够将两张静态图片转换为高质量的过渡视频。该技术支持轨迹、深度、文本和区域四种控制方式,可单独或组合使用。采用双分支架构和分阶段训练策略,在运动控制精度上比现有技术提升53%以上,为视频制作提供了前所未有的灵活性和精确度。
英国国王学院研究团队开发了潜在精炼解码(LRD)技术,解决了AI文本生成中的速度与准确性平衡难题。该方法通过两阶段设计模仿人类思考过程:先让AI在连续空间中"深思熟虑",保持多种可能性的混合状态,然后"果断行动",逐步确定答案。实验显示,LRD在编程和数学推理任务中准确性提升最高6.3个百分点,生成速度提升最高10.6倍,为AI并行文本生成开辟了新路径。
清华大学团队开发的ViSurf是一种创新的大型视觉语言模型训练方法,巧妙融合了督导式学习和强化学习的优势。该方法通过将标准答案整合到强化学习过程中,让AI既能从正确答案中学习又能保持自主推理能力。实验显示ViSurf在多个视觉任务上显著超越传统方法,特别是在处理模型知识盲区时表现突出,同时有效避免了灾难性遗忘问题,为AI训练提供了更高效稳定的新范式。