在我们日常浏览的图片中,物体表面的材质往往决定了整个画面的视觉效果和氛围。想象一下,如果能随心所欲地将一张照片中的青铜雕像变成木质、金属甚至透明玻璃,或者精确控制物体的粗糙度、金属感和透明度,会为创意表达带来多大的可能性!这正是来自牛津大学、麻省理工学院和Stability AI的研究团队最新成果《MARBLE: Material Recomposition and Blending in CLIP-Space》(材质重组与CLIP空间混合)所实现的突破。该研究于2025年6月发表在arXiv预印本平台(arXiv:2506.05313v1),由牛津大学的Ta Ying Cheng、MIT CSAIL的Prafull Sharma以及Stability AI的Mark Boss和Varun Jampani共同完成。
在计算机视觉和图形学领域,根据示例图像编辑物体材质一直是一个活跃的研究方向。然而,传统的图形学方法需要理解物体几何形状、材质属性和环境光照等复杂信息,这在仅有单张图像的情况下极具挑战性。以往的材质编辑方法往往使用物体几何和环境光照的粗略近似,导致非真实的编辑效果,且材质编辑选项有限。
MARBLE团队提出了一种全新的思路:他们发现,通过操控CLIP空间(一种由OpenAI开发的用于连接图像和文本的特征空间)中的材质表征,并将其注入到预训练的文生图模型中,可以实现令人惊叹的材质编辑效果。这种方法无需显式估计物体和环境属性,而是直接利用预训练扩散模型中隐含的这些知识,绕过了传统方法中最困难的环节。
一、MARBLE的关键创新:精准材质控制与混合
在过去的研究中,已经有作品如Alchemist和ZeST展示了使用扩散模型进行图像材质编辑的可能性。ZeST提出了一种零样本技术,可以将示例图像中的物体材质转移到目标图像中的物体上,但它仅限于高级材质变化,无法精细控制材质属性。另一方面,Alchemist提出了对Stable Diffusion进行监督微调,以实现对粗糙度、透明度等材质属性的精细控制,但这种微调可能导致模型过拟合于训练数据,从而破坏这些模型中宝贵的物体先验知识。
MARBLE的关键创新在于,它能够执行多样化的材质编辑任务——从使用示例图像进行粗粒度材质转移,到精确控制材质的细微属性,同时保留基础扩散模型的先验知识。研究团队保持图像扩散模型不变,而是通过操控注入扩散模型的CLIP图像特征来实现材质编辑。
想象CLIP特征空间就像一个包含各种物体属性(如语义、几何形状和材质)的多维画布。研究人员惊讶地发现,仅通过在这个特征空间中的巧妙移动,就能实现惊人的材质编辑效果。他们的方法MARBLE(材质重组与CLIP空间混合)能够完成从使用示例图像进行材质转移或混合多个物体材质(如将青铜和木材特性融合),到精细控制金属感、透明度等属性的各种编辑任务。
二、技术原理:目标材质区块注入与特征空间导航
实现这种多样化的材质编辑并非易事,因为CLIP特征捕获了物体的所有属性,不仅仅是材质。研究团队以ZeST架构为基础,并进行了重要的改进。ZeST使用IP-Adapter将CLIP特征注入扩散模型,同时采用色彩无关的修复技术,将示例图像中的材质转移到目标物体图像上。
通过系统的实验,研究人员在Stable Diffusion中发现了一个对物体材质特别敏感的U-Net区块。与其将材质嵌入注入扩散模型的所有注意力层,他们选择只向这个特定区块注入信息,大大改善了材质转移效果,同时更好地保留了物体的几何形状和光照特性。这一修改架构成为了两种材质编辑变体的基础。
第一种变体是材质混合。研究团队发现,在CLIP空间中插值两个材质示例的特征,可以创建介于两者之间的混合材质。这就像在调色板上混合颜色,但操作的是材质的数字表示。令人惊讶的是,这种混合可以在三种不同的配置下工作:完全不同的物体和材质之间、相同基础材质但单一属性变化的不同物体之间,甚至是同一物体同一材质但单一属性变化的情况下。
第三种变体是精细材质属性的参数控制。研究团队使用合成数据训练了轻量级的多层感知机(MLP)网络,这些网络能够预测CLIP空间中用于改变特定材质属性的方向。想象这些网络就像在CLIP空间的多维地图上绘制了指向"更多金属感"、"更加透明"等方向的箭头。通过沿着这些方向移动CLIP特征,可以实现对材质属性的精细控制。
三、实验结果与应用案例展示
研究团队提供了广泛的实验分析和结果,展示了MARBLE在各种应用上的表现。在材质混合方面,他们展示了将雕像从青铜逐渐过渡到木材的连续变化效果。在参数控制方面,他们展示了对粗糙度、金属感、透明度和发光度的精确调整。
与其他图像/材质编辑方法相比,MARBLE在定性和定量分析中都表现出明显的优势。由于保持基础扩散模型不变,使用基于着色器的合成数据集学习的编辑方向可以泛化到各种图像风格,包括动漫和绘画。
研究团队还展示了在一次前向传递中执行多项编辑的能力。例如,他们展示了如何同时控制一辆玩具车材质的金属感和粗糙度,每个属性都能独立调整,且不会相互干扰。此外,通过利用CLIP的泛化能力,MARBLE也能在各种风格的图像上实现参数控制,如在保持梵高风格或霓虹赛博朋克风格的同时调整茶壶的透明度或粗糙度。
研究人员还进行了一项有趣的探索:训练数据集可以有多小?令人惊讶的是,他们发现,使用仅仅16个物体的数据集训练就能达到与使用完整数据集相近的效果,这表明该方法在数据效率上表现优异。
在用户研究中,87.5%的参与者选择了MARBLE生成的图像,这进一步证明了该方法在真实世界图像上的有效性。与基于图像的概念滑块相比,MARBLE在所有指标和所有属性上都表现更好,包括PSNR(峰值信噪比)、LPIPS(感知图像相似度)、CLIP分数和DreamSim。
四、局限性与未来方向
尽管MARBLE取得了令人印象深刻的成果,但研究团队也坦诚地指出了两个主要局限性。首先,参数控制有时会改变物体的纹理图案,例如增加粗糙度时皮革背包侧面的图案会发生变化。其次,当模型预期不会产生变化时(如增加已经是玻璃的物体的透明度),控制效果可能会导致不必要的伪影。这些伪影和高频细节的丢失可能是由多种原因造成的,如上下文图像潜在空间中添加的噪声模式、在嘈杂的CLIP空间中的操作,或SDXL编码-解码过程中的信息损失。
总的来说,MARBLE代表了使用CLIP空间进行图像材质编辑的一个令人兴奋的方向,揭示了CLIP空间表示用于低级受控编辑的优势。它不仅提供了一种在不改变预训练模型的情况下实现多样化材质编辑的方法,还为未来探索基于CLIP的材质和风格控制开辟了新的道路。
对于设计师、内容创作者和普通用户来说,MARBLE提供了前所未有的材质编辑灵活性,从粗粒度的材质变换到精细的属性调整,一切都可以在一个统一的框架中实现。无论是想要为产品创建不同材质的变体,还是为艺术作品添加特定的视觉效果,MARBLE都提供了一种直观而强大的工具,让材质编辑变得更加直观和可控。
对于有兴趣深入了解这项研究的读者,可以通过项目网页https://marblecontrol.github.io/访问更多信息和演示视频。这项研究不仅推动了计算机图形学和视觉的边界,也为创意产业提供了强大的新工具,让材质编辑的魔力触手可及。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。