这项来自香港科技大学(广州)、夸万公司和香港科技大学联合研究团队的最新研究成果发表于2025年6月的arXiv预印本平台(arXiv:2506.02620v1),由董宇彦、吴乐怡等人共同完成,通讯作者为陈颖聪教授。这项研究介绍了一种名为"FlexPainter"的创新纹理生成管道,能够根据多种灵活的用户提示生成多样化、高质量的3D模型纹理。
一、为什么3D纹理生成如此重要?
想象一下,你正在为一个虚拟现实游戏创建角色。你已经完成了角色的3D形状建模,但它看起来就像一块未上漆的木头雕塑——毫无生气。这时,你需要给它添加纹理,就像给雕塑上色一样,让它变得栩栩如生。这个"上色"的过程,在3D建模中被称为"纹理生成",它对于游戏、电影、虚拟现实和动画等领域至关重要。
随着扩散模型(想象成一种能从噪声中逐渐"提炼"出清晰图像的AI魔法)的快速发展,研究人员们开始探索如何利用这些模型来自动生成3D纹理。然而,当前的纹理生成方法面临两大挑战:一是控制灵活性有限,用户很难精确表达自己想要的效果;二是生成的多视角图像之间常常存在不一致性,导致最终纹理效果不佳。
香港科技大学的研究团队开发的FlexPainter系统,就像是一位既能理解多种表达方式又能保持画风一致性的魔法画师,旨在解决这两大挑战。
二、FlexPainter如何理解你的需求?
想象你正在向一位画家描述你想要的画作。有时候,你可能会用文字描述:"我想要一个粉色的树桩";有时候,你可能会拿出一张参考图片说:"我想要这种风格";更多时候,你可能会混合使用文字和图片来表达你的想法。FlexPainter就像这样一位能理解各种表达方式的超级画家。
研究团队构建了一个共享的条件嵌入空间,你可以把它想象成一个翻译中心,能够将不同形式的输入(文字、图片)转化为机器能理解的统一语言。这样,系统就能灵活地聚合来自不同输入模态的信息。
比如,当你输入文字"一个带粉色皮革和棕色木腿的沙发"时,系统能够理解并生成相应的纹理。当你提供一张鹦鹉图片作为参考时,系统也能生成类似风格的纹理。更神奇的是,你还可以同时使用文字和图片,甚至调整它们之间的影响权重,就像告诉画家:"我想要这张图片的颜色,但要根据我的文字描述来调整一下。"
研究团队还基于这个嵌入空间,提出了一种基于图像的无分类器指导(CFG)方法。这听起来可能有点复杂,但它的作用很直观:它能够分解图像中的结构和风格信息,从而实现基于参考图像的风格化。想象你有一张蓝色波浪图案的参考图片,但你不想让生成的纹理复制图片中的波浪形状,只想借鉴其蓝色调。FlexPainter可以通过使用图片的灰度版本作为"负面提示",消除结构信息而保留风格特征,从而生成既有参考图片风格又符合目标物体形状的纹理。
三、FlexPainter如何确保多视角一致性?
在生成3D物体的纹理时,一个关键挑战是确保从不同角度看到的纹理保持一致。想象一下,如果你制作的虚拟角色在你转动视角时,脸上的图案突然变了样子,那会是多么奇怪的体验!
FlexPainter从全局和局部两个角度解决了这个问题。从全局角度看,研究团队采用了多视角图像网格表示作为生成目标,就像同时请多位画家从不同角度绘制同一个物体,并让他们相互交流以保持一致性。通过这种方式,不同视角之间的注意力机制可以确保对物体的整体理解,从而保持全局一致性。
从局部角度看,研究团队提出了一种基于重投影的视角同步和自适应加权模块。这听起来很复杂,但我们可以用一个简单的比喻来理解:想象几位画家在绘制同一个物体的不同角度,每隔一段时间,他们会暂停,将各自的画作组合起来形成一个完整的展开图(UV贴图),然后基于这个统一的展开图继续各自的绘制工作。这就是视角同步的过程。
在合并不同视角的部分UV贴图时,传统方法通常使用一种简单的加权函数,就像按照固定比例混合不同画家的作品。但这种简单的方法可能导致对不同输入的适应性和鲁棒性较差。研究团队开发了一个名为WeighterNet的网络,它能够根据生成内容的质量动态调整权重,就像一位有经验的总监能够根据不同画家的表现动态调整他们作品的采纳比例。
最后,研究团队还应用了一个基于扩散的纹理补全模块和一个纹理增强网络,以生成无缝、高分辨率的纹理贴图,就像对最终作品进行精修和上光处理。
四、FlexPainter的工作流程是怎样的?
FlexPainter的整个工作流程可以想象成一个协作创作过程。首先,系统接收用户的输入,可以是文字描述、参考图片或两者的组合。然后,通过共享条件嵌入空间,将这些输入转化为统一的表示。
接下来,系统使用基于流匹配的潜在扩散模型生成多视角图像。想象成一个从噪声逐步清晰化的过程,就像从一团迷雾中逐渐显现出清晰的图像。在生成过程中,系统使用视角同步机制确保不同视角之间的一致性,并使用WeighterNet网络智能地合并不同视角的信息。
生成的多视角图像然后被投影到UV空间(一种将3D表面展开为2D的方式,就像将地球仪的表面展开成世界地图),形成初步的纹理贴图。由于视角限制,某些区域可能无法直接观察到,因此需要使用纹理补全模块填充这些区域。最后,纹理增强网络提高纹理的分辨率和细节,生成最终的高质量纹理贴图。
五、FlexPainter的表现如何?
研究团队进行了全面的实验,证明FlexPainter在灵活性和生成质量方面都显著优于现有的最先进方法。在文字到纹理的生成任务中,FlexPainter在FID(衡量生成图像与真实图像分布差异的指标)和KID(一种类似FID但更适合小样本的指标)上都取得了最好的成绩,用户偏好率也达到了28.3%,超过了所有对比方法。
在图像到纹理的生成任务中,FlexPainter更是展现出压倒性优势,FID和KID分别为59.492和62.089,远好于对比方法Paint3D的83.977和267.132,用户偏好率高达71.4%,远超Paint3D的28.6%。
研究团队还进行了消融研究,验证了视角同步、WeighterNet和基于图像的CFG各自的贡献。结果表明,完整的FlexPainter模型生成的纹理一致且高质量,而缺少这些模块的方法则可能出现幽灵伪影和质量下降。
六、FlexPainter能做什么?
FlexPainter的应用场景非常广泛。在实验中,研究团队展示了多种应用,包括:
1. 文本到纹理生成:用户可以通过文字描述生成想要的纹理,如"一个彩虹色的贝壳"或"一个冰雪覆盖风格的树桩"。
2. 图像到纹理生成:用户可以提供参考图片,系统会生成具有类似风格或特征的纹理。
3. 文本引导的图像精修:用户可以提供一张基础图片,然后用文字描述来调整或细化它,如添加特定的颜色或风格元素。
4. 基于参考图像的风格化:用户可以提供一张风格参考图片,系统会提取其风格特征(如颜色、纹理)应用到生成的纹理上,同时保持目标物体的结构特征。
这些应用场景使FlexPainter成为3D艺术家和设计师的强大工具,能够大大提高纹理创建的效率和质量。
七、未来的发展方向
尽管FlexPainter在灵活性和一致性方面取得了显著进展,但研究团队也指出了一些潜在的改进方向。例如,进一步增强对3D几何信息的利用,提高纹理补全的质量和细节,以及探索如何更好地处理包含光照效果的纹理生成等。
八、总结
FlexPainter是一个创新的纹理生成框架,它通过构建共享条件嵌入空间实现了灵活的多模态输入控制,并通过多视角图像网格表示和视角同步机制确保了生成纹理的一致性。通过全面的实验,研究团队证明了FlexPainter在灵活性和生成质量方面都显著优于现有方法。
这项研究不仅推进了纹理生成技术的发展,也为3D内容创作提供了更加直观、高效的工具。随着虚拟现实、增强现实和元宇宙等领域的快速发展,像FlexPainter这样的技术将发挥越来越重要的作用,使创作者能够更轻松地生成高质量、符合期望的3D内容。
对于想要深入了解这项研究的读者,可以通过arXiv:2506.02620v1获取完整论文。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。