微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 南洋理工大学团队推出"Puffin":首个让AI既能理解又能生成任意视角图像的统一模型

南洋理工大学团队推出"Puffin":首个让AI既能理解又能生成任意视角图像的统一模型

2025-11-14 10:34
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-11-14 10:34 科技行者

这项由南洋理工大学S-Lab实验室的廖康等研究人员领导的突破性研究发表于2025年1月,论文编号为arXiv:2510.08673v1。有兴趣深入了解的读者可以通过该编号查询完整论文。这项研究首次将两个看似独立的AI能力——理解图像中的相机角度和根据指令生成特定视角图像——统一到了一个名为"Puffin"的模型中。

过去,人工智能在处理图像时就像两个各自为政的专家:一个擅长分析照片是从什么角度拍摄的,另一个则专门根据要求生成特定角度的图像。这种分离不仅效率低下,还经常导致理解和生成之间的不一致。研究团队意识到,真正的空间智能需要将这两种能力融合,就像人类大脑在观察和创造空间内容时能够无缝切换一样。

研究团队的核心创新在于提出了"用相机思考"的概念。传统方法试图直接从数字参数中理解相机角度,但这些数字对AI来说过于抽象。研究团队巧妙地将相机参数转换为摄影术语,比如将倾斜角度称为"荷兰角",将俯视角度称为"俯拍"。这就像给AI配备了一本摄影词典,让它能用人类摄影师的语言来思考和表达空间关系。

为了训练这个统一模型,团队构建了一个包含400万张图像的庞大数据集"Puffin-4M",每张图像都标注了详细的相机参数、描述文本和空间推理过程。这个数据集涵盖了室内外各种场景和相机配置,为模型提供了丰富的学习素材。

一、突破传统边界:将理解与生成完美融合

在人工智能的世界里,理解和创造往往被视为两个独立的技能。就像学校里的语文课和美术课分开上一样,AI系统通常要么擅长分析图像内容,要么专精于生成图像,很少有模型能在两个领域都表现出色。然而,现实世界的视觉智能需要这两种能力的无缝协作。

Puffin模型的革命性在于它打破了这种人为的界限。研究团队发现,相机理解和图像生成本质上是同一枚硬币的两面:一个是解码现实世界的几何关系,另一个是将这些关系编码回视觉内容。这种洞察促使他们设计了一个统一的架构,让模型既能读懂照片的空间信息,又能根据空间要求创造新的视觉内容。

模型的核心架构巧妙地结合了大型语言模型和扩散生成模型。当处理理解任务时,几何对齐的视觉编码器提取图像的空间特征,语言模型则负责将这些特征转换为人类可理解的描述和精确的相机参数。当执行生成任务时,系统流程恰好相反:语言模型接收文本描述和相机参数,通过连接器模块将语义信息传递给扩散模型,最终生成符合指定视角的图像。

这种双向处理能力带来了意想不到的协同效应。理解任务中学到的空间知识能够指导生成过程产生更准确的视角控制,而生成训练中的视觉细节处理又反过来增强了理解任务的几何感知能力。这就像一个人既会读地图又会画地图,两种技能相互促进,最终达到更高的空间认知水平。

二、"用相机思考":让AI掌握摄影师的语言

传统的相机理解方法就像让一个从未接触过摄影的人直接理解"俯仰角-15度,滚转角30度,视场角75度"这样的技术参数。这些数字对AI来说同样晦涩难懂,很难建立与视觉特征之间的直观联系。研究团队的突破性贡献在于发明了"用相机思考"的方法,将抽象的数字参数转换为生动的摄影术语。

这个转换过程就像给AI配备了一位经验丰富的摄影导师。当模型看到一张倾斜的照片时,它不再简单地输出"滚转角-20度",而是首先观察画面中的空间线索:地平线的倾斜、建筑物的倾倒感、重力方向的偏移。然后,它会用摄影师的语言描述这些观察:"这张照片展现了明显的逆时针荷兰角,从倾斜的地平线和建筑物的倾倒可以看出相机发生了显著的左倾旋转。"

这种方法的精妙之处在于它建立了视觉线索、语言描述和数值参数之间的三重对应关系。模型学会了识别天空占比大小与俯仰角的关系,理解了前景背景比例与视场角的联系,掌握了各种视觉元素倾斜度与滚转角的对应。这种多层次的理解让模型不仅能输出准确的数值,还能解释得出这些数值的原因。

更重要的是,这种思考方式在生成任务中同样发挥关键作用。当接收到"生成一张大俯仰角室内照片"的指令时,模型会首先推理出大俯仰角在室内环境中意味着什么:天花板、吊灯等顶部元素应该占据画面主要部分,地面元素应该被压缩,整体透视效果应该呈现向上的视角。这种语义化的空间推理指导着最终图像的生成过程。

三、海量数据集的精心构建:400万样本的空间智能训练场

任何强大的AI模型都离不开高质量训练数据的支撑,而空间智能的训练数据构建面临着独特的挑战。市面上现有的数据集要么专注于理解任务,要么针对生成任务,很少有数据集能够同时满足两种需求。更关键的是,现有数据集缺乏详细的空间推理过程标注,这正是"用相机思考"方法所必需的核心要素。

研究团队从零开始构建了Puffin-4M数据集,这个命名直接反映了其400万样本的庞大规模。数据构建过程就像建造一座巨大的虚拟摄影棚,团队首先收集了约20万张高质量的全景图像,这些图像来自公开数据集和在线平台,甚至包括从Google街景获取的12个城市的实地全景数据。许多图像的分辨率达到4K甚至10K,为后续的透视图像生成提供了丰富的细节。

接下来的步骤就像一位虚拟摄影师在每个全景场景中进行无数次拍摄实验。对于每张全景图,系统使用标准相机模型生成多个透视视角的图像,相机参数在广泛的范围内均匀采样:滚转角和俯仰角各自在-45度到45度之间变化,垂直视场角则从20度覆盖到105度。这种参数化的采样确保了数据集涵盖了从极端倾斜的艺术角度到常规的水平视角,从微距特写到超广角全景的各种拍摄情况。

数据集的核心创新在于每个样本都包含三种不同层次的标注信息。首先是基础的场景描述,由先进的视觉语言模型生成,后续经过语言模型的精炼优化,确保描述既准确又适合图像生成任务。其次是精确的数值相机参数,这些参数不仅包括传统的滚转、俯仰和视场角,还包括像素级的相机映射,为细粒度的空间控制提供支撑。

最为独特的是空间推理过程的详细标注。对于每张图像,系统会生成一段详细的思考过程,描述如何从视觉线索推断出相机参数。这些标注就像摄影导师的课堂笔记,详细解释了"为什么天空占据画面上半部分说明这是俯视角度","为什么建筑物的倾斜表明存在荷兰角效果"等空间推理逻辑。

为了进一步增强模型的实用性,数据集还包含了跨视角的图像对,支持从一个视角想象另一个视角的内容。这部分数据让模型具备了空间想象能力,能够回答"如果我向右转会看到什么"这样的问题。同时,团队还构建了摄影美学评价的子数据集,让模型学会从美学角度评价不同相机角度的效果,为摄影指导应用奠定基础。

四、模型架构的巧思:统一框架下的双重技能

Puffin模型的架构设计体现了研究团队对统一框架的深刻理解。整个系统就像一个双语翻译专家,既能从视觉语言翻译到空间参数,也能从空间参数翻译到视觉内容。这种双向能力的实现需要精心设计的组件协作。

在理解任务中,几何对齐的视觉编码器担任着关键角色。与传统的视觉编码器不同,这个组件专门针对空间几何信息进行了优化。它不仅能提取语义特征,更重要的是能保留几何保真度。这就像给模型配备了一副专业的测量眼镜,能够精确感知画面中的线条、角度、透视关系等几何信息。

语言模型部分则负责将视觉特征转换为人类可理解的描述和精确的参数预测。通过渐进式解冻和联合微调的训练策略,语言模型学会了将低层次的几何线索与高层次的语言推理联系起来。这个过程分阶段进行,确保了训练的稳定性和空间感知能力的逐步建立。

在生成任务中,系统的工作流程恰好相反但同样精妙。连接器模块充当着语言模型和扩散模型之间的桥梁,它使用可学习的查询机制,将语言模型的隐藏表示转换为扩散模型能够理解的条件信号。这种设计允许语义理解和几何控制的有机融合。

特别值得注意的是,模型同时使用离散的相机标记和连续的相机映射作为输入。离散标记捕捉全局的相机设置,而连续映射则提供像素级的几何上下文。这种双重表示就像给画家提供了画笔的整体运动轨迹和每个笔触的细节控制,确保生成的图像既符合全局的空间设定,又在局部细节上保持几何一致性。

训练过程采用了四个阶段的策略。第一阶段专注于模态对齐,让视觉编码器、语言模型和扩散模型学会相互理解。第二阶段进行监督微调,在基础数据上优化整个框架。第三阶段引入"用相机思考"的训练数据,教会模型进行空间推理。最后阶段通过指令调优,让模型具备处理各种跨视角任务的能力。

五、实验验证:全面超越专业化模型的表现

任何研究的价值最终都要通过实验来验证,Puffin模型的测试结果让人印象深刻。研究团队设计了全面的评估体系,不仅与现有的专业化模型进行比较,还构建了新的基准数据集来评估统一模型的独特能力。

在相机理解任务上,Puffin与多个经典方法进行了对比,包括传统的几何方法如SVA和UVP,以及学习方法如DeepCalib、ParamNet和GeoCalib等。测试在三个公认的数据集上进行:MegaDepth、TartanAir和LaMAR,评估指标包括角度误差的中位数和不同阈值下的准确率曲线面积。

结果显示,Puffin在大多数测试中都达到了最佳或接近最佳的性能。特别是在团队构建的挑战性数据集Puffin-Und上,模型展现出了显著的优势。这个数据集专门包含了几何特征稀少和相机角度极端的困难样本,正是传统方法容易失效的场景。Puffin能够在这些具有挑战性的条件下保持稳定的性能,证明了"用相机思考"方法的有效性。

在图像生成任务上,评估的挑战在于如何客观衡量生成图像的空间准确性。团队采用了创新的评估方法:使用最先进的相机理解算法来分析生成图像的相机参数,然后与目标参数进行比较。这种方法虽然引入了评估算法本身的误差,但提供了目前最可靠的定量评估方式。

与GPT-4o、Qwen-Image、Nano Banana等先进的多模态模型相比,Puffin在空间控制准确性上展现出了压倒性的优势。这些通用模型虽然能生成高质量的图像,但在精确的空间控制方面存在明显不足。即使研究团队尝试通过转换参数表示方式(从弧度转为度数,或使用摄影术语)来帮助这些模型理解空间要求,效果改善仍然有限。

特别有趣的是对不同相机参数控制难度的分析。实验发现,现有的图像生成模型在滚转角控制上表现最差,这与相机理解任务中滚转角最容易估算的情况形成了有趣的对比。研究团队分析认为,这种现象反映了训练数据的偏差:大多数摄影作品都倾向于保持水平构图,导致生成模型缺乏倾斜角度的训练样本,而理解模型则能从几何线索中轻松识别倾斜。

六、多元化应用展示:从摄影指导到3D重建

Puffin模型的统一架构不仅在基础任务上表现出色,更在多种实际应用中展现了独特的价值。这些应用场景证明了统一空间智能模型相比专业化模型的显著优势。

空间想象功能让模型能够根据当前视角和目标相机参数,描述新视角下可能看到的场景。这种能力就像给用户配备了一个虚拟的空间向导,能够回答"如果我向左转会看到什么"这样的问题。实验中,模型能够合理推测室内环境中不同方向可能存在的家具布局,或者户外场景中其他角度可能观察到的建筑和景观。

世界探索应用更进一步,不仅描述还能实际生成其他视角的图像。用户提供一张初始视角的照片,指定目标视角的相机参数,模型就能生成相应的新视角图像。为了验证生成结果的空间一致性,团队使用了3D重建技术,将初始视角和生成视角的图像进行三维建模。结果显示,生成的图像与初始图像能够成功配准,形成连贯的3D空间,证明了生成结果的几何准确性。

摄影指导功能展现了模型在美学评价方面的能力。系统能够分析当前照片的构图,然后建议相机参数的调整方向以获得更好的摄影效果。这种建议基于对四个关键摄影要素的评估:视角创新性、主体强调、构图平衡和空间和谐。模型学会了识别什么样的相机角度能够更好地突出拍摄主体,什么样的构图更符合美学原则。

虚拟3D物体插入应用展示了模型在增强现实领域的潜力。通过准确估计照片的相机参数,模型能够为虚拟物体的插入提供精确的空间定位信息。这种能力在游戏开发、建筑可视化、产品展示等领域具有重要价值。

跨视角任务的成功实现证明了统一框架的核心优势:理解和生成能力的相互促进。在传统的分离式方法中,理解模块和生成模块各自独立训练,难以保证输出的一致性。而Puffin的统一训练让两种能力共享同一套空间表示,确保了理解结果能够有效指导生成过程,生成的内容也符合理解模块的预期。

七、深度分析:统一训练带来的协同效应

研究团队通过详尽的消融实验揭示了统一训练相比独立训练的显著优势。这些实验就像精密的外科手术,逐一分离了模型的各个组件,分析每个部分对整体性能的贡献。

首先,"用相机思考"机制的有效性得到了明确验证。对比实验显示,加入空间推理过程的模型在相机理解任务上的表现明显优于直接回归方法。这种改善在俯仰角和视场角估计上尤为明显,因为这两个参数依赖于更复杂的上下文理解。模型学会了通过观察天空比例来推断俯仰角,通过分析画面包含的内容范围来估计视场角。

架构选择的重要性也得到了充分证明。直接微调现有的视觉语言模型(如InternVL或Qwen2.5-VL)的效果远不如使用几何对齐视觉编码器的版本。这个发现强调了针对特定任务优化组件的必要性,通用模型的视觉编码器虽然在语义理解上表现出色,但在几何细节保持方面存在不足。

连续相机映射的引入带来了生成任务上的质量跃升。与仅使用离散相机参数相比,加入像素级几何信息让生成的图像在空间一致性上有了显著改善。特别是在处理复杂几何配置(如大角度倾斜)时,连续映射提供的细粒度控制证明是不可替代的。

最令人意外的发现是理解和生成任务之间的正向相互作用。单独训练理解任务的模型性能明显低于联合训练的版本。分析表明,生成过程中的扩散损失为视觉特征提供了额外的监督信号,这种底层的外观细节优化间接增强了几何感知能力。同样,理解任务中学到的空间先验知识也为生成过程提供了有价值的指导,特别是在视场角控制这样需要全局空间理解的任务上。

统一训练的另一个优势体现在数据效率上。相比需要分别为理解和生成任务准备专门数据集的传统方法,统一框架能够让同一份数据同时服务于两种任务,显著提高了数据利用效率。这种设计在数据获取成本高昂的专业领域(如医学影像或科学可视化)具有特别重要的意义。

八、技术挑战与未来展望:迈向完美空间智能的征程

尽管Puffin模型已经取得了令人瞩目的成果,但研究团队也诚实地指出了当前方法的局限性和未来的改进方向。这种坦诚的态度体现了严谨的科学精神,也为后续研究指明了方向。

当前最明显的限制是单一分辨率的训练数据。所有图像都被统一调整为512×512像素,这种设计简化了模型架构但也限制了应用范围。在处理不同宽高比的图像时,系统需要进行中心裁剪和缩放,这个过程可能丢失重要的语义信息,特别是在宽高比偏离正方形较多的情况下。研究团队建议未来的工作应该构建多尺度的训练数据集,让模型能够原生支持各种分辨率和宽高比的图像。

评估方法的完善是另一个重要的研究方向。目前对生成图像空间准确性的评估依赖于离线的相机理解算法,这种方法虽然是目前最可行的选择,但引入了额外的误差源。特别是对于只有细微空间差异的生成图像,现有的评估方法可能无法准确捕捉质量差异。研究团队建议开发更强大的相机理解模型作为评估器,并设计更精确捕捉几何一致性的基准测试。

模型的跨视角能力还有很大的提升空间。虽然通过指令调优实现了基础的跨视角功能,但在复杂场景和大角度变换下的性能仍需改善。特别是当视角变化导致场景内容发生显著改变时(如从正面视角转向侧面视角,大量内容被遮挡或新内容进入视野),模型的空间想象能力面临挑战。

计算效率的优化是实际部署中的重要考虑因素。当前的统一模型需要同时维护语言模型和扩散模型两套参数,在推理时的计算开销相对较大。研究团队建议探索更轻量化的架构设计,如模块化的专家系统或动态激活的稀疏模型,在保持性能的同时降低计算需求。

数据集的进一步丰富也是重要的发展方向。虽然Puffin-4M已经具有相当的规模,但在某些特殊场景(如极端光照条件、复杂几何结构、动态内容)下的样本仍然有限。特别是真实世界的畸变效果、镜头特性、传感器噪声等因素在当前的合成数据中未能充分体现。

展望未来,研究团队设想了多个激动人心的扩展方向。相机中心的视频理解和生成是一个自然的延伸,让模型能够处理时序信息,理解和生成具有时间连贯性的视角变化。多相机系统的支持将使模型能够处理立体视觉和多视角重建任务。与机器人系统的集成则可能开启空间智能在物理世界中的实际应用。

更长远的愿景是建立真正的通用空间智能系统,不仅局限于静态图像的理解和生成,而是能够处理任意形式的空间信息,包括点云、网格、体积表示等。这样的系统将成为增强现实、虚拟现实、自动驾驶、机器人导航等领域的核心技术基础。

说到底,Puffin模型的真正价值不仅在于其技术成就,更在于它为我们展示了统一人工智能系统的潜力。通过打破理解与生成之间的人为边界,研究团队证明了整体往往大于部分之和的基本原理。这种统一的思路不仅适用于空间智能,也为其他AI领域的发展提供了有价值的启示。

随着计算能力的不断提升和数据资源的日益丰富,我们有理由相信,像Puffin这样的统一模型将成为未来AI系统的主流设计范式。它们不再是解决单一问题的专用工具,而是具备多元能力的智能助手,能够在复杂的现实场景中提供全方位的支持。这项研究为我们描绘了一个充满可能性的未来,在那里,人工智能真正成为人类探索和创造空间世界的得力伙伴。

Q&A

Q1:Puffin模型是什么?

A:Puffin是由南洋理工大学开发的首个统一相机中心多模态AI模型,它能够同时理解图像的相机拍摄角度和根据指定角度生成新图像。与传统需要两个独立系统分别处理理解和生成任务不同,Puffin将这两种能力融合在一个模型中,实现了更高效和一致的空间智能处理。

Q2:什么是"用相机思考"方法?

A:"用相机思考"是Puffin模型的核心创新,它将抽象的相机数字参数转换为摄影师常用的术语。比如将倾斜角度称为"荷兰角",将俯视角度称为"俯拍"。这样AI就能像摄影师一样思考空间关系,通过观察天空比例、建筑倾斜等视觉线索来推理相机角度,而不是直接处理难以理解的数字参数。

Q3:Puffin模型有哪些实际应用?

A:Puffin有多种实用功能:空间想象功能能描述从其他角度会看到什么场景;世界探索功能可以生成其他视角的实际图像;摄影指导功能能分析照片构图并建议改进的拍摄角度;还能支持虚拟物体插入和3D重建等应用。这些功能在游戏开发、建筑可视化、摄影教学等领域都有重要价值。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-