这项由天工大学(Skywork AI)联合香港科技大学(广州)、中科院计算所和北京师范大学的研究团队开发的Matrix-3D技术,发表于2025年8月的技术报告中。感兴趣的读者可以通过https://matrix-3d.github.io项目主页获取完整论文和演示。
当你在社交媒体上看到一张美丽的风景照片时,是否曾经想过能够真正"走进"这张照片,像在游戏中一样自由探索其中的世界?Matrix-3D技术让这个想法成为了现实。就像魔术师能够把一张平面的画变成立体的微缩世界一样,Matrix-3D能够从一张普通照片或一段文字描述出发,创造出一个完整的、可以自由探索的3D虚拟世界。
这项技术的核心创新在于使用了全景图像作为中间表示。传统的方法就像通过一个小窗户观察外面的世界,视野非常有限,生成的3D场景往往只能从特定角度观看,从其他方向看就会露出明显的破绽。而Matrix-3D采用的全景表示法就像给你配了一副360度的眼镜,能够同时捕捉到周围的所有景象。这种方法能够生成真正全方位可探索的3D世界,无论你从哪个角度观察,都能看到连贯一致的场景。
研究团队的解决方案分为三个主要步骤,就像制作一部3D电影的完整流程。首先,如果输入的是文字描述或普通照片,系统会将其转换为全景图像,这就像是先画出一张360度的设计草图。接着,系统会根据预设的移动路径生成一段全景视频,展现从不同位置观察这个世界的连续画面,这相当于拍摄一段环绕式的纪录片。最后,系统将这些2D的全景视频内容转换为真正的3D世界,让用户可以自由地在其中行走和探索。
在第二步生成全景视频的过程中,研究团队遇到了一个重要的技术挑战。以往的方法通常使用点云渲染作为轨迹引导,但这种方法经常会产生摩尔纹等视觉瑕疵,就像老式电视机收到干扰信号时出现的条纹一样。Matrix-3D团队创新性地采用了场景网格渲染技术,这种方法能够更准确地处理物体之间的遮挡关系,生成的视频质量更加清晰流畅,几何结构也更加一致。
为了将2D全景视频转换为3D世界,团队提供了两种不同的解决方案,就像提供快餐和精工细作两种服务选项。第一种是基于优化的重建方法,这种方法就像手工雕刻艺术品一样,能够生成非常精细和准确的3D场景,但需要较长的处理时间。具体过程是从生成的全景视频中选择关键帧,将每个全景图像分割成12张透视图像,然后使用3D高斯溅射技术进行优化重建。第二种是大型全景重建模型,这种方法就像工厂流水线一样高效快速,能够直接从视频潜在表示中推断出3D高斯属性,实现快速的3D世界生成。
大型全景重建模型的训练过程特别有趣,采用了两阶段训练策略。由于视频潜在表示和3D高斯属性之间存在较大的域差异,就像要把一种语言翻译成另一种完全不同的语言一样困难,直接联合训练往往会失败。因此,研究团队首先训练模型预测深度信息,这相当于先教模型理解场景的远近关系,然后再冻结深度相关参数,训练其他3D高斯属性。这种分步骤的训练方法确保了模型能够稳定收敛并生成高质量的3D场景。
为了训练这些模型,研究团队还创建了Matrix-Pano数据集,这是第一个包含精确相机轨迹和深度信息的大规模合成全景视频数据集。这个数据集包含116,759个高质量的静态全景视频序列,每个序列都配有对应的3D探索轨迹、深度图和文本标注。数据集的创建过程就像建造一个巨大的虚拟电影制片厂,使用虚幻引擎5等物理引擎生成各种场景,涵盖室内外不同环境、天气和光照条件。
在轨迹采样方面,团队开发了一个智能的路径生成算法。系统首先识别可行走的表面,如道路或地板,然后应用德劳内三角剖分算法创建非重叠的三角网格。路径采样通过三个步骤完成:随机选择两个网格顶点作为起点和终点,使用迪杰斯特拉算法计算最短路径,最后应用拉普拉斯平滑减少急转弯,生成自然流畅的移动轨迹。为了确保生成高质量的数据,系统还实现了碰撞检测机制,移除会导致几何穿插或物体相交的轨迹。
实验结果显示,Matrix-3D在全景视频生成和3D世界重建方面都达到了最先进的性能。在与现有全景视频生成方法的比较中,包括360DVD、Imagine360和GenEx等方法,Matrix-3D在视觉质量指标PSNR、SSIM和LPIPS等方面都表现出明显优势。特别是在480p分辨率下,Matrix-3D的PSNR达到23.7,远超其他方法的16.1以下的表现。在与相机控制视频生成方法ViewCrafter和TrajectoryCrafter的比较中,Matrix-3D不仅在图像质量方面表现更佳,在相机可控性方面也显示出更低的旋转误差和平移误差。
在3D世界重建的评估中,研究团队将两种重建方法与现有的ODGS方法进行了比较。优化based的重建方法在PSNR指标上达到27.62,大幅超越ODGS的22.04,同时在LPIPS和SSIM指标上也表现优异。而前馈式重建方法虽然在质量上稍逊于优化方法,但在速度上有巨大优势,只需10秒就能完成重建,相比ODGS的745秒和优化方法的571秒有显著提升。
Matrix-3D技术的一个特色功能是无限探索能力。用户可以从输入图像和初始轨迹开始生成第一段3D场景,然后环顾四周,改变方向,沿着新的轨迹继续探索。这种方法使得用户能够在任意方向上自由导航3D场景,创造出真正无边界的虚拟体验。这就像在一个不断扩展的虚拟世界中进行探险,每次转向都可能发现新的景象。
研究团队还进行了详细的消融研究来验证各个组件的有效性。在轨迹引导方面,使用场景网格渲染相比点云渲染在多个指标上都有提升,特别是在几何一致性和纹理连续性方面表现更佳。在深度预测组件的比较中,DPT头部相比简单的3D反卷积上采样模块能够产生更准确的深度估计,这得益于其利用多尺度信息的能力。两阶段训练策略的有效性也得到了验证,研究发现联合预测射线距离和其他3DGS属性往往导致训练不稳定和重建质量下降。
与最新发布的WorldLabs技术的比较显示,Matrix-3D生成的场景范围明显更大。在相同输入图像下,两种方法都能生成3D场景,但Matrix-3D能够支持更远距离的导航探索,生成的可探索区域更加广阔。这种差异在实际应用中非常重要,因为更大的探索范围意味着更好的用户体验和更广泛的应用可能性。
Matrix-3D技术的应用前景非常广泛。在游戏设计领域,开发者可以快速从概念艺术或照片生成可玩的游戏场景。在影视制作中,导演可以从剧本描述或参考图像创建虚拟拍摄环境。在虚拟现实应用中,用户可以将个人照片转换为沉浸式VR体验。在自动驾驶和具身智能的AI训练中,这项技术可以生成大量多样化的虚拟环境用于算法测试和训练。
当然,这项技术目前还存在一些限制。首先是推理速度相对较慢,生成单个场景需要数十分钟时间,这主要是因为系统基于视频扩散模型构建。其次,在Matrix-Pano数据集中,半透明或多孔区域(如树木和围栏)偶尔会出现深度值的不自然过渡。最后,从视频潜在表示估计深度特别具有挑战性,因为潜在空间压缩了原始视频并且只编码外观线索,而视频VAE的目标函数并不包含几何信息。
未来的研究方向包括几个有趣的方向。首先是为未见区域生成场景内容,这可以通过特定的轨迹设置或集成3D对象生成来实现。其次是增强生成3D世界的可编辑性,支持用户驱动的操作,如场景修改和语义级交互,比如"在房子旁边添加一棵树"或"从道路上移除汽车"等高级命令。最后是扩展到动态场景生成,使场景中的每个对象都能移动和交互,为用户提供更沉浸的体验,同时推进世界模型的研究。
说到底,Matrix-3D代表了3D世界生成技术的一个重要进步。这项技术将我们从静态图片观察者变成了虚拟世界的探索者,让每个人都能轻松创建属于自己的3D虚拟空间。随着技术的不断改进和优化,我们有理由期待未来能够看到更多基于这项技术的创新应用,让数字世界和现实世界的边界变得更加模糊。无论是为了娱乐、教育还是专业应用,Matrix-3D都为我们打开了一扇通向无限可能的大门。
Q&A
Q1:Matrix-3D技术是如何工作的?它能从什么开始生成3D世界?
A:Matrix-3D技术分三个步骤工作:首先将输入的文字描述或普通照片转换为360度全景图像,然后根据预设路径生成全景视频,最后将视频转换为可探索的3D世界。它可以从一张照片或一段文字描述开始,创造出完整的虚拟3D环境。
Q2:Matrix-3D生成的3D世界质量如何?与其他技术相比有什么优势?
A:Matrix-3D在多项质量指标上都优于现有方法。在视觉质量PSNR指标上达到23.7,远超其他方法的16.1。它最大的优势是生成真正全方位可探索的3D世界,而传统方法只能从特定角度观看,从其他方向会露出破绽。
Q3:Matrix-3D技术的处理速度如何?普通人能使用吗?
A:Matrix-3D提供两种处理方式:精细重建需要约10分钟,快速重建只需10秒。目前这项技术还在研究阶段,普通用户可以通过项目主页https://matrix-3d.github.io了解详情,但尚未商业化普及。
好文章,需要你的鼓励
Queen's大学研究团队提出结构化智能体软件工程框架SASE,重新定义人机协作模式。该框架将程序员角色从代码编写者转变为AI团队指挥者,建立双向咨询机制和标准化文档系统,解决AI编程中的质量控制难题,为软件工程向智能化协作时代转型提供系统性解决方案。
西北工业大学与中山大学合作开发了首个超声专用AI视觉语言模型EchoVLM,通过收集15家医院20万病例和147万超声图像,采用专家混合架构,实现了比通用AI模型准确率提升10分以上的突破。该系统能自动生成超声报告、进行诊断分析和回答专业问题,为医生提供智能辅助,推动医疗AI向专业化发展。
上海AI实验室团队发现自回归图像生成模型存在局部依赖、语义不一致和空间不变性缺失三大问题,提出ST-AR训练方法。该方法通过掩码注意力、跨步骤对比学习和跨视角对比学习,让AI"先理解再生成"。实验显示,ST-AR将LlamaGen模型的图像理解准确率提升一倍以上,图像生成质量提升42-49%,为构建更智能的多模态AI系统开辟新路径。