
这项由西蒙菲莎大学的Jan Held领导,联合列日大学、马里兰大学、英属哥伦比亚大学、多伦多大学以及Adobe Research等多家机构的研究团队共同完成的突破性研究,发表于2025年12月的计算机视觉顶级会议论文中。有兴趣深入了解的读者可以通过论文编号arXiv:2512.06818查询完整论文。
回想一下你玩游戏时的体验:当你的角色撞到墙壁时会停下来,当物体掉落时会发出声音,当光线照射时会产生阴影。这些看似理所当然的互动,背后都依赖于游戏引擎对3D世界的理解。然而,最新的AI技术在创建逼真虚拟世界时遇到了一个奇怪的问题:它们能生成美丽的画面,却无法让游戏引擎真正"理解"这些世界。
目前最先进的3D场景重建技术,比如大名鼎鼎的3D高斯展开技术,就像是一群会发光的魔法粒子。这些粒子能够漂浮在空中,组合出极其逼真的图像,但问题是它们是半透明的,就像幽灵一样。当你试图在游戏引擎中使用这些"幽灵粒子"时,引擎完全不知道该如何处理它们。这就好比你有一张绝美的全息图,却无法用手去触碰它,也无法让其他物体与它发生碰撞。
研究团队意识到,如果要让AI重建的3D世界真正融入现有的游戏和虚拟现实系统,就必须使用游戏引擎天生理解的语言:实心的三角形网格。这就像是要把那些飘忽不定的幽灵,变成实实在在可以触摸、可以碰撞的真实物体。
为了解决这个挑战,研究团队开发了一种名为"MeshSplatting"的新方法。这个方法的巧妙之处在于,它不是试图在最后阶段把"幽灵粒子"强行转换成实体,而是从一开始就培养"实体三角形",让它们在训练过程中逐渐学会如何协作,最终形成一个连贯的、完全不透明的3D网格世界。
整个过程就像是训练一支舞蹈团队。最初,每个舞者(三角形)都是独立的,可以自由移动和变化。但随着训练的进行,舞者们开始学会合作,共享位置信息,形成连贯的编队。到了训练的后期,所有舞者都变得完全不透明,形成一个统一的、可以与观众真实互动的表演整体。
这种方法带来的改进是显著的。在标准的图像质量测试中,MeshSplatting比当前最好的网格重建方法提高了0.69分贝的图像质量,同时训练速度提升了一倍,内存使用量减半。更重要的是,生成的3D世界可以直接导入到Unity、虚幻引擎等主流游戏引擎中,无需任何额外的转换步骤,立即就能支持物理碰撞、光线追踪和实时互动。
一、从汤到网格:重建3D世界的演化之路
为了理解这项研究的重要性,我们需要先了解3D世界重建技术的发展历程。早期的方法就像是用粘土捏雕塑:研究人员试图直接优化实心的三角形表面,但这种方法需要非常精确的初始形状,就像雕塑家需要一块形状合适的原石一样。如果初始形状不对,整个过程就会失败。
后来出现了一种革命性的方法,叫做神经辐射场。这种方法不再试图直接创建实体表面,而是学习空间中每一点的"发光规律"。这就像是在空间中布满了无数个智能灯泡,每个灯泡都知道在什么角度、什么时候应该发出什么颜色的光。当你从不同角度观看时,这些灯泡会协调工作,产生逼真的图像。
在神经辐射场的基础上,3D高斯展开技术进一步改进了这个概念。不再使用固定的灯泡,而是使用数百万个可以移动、可以调整形状和透明度的"魔法粒子"。每个粒子都像一个小小的彩色云团,能够发出柔和的光晕。通过精心安排这些粒子的位置、大小、颜色和透明度,可以创造出极其逼真的3D场景。
这种方法的优势是显而易见的:训练速度快,图像质量高,而且可以实时渲染。然而,问题也同样明显:这些"魔法粒子"对传统的游戏引擎来说完全是外星技术。游戏引擎几十年来都是基于一个简单而可靠的原理工作的:世界由实心的三角形组成,光线要么被这些三角形阻挡,要么穿过它们之间的空隙。它们不知道如何处理半透明的、会发光的云团。
为了解决这个兼容性问题,之前的研究尝试了各种"翻译"方法。有些研究试图在训练完成后,将这些魔法粒子转换成传统的三角形网格,就像是试图把一团云彩固化成雕塑。另一些研究则试图教会游戏引擎如何理解这些新型粒子,但这需要对引擎进行大量修改,成本高昂且复杂。
这就是MeshSplatting要解决的核心问题:能否从一开始就使用游戏引擎的"母语"—实心三角形,来创建高质量的3D场景,而不需要任何翻译或转换过程?
二、三角形的觉醒:从独立个体到协作网络
MeshSplatting的核心创新在于重新设计了三角形的"成长过程"。在传统方法中,每个三角形都是完全独立的个体,就像是一群互不相识的陌生人站在同一个房间里。而MeshSplatting则让这些三角形从一开始就学会"握手"和"交谈",逐渐形成一个紧密合作的社群。
这个过程分为两个主要阶段,就像是培养一支乐队的过程。第一阶段是"独奏练习"阶段。研究团队从传统的结构光测量中获得稀疏的3D点云,这些点就像是音乐厅中随意散落的音符。围绕每个点,他们放置一个小小的等边三角形,就像是为每个音符配上一个乐器。
在这个阶段,每个三角形都可以自由移动、旋转、改变大小,甚至调整自己的透明度和颜色。这种自由度让它们能够快速适应场景的需要,就像乐手在独自练习时可以随意发挥一样。关键的是,这些三角形最初都是半透明的,这样光线可以穿过它们,梯度信息可以流动到后面的三角形,确保所有部分都能得到有效的训练。
第二阶段是"合奏协调"阶段。当独立训练进行到一定程度后,研究团队引入了一种称为"限制德劳内三角化"的技术。这个技术的作用就像是一位指挥家,将分散的乐手组织成一个协调的乐队。
德劳内三角化是计算几何中的一个经典技术,它的目标是将空间中的点连接成质量良好的三角形网格。但是直接应用德劳内三角化会产生很多不必要的三角形,就像是一个过于严格的指挥家,会让乐队演奏变得僵硬。因此研究团队使用了"限制"版本,它只在原始三角形覆盖的表面附近创建连接,保持了灵活性的同时增加了连通性。
这个过程的巧妙之处在于,它不会创建新的顶点或修改现有顶点的位置,而只是重新组织连接关系。这就像是重新安排乐手的座位,让他们能够更好地听到彼此的演奏,但不改变任何人的乐器或技能。
在连接建立后,三角形开始共享顶点信息。当一个顶点被多个三角形共享时,来自所有相邻三角形的梯度都会汇聚到这个顶点上,就像是多个乐手的演奏都会影响整体的和声效果。这种共享机制确保了整个网格的连贯性和平滑性。
三、从透明到实体:渐进式固化的艺术
让半透明的三角形变成完全不透明的实体,这个过程需要极其小心的处理。这就像是制作琉璃工艺品:如果加热太快,玻璃会破裂;如果加热太慢,无法达到理想的形状。研究团队设计了一套精巧的"渐进固化"策略。
这个策略控制两个关键参数:不透明度和边缘锐度。每个三角形都有一个不透明度参数,控制它阻挡光线的程度。同时,每个三角形还有一个"锐度参数",控制它的边缘是柔和渐变的还是清晰锐利的。
在训练初期,所有三角形都相对透明且边缘柔和,这样梯度可以自由流动,优化过程保持稳定。随着训练的进行,系统会逐渐增加三角形的不透明度,同时锐化它们的边缘。这个过程就像是慢慢调亮灯光,同时让模糊的影像逐渐变得清晰。
具体来说,研究团队使用了一种重新参数化的技巧。他们不是直接优化不透明度,而是优化一个中间变量,然后通过数学变换将其映射到最终的不透明度值。这种变换会随着训练的进行而改变其特性,早期鼓励多样性,后期推向完全不透明。
锐度参数的调度也同样重要。在训练开始时,这个参数设置为1.0,对应着柔和的边缘过渡。随着训练的进行,这个参数会线性减少到接近零的值,使三角形变得越来越像真正的实体表面。到训练结束时,每个三角形都变成了有着清晰边界的实心片段,完全符合游戏引擎的期望。
这种渐进式的方法避免了突然改变造成的训练不稳定。如果一开始就使用完全不透明的三角形,梯度无法有效传播到被遮挡的区域,导致那些区域无法得到充分训练。通过逐渐增加不透明度,系统确保了所有区域都能在训练过程中得到适当的优化。
四、智能生长与修剪:网格的动态优化
一个高质量的3D网格不仅需要正确的形状,还需要合适的密度分布。在复杂的场景中,有些区域(比如精细的纹理或复杂的几何细节)需要更多的三角形来准确表示,而其他区域(比如大片的平坦表面)则可以用较少的三角形覆盖。
MeshSplatting采用了一种受3D高斯展开启发的动态优化策略,就像是一个智能的园丁,知道在哪里种植更多的植物,在哪里进行修剪。这个过程包括"致密化"和"修剪"两个互补的操作。
致密化过程就像是在需要的地方"播种"新的三角形。系统会监控每个三角形在渲染过程中的重要性,通过分析它们的不透明度和渲染权重来确定哪些区域需要更多的细节。当发现某个三角形承担了过多的表示责任时,系统会对其进行细分。
这种细分使用的是"中点分割"技术,就像是把一片大叶子分成四片小叶子。原始三角形的三条边的中点被连接起来,形成四个新的小三角形。新产生的顶点会继承邻近顶点的颜色和不透明度属性,确保视觉的连续性。
与传统的三角形汤方法不同,MeshSplatting的致密化过程充分利用了网格的连通性。在传统方法中,分割一个三角形会产生12个新的顶点,因为每个新三角形都需要独立的顶点。而在MeshSplatting中,由于顶点是共享的,同样的分割只产生6个新顶点,大大提高了内存效率。
修剪过程则是致密化的反面,负责移除不必要的三角形。这个过程分为几个阶段进行。在训练的中期(大约5000次迭代时),系统会进行一次"大修剪",移除所有不透明度低于阈值的三角形。这一步通常会删除大约70%的三角形,主要是那些对最终图像贡献很小的冗余几何体。
在训练的后期,修剪策略变得更加精细。系统不再仅仅依据不透明度,而是监控每个三角形在体积渲染中的最大混合权重。这个权重反映了三角形在所有视角下的实际渲染重要性。随着三角形变得越来越不透明,那些始终被其他三角形遮挡的部分会自然地被识别出来并删除。
训练结束时,系统还会进行最后一轮清理,遍历所有训练视角,删除那些从未被渲染过的三角形。这确保了最终的网格是紧凑而高效的,不包含任何无用的几何体。
五、多重约束的协调:保持几何一致性
创建高质量的3D网格不仅仅是关于视觉效果,还需要确保几何的准确性和一致性。MeshSplatting引入了几种互补的约束机制,就像是一个建筑工程中的多重安全检查系统。
首先是深度对齐约束。这个约束的作用是确保重建的表面与观察到的深度信息一致。研究团队使用现代深度估计技术来获得场景的深度图,然后要求网格顶点的深度与这些观察值保持一致。这就像是在建造房子时不断用水平仪检查,确保墙壁是垂直的,地板是水平的。
深度对齐的实现方式很直接但很有效:对于每个渲染的顶点,系统会查看其在深度图中对应位置的预期深度值,然后计算实际深度与预期深度之间的差异。这个差异会被转化为一个惩罚项,推动顶点移动到正确的深度位置。
其次是法向一致性约束。在真实的物理表面上,相邻区域的法向量应该是平滑变化的,不应该出现突然的跳跃。MeshSplatting借鉴了2D高斯展开的思想,引入了法向正则化项。这个约束鼓励相邻三角形的法向量保持一致,就像是要求相邻的瓦片在屋顶上平滑衔接。
法向约束可以通过两种方式获得监督信息:一是使用外部法向估计网络,二是使用自监督的正则化。外部监督提供了额外的几何信息,而自监督正则化则确保即使没有外部信息,表面也能保持合理的平滑性。
第三个重要约束是不透明度正则化。这个约束鼓励三角形尽可能变得完全不透明或完全透明,避免停留在中间状态。这就像是在制作蛋糕时,要么完全烤熟,要么就是生的,半熟的状态是不可接受的。
这个正则化项的设计很巧妙:它对接近0或接近1的不透明度值给予奖励,而对中间值进行惩罚。这样的设计推动系统做出明确的决策:每个三角形要么是表面的一部分(不透明),要么不是(透明)。
最后是几何平滑性约束。虽然MeshSplatting主要关注视觉质量,但也包含了一些几何平滑性的考虑。通过引入适度的平滑性约束,可以防止表面出现不自然的褶皱或突起,确保最终的网格具有良好的几何质量。
这些约束的权重需要仔细平衡。过强的约束会限制表示能力,导致细节丢失;过弱的约束则可能导致几何不一致或视觉伪影。研究团队通过大量实验确定了合适的权重组合,在视觉质量和几何一致性之间取得了良好的平衡。
六、实验验证:在真实世界中的表现
为了验证MeshSplatting的有效性,研究团队在多个标准数据集上进行了全面的实验评估。这些实验就像是对一个新产品进行全方位的质量检测,确保它在各种条件下都能稳定可靠地工作。
主要的评估使用了MipNeRF360数据集,这是一个包含室内外复杂场景的标准测试集。这个数据集特别有挑战性,因为它包含了各种复杂的光照条件、精细的纹理细节,以及大范围的几何结构。在这个数据集上,MeshSplatting与当前最先进的网格重建方法MiLo相比,在图像质量指标PSNR上提高了0.69分贝,这是一个显著的改进。
更重要的是,MeshSplatting在感知质量指标LPIPS上表现优异,这个指标更好地反映了人类视觉系统对图像质量的感知。在大多数场景中,MeshSplatting产生的图像更加清晰,伪影更少,细节保持更好。这就像是两台相机拍摄同一个场景,MeshSplatting的"照片"不仅更清晰,而且看起来更自然。
在Tanks and Temples数据集上的结果进一步证实了方法的有效性。这个数据集专门设计用于评估大规模户外场景的重建质量。虽然MeshSplatting在某些场景的PSNR指标上略低于一些竞争方法,但在感知质量和视觉一致性方面表现更好。
实验还包括了效率方面的比较。MeshSplatting的训练时间比MiLo快一倍,平均只需要48分钟就能完成一个场景的训练,而MiLo需要106分钟。这种速度优势主要来自于方法的简洁性:MeshSplatting不需要在每次迭代中重新计算德劳内三角化,而只在训练过程中执行一次。
内存使用方面的优势更加显著。MeshSplatting生成的最终模型只有100MB,相比之下,其他方法通常需要250MB到1.5GB的存储空间。这种紧凑性使得模型更容易在移动设备或资源受限的环境中使用。
研究团队还在DTU数据集上评估了几何重建的质量。虽然MeshSplatting主要针对视觉质量进行优化,但在几何精度方面也达到了与专门的几何重建方法相当的水平。这证明了方法的通用性:它不仅能产生好看的图像,还能创建几何上准确的3D模型。
七、实际应用:从虚拟到现实的桥梁
MeshSplatting的真正价值在于其直接的实用性。与需要复杂后处理的其他方法不同,MeshSplatting生成的网格可以立即用于各种实际应用中,就像是一个即插即用的解决方案。
在游戏开发中,这种直接兼容性带来了革命性的改变。传统上,将AI重建的场景导入游戏引擎需要复杂的转换过程,往往伴随着质量损失和兼容性问题。而MeshSplatting生成的网格可以直接拖放到Unity或虚幻引擎中,立即就能支持所有标准的游戏功能:物理碰撞检测、光线追踪、阴影计算、纹理映射等等。
物理仿真是另一个重要的应用领域。由于MeshSplatting生成的是实心的、连通的网格,它们可以直接用作物理仿真中的刚体或软体。研究团队演示了如何在Unity游戏引擎中使用这些网格进行实时物理交互:虚拟球体可以在重建的桌面上弹跳,虚拟角色可以在重建的地面上行走,所有这些都不需要任何额外的设置或修改。
对象分割和场景编辑也变得异常简单。在传统的基于粒子的表示中,确定哪些粒子属于同一个对象是一个复杂的问题,因为单个像素可能受到多个粒子的影响。而在MeshSplatting中,每个像素都由单一的三角形渲染,这使得对象识别变得简单明了。
研究团队演示了如何使用现成的分割工具(如SAM v2)来自动提取场景中的对象。用户只需要在一张图像上标记感兴趣的对象,系统就能自动识别属于该对象的所有三角形,并将其提取为独立的子网格。这个过程通常只需要几分钟,而且可以处理复杂的形状和部分遮挡的情况。
虚拟现实和增强现实应用也从这种直接兼容性中受益匪浅。MeshSplatting重建的场景可以直接用于VR环境中,支持用户的自由探索和交互。由于网格是连通的和实心的,用户可以使用标准的VR控制器与虚拟物体进行真实的物理交互。
在建筑和城市规划中,MeshSplatting能够从无人机拍摄的照片中重建完整的建筑物和街区模型。这些模型可以直接导入到建筑设计软件中,用于规划、分析和可视化。相比传统的建模方法,这种自动化重建大大减少了人工建模的时间和成本。
教育和培训领域也是一个有前景的应用方向。复杂的真实场景可以被快速数字化,然后用于虚拟培训环境。例如,医学院可以重建真实的手术室,工程学院可以重建复杂的机械设备,让学生在安全的虚拟环境中进行实践学习。
八、技术细节:精密工程的艺术
MeshSplatting的成功不仅在于其整体架构,也在于许多精心设计的技术细节。这些细节就像是一台精密钟表中的各个齿轮,每一个都扮演着关键的角色。
在渲染管道的设计上,MeshSplatting采用了一种巧妙的混合策略。在训练期间,它使用类似于体积渲染的方式来处理半透明三角形,确保梯度能够有效传播。但在推理阶段,由于所有三角形都变成了完全不透明,渲染简化为标准的深度缓冲光栅化,这大大提高了渲染效率。
颜色表示方面,MeshSplatting使用球谐函数来编码每个顶点的颜色信息。球谐函数是一种数学工具,能够有效地表示复杂的光照和颜色变化。这就像是给每个顶点配备了一个智能的色彩调节器,能够根据观察角度和光照条件动态调整颜色。这种表示方法比简单的RGB颜色更加灵活,能够更好地处理复杂的光照效果。
在网格连通性的维护上,研究团队开发了一套专门的数据结构和算法。这套系统能够高效地跟踪顶点-三角形的关联关系,确保在动态修改过程中网格的拓扑结构保持正确。这就像是维护一个复杂的社交网络,需要时刻知道每个人都与谁有关系。
反走样处理是另一个重要的技术细节。由于MeshSplatting使用的是实心三角形,锐利的边缘可能导致渲染时出现锯齿现象。为了解决这个问题,研究团队在训练和测试的最后阶段引入了超采样技术:以更高的分辨率渲染,然后下采样到目标分辨率。这种处理就像是用高清相机拍照然后适度缩小,能够有效减少锯齿效应。
梯度计算的优化也很值得关注。在传统的三角形渲染中,梯度计算往往是不连续的,这会导致优化过程不稳定。MeshSplatting通过使用平滑的窗口函数来软化三角形的边界,使得梯度变得连续可微,大大提高了优化的稳定性和效率。
内存管理是实际应用中的一个关键考虑。MeshSplatting实现了一套智能的内存分配策略,能够根据场景的复杂度动态调整内存使用。在致密化过程中,系统会预测内存需求,避免内存溢出。在修剪过程中,释放的内存会被立即回收,保持系统的高效运行。
九、性能分析:速度与质量的平衡
MeshSplatting在性能方面的表现令人印象深刻,特别是考虑到它同时优化了视觉质量和几何准确性。这种平衡就像是设计一台既快速又精准的赛车,需要在多个相互竞争的目标之间找到最佳平衡点。
训练效率的提升主要来自几个方面。首先,顶点共享机制大大减少了需要优化的参数数量。在传统的三角形汤方法中,每个三角形的三个顶点都是独立的,这意味着大量的冗余参数。而在MeshSplatting中,相邻三角形共享顶点,参数数量减少了约50%。
其次,德劳内三角化只执行一次,而不是在每次迭代中重新计算。这个设计决策基于一个重要的观察:一旦顶点位置大致稳定(通常在训练中期),网格的拓扑结构就不需要频繁改变。这就像是在建造房子时,一旦地基打好,就不需要每天重新规划房间的布局。
内存效率的改进也很显著。MeshSplatting最终生成的模型只有100MB,相比之下,竞争方法通常需要250MB到1.5GB。这种压缩主要来自两个方面:一是顶点共享减少了几何数据的冗余;二是不透明三角形的表示比半透明粒子更加紧凑。
渲染性能在不同硬件上都表现出色。在消费级的MacBook M4上,MeshSplatting可以以220 FPS的速度渲染HD分辨率的图像,以190 FPS的速度渲染Full HD图像。相比之下,一些竞争方法在同样的硬件上会出现内存溢出错误,无法运行。
可扩展性测试显示,MeshSplatting的性能随着三角形数量的增加而平滑扩展。从200万顶点增加到500万顶点时,PSNR提高了0.46分贝,LPIPS改善了0.06,这表明增加几何复杂度能够带来相应的质量提升,而不是简单的资源浪费。
网格质量分析表明,MeshSplatting生成的网格具有良好的几何属性。顶点-面比例为0.48,非常接近理论上的0.5(对于封闭的流形表面),这表明网格是紧凑而高效的。平均顶点度数为3.7,也接近理想的三角网格的期望值。
连通性统计显示,最终网格中约98%的三角形都与至少一个邻居相连,只有不到2%的三角形是孤立的。这些孤立三角形主要出现在场景的边界区域,这是合理和预期的结果。
十、局限性与未来方向:完美路上的里程碑
尽管MeshSplatting取得了显著的成功,但像任何科学研究一样,它也有一些局限性和有待改进的地方。认识这些局限性对于理解方法的适用范围和未来的发展方向具有重要意义。
最明显的局限性是对透明物体的处理。由于MeshSplatting专门设计用于生成不透明的网格,它在处理玻璃、水面、或其他透明材料时会遇到困难。这就像是用不透明的积木来模拟透明的玻璃杯,从根本概念上就存在冲突。对于包含大量透明元素的场景,可能需要混合使用不同的表示方法。
背景重建的质量在某些情况下也不够理想,特别是当初始点云在背景区域稀疏时。这个问题主要出现在户外场景中,因为结构光测量技术通常专注于前景物体,对远距离的背景区域覆盖不足。这就像是试图根据稀疏的线索重建完整的故事,缺失的信息会导致重建质量下降。
方法对初始化的依赖性也是一个需要关注的问题。虽然MeshSplatting比早期的网格优化方法更加鲁棒,但它仍然需要相对合理的初始点云。如果初始化严重偏离真实几何,优化过程可能陷入局部最优解。
在处理极细微的几何细节时,MeshSplatting有时会出现过度平滑的现象。这是因为网格连通性和平滑性约束可能会抑制非常尖锐的特征。对于需要保持锐利边缘的应用(如工业零件的精确建模),可能需要调整约束的权重或引入额外的锐度保持机制。
计算复杂度虽然已经显著改善,但对于非常大规模的场景(如整个城市街区)仍然具有挑战性。当场景包含数千万个顶点时,内存需求和计算时间都会显著增加。这需要更加先进的分层处理或分布式计算策略。
针对这些局限性,研究团队和相关领域的学者正在探索多个有前景的方向。混合表示方法是一个重要方向,它结合不透明网格和其他表示技术(如粒子系统或体积表示)来处理不同类型的材料。这就像是在工具箱中配备不同的工具,针对不同的任务使用最合适的工具。
更先进的颜色表示也是一个活跃的研究方向。目前使用的球谐函数虽然有效,但在处理复杂光照效果时仍有限制。引入神经纹理或可学习的材质模型可能会带来更好的视觉效果,特别是在处理反射、折射等复杂光学现象时。
自适应分辨率处理是另一个有潜力的改进方向。当前的方法在整个场景中使用统一的分辨率,但实际上不同区域可能需要不同级别的细节。开发能够根据视觉重要性自适应调整网格密度的算法,可以在保持质量的同时进一步提高效率。
与其他AI技术的集成也展现出巨大的潜力。将MeshSplatting与现代的生成模型结合,可能实现从文本描述或草图直接生成高质量3D网格的能力。这将开辟全新的创意工具和应用场景。
说到底,MeshSplatting代表了3D重建技术发展中的一个重要里程碑。它不仅解决了当前技术栈中的一个关键兼容性问题,还为未来的研究和应用奠定了坚实的基础。从现在的角度来看,这项研究的最大价值在于它架起了AI重建技术与传统图形管道之间的桥梁,让先进的AI技术能够无缝融入现有的工作流程中。
对于普通用户而言,这意味着在不久的将来,我们可能会看到更多基于真实场景重建的游戏、更逼真的虚拟旅游体验、更精准的建筑规划工具,以及各种我们现在还难以想象的新应用。这项研究不仅是技术上的进步,更是向着更加沉浸和互动的数字世界迈出的重要一步。
Q&A
Q1:MeshSplatting和传统3D重建方法有什么区别?
A:MeshSplatting直接生成游戏引擎可以使用的实心三角形网格,而传统方法如3D高斯展开生成的是半透明"粒子",需要复杂的后期转换才能在游戏中使用,而且往往伴随质量损失。
Q2:MeshSplatting生成的3D模型能用来做什么?
A:可以直接导入Unity、虚幻引擎等游戏引擎进行物理模拟、碰撞检测、光线追踪,也可用于VR/AR应用、建筑规划、虚拟旅游等,支持真实的物理交互。
Q3:MeshSplatting的训练需要多长时间?
A:平均只需48分钟就能完成一个场景的训练,比当前最先进方法快一倍,生成的模型文件只有100MB,比其他方法小2-15倍。
好文章,需要你的鼓励
openGauss的目标是探索oGRAC和超节点深度融合的可能,打造超节点原生数据库。
清华团队开发DKT模型,利用视频扩散AI技术成功解决透明物体深度估计难题。该研究创建了首个透明物体视频数据集TransPhy3D,通过改造预训练视频生成模型,实现了准确的透明物体深度和法向量估计。在机器人抓取实验中,DKT将成功率提升至73%,为智能系统处理复杂视觉场景开辟新路径。
字节跳动研究团队提出了专家-路由器耦合损失方法,解决混合专家模型中路由器无法准确理解专家能力的问题。该方法通过让每个专家对其代表性任务产生最强响应,同时确保代表性任务在对应专家处获得最佳处理,建立了专家与路由器的紧密联系。实验表明该方法显著提升了从30亿到150亿参数模型的性能,训练开销仅增加0.2%-0.8%,为混合专家模型优化提供了高效实用的解决方案。
上海AI实验室团队开发的Yume1.5是一个革命性的AI视频生成系统,能够从单张图片或文字描述创造无限可探索的虚拟世界。用户可通过键盘控制实时探索,系统8秒内完成生成,响应精度达0.836,远超现有技术。该系统采用创新的时空通道建模和自强制蒸馏技术,支持文本控制的事件生成,为虚拟现实和内容创作领域开辟了新的可能性。