微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 北大与清华联合突破!如何让电脑像人眼一样看懂物体表面的每一个细节

北大与清华联合突破!如何让电脑像人眼一样看懂物体表面的每一个细节

2025-06-26 19:51
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-26 19:51 科技行者

这项由北京智源人工智能研究院(BAAI)的赵昊研究员领导,联合北京航空航天大学、南京大学、清华大学、北京师范大学、日本国立信息学研究所、北京大学和香港科技大学的多位学者共同完成的重要研究,发表于2025年6月23日的计算机视觉领域顶级会议。感兴趣的读者可以通过论文编号arXiv:2506.18882v1获取完整研究资料。

在我们的日常生活中,当阳光从不同角度照射在一个苹果上时,苹果的明暗会发生变化,但苹果本身的形状和表面纹理是不变的。人眼能够轻松地从这些不同光照下的图像中识别出苹果真实的表面细节。然而,让计算机做到这一点却是一个极其复杂的挑战。这就是摄影测量学中"光度立体视觉"要解决的核心问题。

传统的方法就像是给计算机配了一副有色眼镜,只能在特定的照明条件下工作。如果光线稍有变化,这些方法就会完全失效,就像一个人突然失明一样。更要命的是,这些传统方法需要事先知道光源的确切位置和强度,这在现实世界中几乎是不可能的。

研究团队发现了一个有趣的现象:当他们观察不同方法提取的图像特征时,那些表现更好的方法往往能产生更加一致的特征。这就像是优秀的厨师总能从不同的食材中提取出相似的味道精华一样。这个发现让研究团队意识到,问题的关键在于如何让计算机学会将光照信息和物体表面信息分开处理。

在现实世界中,当我们在博物馆里用手机从不同角度拍摄一件雕塑时,每张照片都受到不同方向灯光的影响。这些照片中,有些部分明亮,有些部分阴暗,但雕塑本身的形状是固定不变的。计算机面临的挑战就是要从这些变化多端的照片中,准确提取出雕塑真实的表面细节和纹理。

为了解决这个问题,研究团队开发了一套名为LINO-UniPS的全新系统。这个系统的工作原理就像是配备了三个不同专长的助手的超级侦探。第一个助手专门负责识别环境光照,第二个助手专门处理点光源,第三个助手则负责处理定向光源。这三个助手通过相互协作,能够准确地从复杂的图像中分离出光照信息和物体表面信息。

系统的核心创新在于引入了"光照寄存器令牌"的概念。这就像是给每种类型的光源配备了专门的收集器,这些收集器能够在处理图像时自动识别并收集相应的光照信息。当系统遇到一张新图像时,这些收集器会自动工作,将光照信息从物体表面信息中分离出来,就像磁铁能够将铁屑从沙子中分离出来一样。

在处理图像细节方面,研究团队采用了小波变换技术。这种技术就像是配备了不同焦距镜头的相机,能够同时捕捉图像的整体轮廓和精细纹理。传统方法在处理图像时往往会丢失一些重要的细节信息,就像用粗糙的画笔作画会模糊掉精细的线条一样。而小波变换技术能够保持这些珍贵的细节信息不丢失。

为了训练这个系统,研究团队还创建了一个名为PS-Verse的大型数据集。这个数据集包含了10万个不同复杂程度的场景,就像是为系统准备了一个从简单到复杂的渐进式训练课程。数据集被分为五个难度等级,从最简单的几何形状到极其复杂的表面纹理,确保系统能够逐步掌握各种情况下的处理能力。

特别值得一提的是,研究团队首次在数据生成过程中使用了法线贴图技术。这种技术能够在不增加几何复杂度的情况下,为简单的三维模型添加极其丰富的表面细节。这就像是给一个平滑的气球表面画上复杂的纹理,从远处看起来就像是真的有这些凹凸不平的细节一样。

在具体的技术实现上,系统采用了交替注意力机制。这种机制让系统能够同时关注局部细节和全局信息,就像一个经验丰富的画家既能把握整幅画的构图,又不会忽略任何一个细节。系统通过四个层次的注意力处理:首先关注单张图像内的信息,然后处理不同光照条件下的信息,接着进行全局信息整合,最后再次优化光照轴向的信息处理。

为了确保系统能够准确地识别不同类型的光源,研究团队设计了一套光源对齐策略。在训练过程中,系统会学习将收集到的光照信息与已知的光源类型进行匹配。这个过程使用余弦相似度作为监督信号,确保系统能够准确区分环境光、点光源和定向光源的特征。

系统还引入了法线梯度感知损失函数。这个函数的作用是让系统更加关注那些几何变化剧烈的区域。在这些区域,表面法线变化很快,包含了丰富的几何信息。通过这种设计,系统能够在重建物体表面时特别保留这些重要的细节信息。

在实验验证阶段,研究团队在多个公开数据集上测试了新系统的性能。结果显示,LINO-UniPS在几乎所有测试指标上都明显优于现有的最先进方法。特别是在处理具有复杂几何结构的物体时,新系统的优势更加明显。

在DiLiGenT基准测试中,新系统在10个测试对象中取得了最多的最佳结果,平均角度误差降低到了4.74度,相比之前的最佳方法有显著改善。在LUCES数据集上的测试结果更加令人惊喜,新系统的平均误差只有9.48度,远低于其他竞争方法。

特别有趣的是,研究团队还测试了一个简化版本的系统,将复杂的解码器替换为简单的多层感知器。令人惊讶的是,即使使用这样简化的解码器,系统仍然能够显著超越其他复杂的竞争方法。这个结果有力地证明了新编码器设计的优越性。

在处理真实世界数据时,新系统同样表现出色。无论是博物馆中的文物、日常生活中的物品,还是工业场景中的机械零件,系统都能够准确重建出细致的表面细节。这种强大的泛化能力使得系统在实际应用中具有巨大的潜力。

研究团队还特别关注了系统的计算效率。虽然引入了全局注意力机制会增加一定的计算负担,但相比于一些需要多尺度处理的竞争方法,新系统的推理速度仍然相对较快。在H100 GPU上处理16张512×512分辨率的图像只需要大约2秒钟。

值得注意的是,研究团队诚实地指出了系统的一些局限性。对于一些近似平面但具有精细凹凸细节的物体,系统有时会出现表面法线方向判断错误的情况。这主要是因为在没有明确光源信息的情况下,系统难以准确判断光线的来源方向。

这项研究的意义远不止于技术层面的突破。在虚拟现实和增强现实应用中,准确的表面重建是创造逼真虚拟环境的关键。在文物保护领域,这种技术能够帮助博物馆创建文物的高精度数字副本。在工业检测中,精确的表面分析对于质量控制至关重要。在电影和游戏制作中,这种技术能够大大简化数字资产的创建流程。

研究团队的工作还体现了现代人工智能研究的一个重要趋势:通过深入理解问题的本质,设计更加智能和高效的解决方案。与简单地增加模型复杂度相比,这种方法更加注重解决问题的根本原理,因此能够取得更加持久和广泛的成功。

从技术发展的角度来看,这项研究为计算机视觉领域提供了一个新的思路:如何更好地处理复杂的多模态信息。光照和几何信息的分离处理不仅适用于光度立体视觉,也可能为其他相关领域提供借鉴。

说到底,这项研究成功地让计算机获得了一种类似人眼的能力:能够从变化的光照中准确识别物体的真实形状和纹理。这种能力的实现不仅代表了技术上的重大进步,更为我们打开了通向更智能、更精确的计算机视觉系统的大门。未来,当我们用手机扫描一个物体就能立即获得其精确的三维模型时,这项研究的价值将会得到最好的体现。有兴趣深入了解技术细节的读者可以通过arXiv:2506.18882v1获取完整的研究论文。

Q&A

Q1:什么是光度立体视觉技术?它能做什么? A:光度立体视觉是一种让计算机从多张不同光照条件下的照片中重建物体表面细节的技术。就像人眼能从不同角度的光线中看清物体真实形状一样,这种技术让计算机也具备了这种能力,可以用于文物数字化、工业检测、虚拟现实等领域。

Q2:LINO-UniPS比传统方法有什么优势? A:传统方法需要事先知道光源位置和强度,就像戴着有色眼镜只能在特定条件下工作。而LINO-UniPS能够自动识别和分离不同类型的光照信息,在任何光照条件下都能准确重建物体表面,而且处理细节的能力更强,误差更小。

Q3:这项技术会在日常生活中如何应用? A:未来你可能只需要用手机从不同角度拍几张照片,就能立即获得物体的精确三维模型。这可以用于在线购物的商品展示、文物保护的数字存档、医疗影像的精确分析,甚至是游戏和电影中逼真场景的快速创建。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-