
这项由伦敦大学学院(UCL)和Adobe研究院联合开展的突破性研究发表于2025年3月的计算机视觉顶级会议,论文编号为arXiv:2603.17995。研究团队开发了一种名为LoST(Level of Semantics Tokenization)的革命性技术,能够让3D物体像人类语言一样被"理解"和"表达"。
就像我们用几个关键词就能描述一个复杂场景一样,这项研究让计算机能够用极少的"词汇"就构建出完整的3D世界。传统方法需要成千上万个数据点才能描述一个3D模型,而LoST技术仅用一两个"语义词汇"就能让计算机"脑补"出一个完整、合理的3D物体。这就好比你只需要说"企鹅",朋友就能在脑海中浮现出一只黑白相间、摇摆走路的可爱动物形象,而不需要你详细描述它的每一根羽毛。
这项技术的核心创新在于改变了3D模型的"表达方式"。以往的方法就像用显微镜描述一幅画,必须逐个像素地记录每个细节。而LoST更像是一个熟练的画家,先用粗笔勾勒出物体的主要特征,然后逐步添加细节。最神奇的是,即使只有最初的粗笔勾勒,观者也能立即认出这是什么物体。
研究团队还开发了一种名为RIDA(Relational Inter-Distance Alignment)的训练方法,这就像是给计算机上了一堂"语义关系课"。通过这种方法,计算机学会了理解不同3D物体之间的语义关系,知道企鹅和鸭子在某种程度上是"相似"的,而企鹅和汽车则完全不同。
实验结果令人惊叹:在各项测试中,LoST技术不仅在语义准确性上大幅超越了现有方法,在几何精度上也表现出色,关键是它只需要传统方法0.1%到10%的数据量就能达到更好的效果。这意味着3D模型的生成速度可以大幅提升,同时质量还更好。
一、重新定义3D世界的"语言":从几何堆砌到语义表达
要理解这项研究的革命性意义,我们不妨先想象一下人类是如何认识和描述3D世界的。当你看到一只小鸟时,你的大脑不会逐个分析它的每根羽毛、每个细胞,而是首先识别出"这是一只鸟"这个基本语义概念,然后再关注它的具体特征,比如颜色、大小、姿态等细节。
然而,传统的3D建模技术就像是一个过分较真的工程师,必须从最细微的几何细节开始构建。这种方法被称为"几何层次细节"(Level of Detail),它的思路是从最粗糙的几何框架开始,逐步添加越来越精细的几何信息。听起来很合理,但问题在于,即使是最粗糙的几何框架,也需要大量的数据点才能让人看出这到底是什么东西。
研究团队发现了这种传统方法的两个致命缺陷。首先是"数据爆炸"问题:即使是描述一个简单物体的基本轮廓,传统方法也需要消耗大量的"词汇"(在计算机术语中称为"token"),这就像用一篇论文的篇幅才能说清楚"这是一只猫"这样简单的概念。其次是"早期不可用"问题:在传统方法的早期阶段,生成的3D模型往往像是抽象艺术品,既不像任何真实物体,也没有明确的语义含义。
LoST技术的核心洞察是:为什么不让3D模型的表达方式更接近人类的认知模式呢?与其按照几何复杂度来组织信息,不如按照语义重要性来排列。这种方法被称为"语义层次细节"(Level of Semantics),它确保了最重要的语义信息总是优先表达。
这种转变的意义深远。在LoST的框架下,一个3D模型的第一个"词汇"就能传达出物体的核心语义特征,比如"这是一只动物"或"这是一件家具"。第二个词汇可能会进一步细化,比如"这是一只四足动物"或"这是一把椅子"。随着词汇的增加,模型会逐步添加更多的细节,比如毛发纹理、特定姿态或装饰元素。
这种方法的美妙之处在于,在任何阶段停止,你都能得到一个语义上完整、视觉上合理的3D模型。就像写诗一样,每一行都是完整的,而不是只有写完最后一个字整首诗才有意义。
研究团队通过大量实验验证了这种方法的有效性。他们发现,使用LoST技术生成的3D模型,即使只用一个词汇,也能让人清楚地识别出物体的类型。而传统方法在使用同样少的词汇时,生成的往往是难以理解的几何碎片。
这种语义优先的方法也为人工智能的发展开辟了新的可能性。现在,AI系统可以像理解文本一样理解3D世界,每个"词汇"都承载着丰富的语义信息,而不是冰冷的几何数据。这为未来的人机交互、虚拟现实和增强现实应用奠定了基础。
二、RIDA技术:教会计算机理解3D世界的"语义地图"
要让计算机按照语义重要性来组织3D信息,关键挑战是如何让计算机真正"理解"什么叫做语义重要性。这就像教一个从未见过颜色的人如何按照颜色深浅来排列物品一样困难。
研究团队的解决方案极其巧妙,他们开发了RIDA(关系间距离对齐)技术。这个方法的核心思想是"借鉴"已经具备强大语义理解能力的现有AI系统。就像一个初学画画的学生会模仿大师的作品来学习构图和色彩搭配一样,RIDA让3D理解系统去学习那些在图像理解方面已经非常成熟的AI模型的"思维方式"。
具体来说,研究团队选择了DINO这个在图像理解领域表现卓越的AI模型作为"老师"。DINO就像是一个经验丰富的艺术鉴赏家,它能够准确地判断不同图像之间的语义关系,知道猫和狗在某种意义上比猫和汽车更相似。
但是,直接让3D系统复制DINO的判断结果是行不通的,因为它们处理的是完全不同类型的数据——一个看的是2D图像,一个处理的是3D几何信息,就像试图让一个习惯听音乐的人直接理解绘画作品一样困难。
RIDA的巧妙之处在于它不试图直接复制DINO的具体判断,而是学习DINO的"关系模式"。这就像学习一位名厨的烹饪思路,而不是机械地复制每一个具体步骤。具体而言,如果DINO认为图像A和图像B很相似,图像A和图像C差别很大,那么RIDA就会调整3D系统,让它在处理对应的3D模型时也产生类似的相似性判断。
这个过程涉及三个精妙设计的学习机制。首先是"全局关系对比学习",这就像教孩子认识动物时,不仅要告诉他"这是猫",还要告诉他"猫比狗更像老虎,而不像鱼"。通过这种对比学习,3D系统逐渐建立起对不同物体类别之间关系的理解。
其次是"实例间等级蒸馏",这个机制更加精细,它不满足于简单的"相似"或"不相似"判断,而是要学习精确的相似程度排序。就像品酒师能够区分不同葡萄酒之间的细微差别并进行精确排序一样,这个机制让3D系统能够理解更加细腻的语义关系。
第三个机制是"空间结构蒸馏",它确保3D系统不仅能理解整体的语义关系,还能理解物体内部各部分之间的关系。比如,在理解一只鸟的时候,系统不仅知道"这是一只鸟",还知道翅膀、头部、尾巴之间的相对重要性和关联性。
通过这三个机制的协同作用,RIDA成功地将图像领域的语义理解能力"翻译"到了3D领域。研究团队的实验表明,经过RIDA训练的系统在3D物体的语义理解上表现出色,能够准确识别物体类别,理解不同物体之间的关系,甚至能够处理一些具有挑战性的情况,比如形状像鱼的潜水艇这样容易混淆的物体。
这种跨领域的知识迁移为AI技术的发展开辟了新思路。它表明,我们可以利用在某个领域已经成熟的AI能力来快速提升其他领域的AI性能,而不必每次都从零开始训练。
三、技术架构:构建语义驱动的3D生成流水线
LoST技术的实现需要一个精心设计的技术架构,这个架构就像一个高度协调的交响乐团,每个组件都有自己的职责,但又必须完美配合才能奏出和谐的乐章。
整个系统的起点是一个基于Vision Transformer(ViT)的编码器,这就像是一个善于观察的画家,能够从复杂的3D信息中提取出最重要的特征。但与传统方法不同的是,LoST的编码器引入了一种叫做"寄存器令牌"(Register Tokens)的创新设计。
想象一下,传统的方法就像是试图用一张巨大的表格来记录一个城市的所有信息,每个格子都对应城市中的一个具体位置。而LoST的方法更像是指派了一队特殊的"记者",这些记者不负责任何具体的地理位置,而是专门负责收集和整理最重要的信息。这些"记者"就是寄存器令牌,它们可以自由地关注任何重要信息,然后将其重新组织成一个有序的故事。
这种设计的巧妙之处在于,寄存器令牌可以按照重要性而不是空间位置来组织信息。就像一个好的新闻编辑会把最重要的新闻放在头版头条,而不管这个新闻发生在城市的哪个角落一样,寄存器令牌确保最重要的语义信息总是被优先编码。
为了训练这些寄存器令牌按照语义重要性排序,研究团队采用了两个关键策略。首先是"因果遮蔽"(Causal Masking),这确保了前面的令牌不能"偷看"后面的令牌,就像学生考试时不能抄袭后面同学的答案一样。这种限制迫使每个令牌都必须基于之前的信息来做出决策,从而形成了一个自然的层次结构。
更重要的是"嵌套丢弃"(Nested Dropout)策略。这个训练技巧就像是随机抽考,系统永远不知道这次会用多少个令牌来描述一个3D物体,可能是1个,可能是16个,也可能是512个。这种不确定性迫使系统学会在任何情况下都能给出合理的结果,前面的令牌必须能够独当一面,后面的令牌只能锦上添花。
在解码端,研究团队采用了基于扩散模型的生成式解码器。传统的解码器就像是严格按照图纸施工的建筑工人,必须精确地重建每一个细节。而生成式解码器更像是一个有创意的建筑师,能够根据有限的信息"脑补"出完整的设计。这种设计理念的转变至关重要,因为当只有很少的令牌时,精确重建是不可能的,但合理的"脑补"却是可行的。
这个生成式解码器使用了扩散变换器(DiT)架构,它就像是一个逐渐显影的照片冲洗过程。开始时,输出是模糊的,充满噪声,但随着处理的进行,图像逐渐变得清晰。在这个过程中,令牌序列充当了"条件信息"的角色,指导着整个生成过程朝着正确的方向发展。
令牌序列的长度决定了生成过程的约束程度。当只有很少令牌时,解码器有更大的创作自由度,可能会生成多种合理的变体。当令牌数量增加时,约束越来越严格,生成结果越来越接近确定性重建。这种渐进式的约束机制确保了系统在任何令牌数量下都能产生有意义的输出。
整个架构的训练需要仔细平衡几何保真度和语义一致性。几何保真度确保生成的3D模型在形状上是合理的,而语义一致性则通过RIDA损失来保证。这两个目标有时会产生冲突,就像在画肖像画时既要追求相似度又要追求艺术美感一样。研究团队通过精心调节损失函数的权重,找到了两者之间的最佳平衡点。
四、从令牌到3D世界:LoST-GPT的语言模型方法
有了能够生成语义有序令牌序列的LoST技术,下一个挑战就是如何让计算机学会"说"这种3D语言。就像人类婴儿通过模仿和练习逐渐学会说话一样,研究团队开发了LoST-GPT,一个专门用于理解和生成3D令牌序列的语言模型。
LoST-GPT的设计哲学与著名的ChatGPT等大型语言模型一脉相承,但它处理的不是文字,而是3D世界的"语义词汇"。这就像是培养一个专门研究3D艺术的诗人,他不用普通的文字,而用一种特殊的"3D诗歌语言"来创作。
传统的3D生成方法通常采用"量化"的方式处理数据,就像把连续的音乐强行切割成一个个孤立的音符一样。这种方法虽然简单,但会损失很多细腻的信息。LoST-GPT采用了一种更先进的连续空间建模方法,它能够处理连续变化的令牌值,就像一个优秀的音乐家能够演奏出平滑的滑音一样。
这种连续建模的实现依赖于扩散损失技术。简单来说,系统不是直接预测下一个令牌的精确值,而是学习预测一个"方向",指向下一个令牌应该在的大致区域。然后通过一个小型的扩散过程来精确定位最终结果。这种方法就像是射箭时先确定大致方向,然后微调瞄准一样,既保持了生成的灵活性,又确保了结果的准确性。
LoST-GPT的训练过程充分利用了语义有序令牌的优势。由于令牌是按照重要性排列的,模型在训练时能够更快地学会"抓重点"。就像学习写文章时,如果先掌握了段落大意,再填充具体细节会容易很多。这种层次化的学习方式使得LoST-GPT能够用相对较少的计算资源达到很好的效果。
在实际应用中,LoST-GPT展现出了令人印象深刻的灵活性。它可以根据不同的需求生成不同详细程度的3D模型。如果需要快速预览,只生成前几个令牌就足够了。如果需要高精度模型,可以继续生成更多令牌。这种"按需生成"的能力在实际应用中非常有价值,就像电视节目可以根据网络状况自动调整清晰度一样。
更有趣的是,LoST-GPT具备了一定的"创意能力"。由于早期令牌主要编码语义信息而非几何细节,系统在生成时会展现出创意变化。比如,当生成"宝箱"这个概念时,早期令牌可能只指定"这是一个容器",而具体是有锁的宝箱还是开放的容器,是金色还是木质,这些细节会在后续令牌中确定。这种创意生成能力为设计师和艺术家提供了新的创作工具。
研究团队还为LoST-GPT增加了条件生成能力,使其能够根据文本描述或图像输入来生成相应的3D模型。这种多模态理解能力让系统能够更好地理解人类的意图,就像一个经验丰富的雕塑家能够根据顾客的口头描述创作出满意的作品一样。
在性能测试中,LoST-GPT展现出了远超传统方法的效率。它只需要128个令牌就能生成高质量的3D模型,而传统方法往往需要数千甚至数万个令牌。这种效率提升不仅意味着更快的生成速度,也使得在移动设备等计算资源有限的环境中部署3D生成技术成为可能。
五、实验验证:从理论到实践的完美转化
任何革命性技术的真正价值都需要通过严格的实验来验证,LoST技术也不例外。研究团队设计了一系列全面而严格的实验,就像给新药做临床试验一样,要确保这项技术在各种真实场景下都能稳定可靠地工作。
实验的设计面临一个有趣的挑战:如何公平地比较不同的方法?这就像比较苹果和橙子一样困难,因为不同的方法使用不同的数据表示和生成策略。为了解决这个问题,研究团队构建了一个"中性"的评估环境,使用了与训练数据完全独立的测试集。
这个测试集的构建颇具匠心。研究团队没有使用常见的简单几何体或清洁的CAD模型,而是选择了更接近真实世界复杂度的3D形状。更重要的是,这些测试形状是使用与LoST训练时完全不同的3D生成管道创建的,这就像用不同厂牌的相机拍摄照片来测试图像识别算法一样,确保了评估的公正性。
在重建质量的测试中,LoST技术展现出了令人瞩目的性能。研究团队使用了三个关键指标来全面评估系统性能。首先是几何精度,通过Chamfer距离来衡量生成形状与原始形状的几何差异,这就像测量两个物体之间的贴合程度一样。其次是语义一致性,通过DINO相似度来评估生成结果是否保持了原始物体的语义特征。第三是视觉质量,通过FID得分来评估生成结果的视觉真实性。
实验结果堪称惊艳。在所有测试条件下,LoST都显著超越了现有的最佳方法。特别值得注意的是,LoST在使用极少令牌时的表现尤其出色。当只使用1个令牌时,LoST的DINO语义相似度达到0.731,而最强的基线方法OctGPT即使使用219个令牌也只能达到0.382。这种差异就像是一个词汇量只有一个单词的外国人能够准确表达复杂意思,而词汇量丰富的人却表达不清一样令人震惊。
更令人印象深刻的是效率优势。LoST在使用512个令牌时达到的性能,相当于传统方法使用数万甚至数十万个令牌才能达到的水平。这种效率提升不仅仅是量的改变,更代表了质的飞跃,就像从算盘升级到计算器一样。
在生成质量的测试中,LoST-GPT同样表现出色。研究团队将其与目前最先进的3D生成方法进行了对比,包括ShapeLLM-Omni、OctGPT和Llama-Mesh等知名系统。测试结果显示,LoST-GPT在FID得分上达到34.251,显著优于竞争对手的48.702到118.576。在DINO语义一致性上,LoST-GPT达到0.758,也明显超越其他方法。
这些数字背后反映的是质的差异。传统方法生成的3D模型往往在早期阶段呈现抽象或不完整的外观,需要大量令牌才能形成可识别的形状。而LoST-GPT从第一个令牌开始就能生成语义清晰、视觉合理的3D形状,随着令牌数量增加,模型变得越来越精细,但始终保持语义的完整性。
研究团队还进行了一项特别有意义的验证实验:形状检索任务。他们使用训练好的RIDA特征来搜索语义相似的3D形状,结果表明RIDA确实学会了有意义的语义表示。在一个有趣的测试案例中,当查询一个鱼形潜水艇时,基于原始几何特征的检索会返回各种鱼类,而基于RIDA特征的检索能够正确返回其他潜水艇,表明系统真正理解了对象的语义身份而非仅仅是外形相似性。
这些实验结果不仅验证了LoST技术的有效性,也为3D生成领域的未来发展指明了方向。它们证明了语义驱动的方法相比传统的几何驱动方法具有根本性的优势,为构建更智能、更高效的3D AI系统奠定了基础。
六、技术细节与创新突破:从概念到实现的工程奇迹
LoST技术的成功不仅在于其创新的理念,更在于一系列精妙的技术细节和工程实现。这些看似细微的技术选择,就像钟表制作中的每一个齿轮和发条一样,都对最终效果产生着关键影响。
在数据处理层面,研究团队做出了一个重要决定:使用Direct3D的VAE潜在空间作为基础表示。这个选择就像选择使用哪种语言来写诗一样重要。Direct3D的triplane表示能够用32×32×3的紧凑格式捕获丰富的3D信息,每个特征向量有16个维度,总共提供3072个特征向量。这种表示既保持了3D信息的完整性,又具有足够的紧凑性以支持高效处理。
Vision Transformer编码器的设计体现了研究团队的深刻洞察。传统方法通常直接处理所有空间位置的信息,就像试图同时听清一个嘈杂房间里所有人的对话一样。而LoST引入的寄存器令牌机制更像是指派了专门的"信息整理员",这些寄存器令牌不绑定任何特定的空间位置,而是专门负责捕获和组织最重要的语义信息。
寄存器令牌的注意力机制设计特别巧妙。研究团队采用了单向注意力模式,寄存器令牌可以关注所有的triplane令牌,但triplane令牌不能"反向"关注寄存器令牌。这种不对称的设计确保了信息从原始几何表示向语义抽象表示的单向流动,防止了语义信息的"污染"或循环依赖。
嵌套丢弃策略的实现也充满了技术智慧。研究团队选择了2的幂次作为丢弃长度(1, 2, 4, 8, 16...),这种选择不是随意的。这样的划分创造了一个自然的层次结构,每一层的信息容量都是前一层的两倍,就像二进制编码一样优雅和高效。这种设计使得模型能够学会在不同的"分辨率"级别上表示信息。
RIDA技术的实现涉及了三个精心设计的损失函数组件,每个组件都有其独特的作用。全局关系对比损失使用了多正样本InfoNCE损失,这种设计允许每个锚点有多个正样本,更好地捕获了语义空间中的复杂关系结构。与传统的单正样本对比学习相比,这种方法能够学习到更加丰富和稳健的语义表示。
实例间等级蒸馏损失的设计特别值得关注。研究团队发现,直接匹配绝对相似度分数在跨模态设置中效果不佳,因为3D和2D表示的相似度分布可能存在系统性差异。因此,他们采用了z-score标准化的方法,只匹配相对排序而忽略绝对数值。这种设计就像比较不同考试的成绩时使用排名而非绝对分数一样,消除了不同评价体系之间的偏差。
空间结构蒸馏损失则关注内部令牌之间的关系模式。这个损失函数计算每个实例内部令牌的自注意力矩阵,然后使用KL散度来匹配教师和学生网络的注意力模式。这种设计确保了学生网络不仅学会了全局的语义判断,还能理解物体内部各部分之间的关系。
扩散解码器的设计融合了最新的生成模型技术。研究团队选择了DiT(Diffusion Transformer)架构,这种架构在图像生成领域已经展现了卓越的性能。在3D应用中,DiT能够根据令牌序列的条件信息生成高质量的triplane表示,同时保持生成过程的可控性和稳定性。
训练过程中的一个关键创新是混合精度训练的应用。研究团队使用bf16(brain floating point 16)格式来平衡计算效率和数值稳定性,这种选择在大规模3D数据训练中特别重要。同时,他们还采用了指数移动平均(EMA)来稳定训练过程,这种技术能够有效减少训练中的震荡,产生更稳定的模型权重。
在LoST-GPT的实现中,连续空间自回归建模是另一个技术亮点。传统的离散令牌方法需要量化步骤,这会不可避免地损失信息。而LoST-GPT直接在连续空间中进行建模,使用小型MLP网络来预测每个位置的条件分布。这种方法就像从数字音乐升级到模拟音乐一样,能够捕获更细腻的细节和变化。
七、应用前景与实际影响:重塑3D创作的未来
LoST技术的成功不仅仅是学术研究的胜利,更是为整个3D创作和应用领域打开了全新的可能性大门。这项技术的影响将远远超出计算机图形学的范畴,触及到我们生活的各个方面。
在游戏开发领域,LoST技术可能带来革命性的改变。传统的游戏开发需要大量的3D建模师花费数月时间创建游戏中的各种资产,从角色到环境道具,每一个模型都需要精心雕琢。而有了LoST技术,游戏开发者可以通过简单的文本描述快速生成高质量的3D模型。更重要的是,由于LoST支持渐进式生成,开发者可以根据游戏的实际需求动态调整模型的详细程度,在远距离场景中使用低详细度模型,在近距离交互时自动切换到高详细度版本。
虚拟现实和增强现实应用也将从这项技术中受益匪浅。在VR环境中,用户经常需要快速创建和修改3D物体,传统的建模工具在VR环境中使用起来既笨重又不直观。LoST技术使得用户可以通过语音描述或简单的手势就创建出想要的3D物体,而且这些物体可以根据需要实时调整复杂程度,确保VR体验的流畅性。
在教育领域,LoST技术可能会彻底改变3D教学的方式。想象一下历史课上,老师只需要说"罗马圆形竞技场",系统就能立即生成一个详细的3D模型供学生观察和探索。生物课上,"心脏"这个词就能召唤出一个可以逐层展示内部结构的3D心脏模型。这种即时的3D可视化能力将使抽象概念变得具象化,大大提升教学效果。
电商和零售行业也将迎来新的机遇。目前,在线购物的一个主要痛点是无法真实感受商品的三维形态。LoST技术可以让商家通过简单的文字描述就生成商品的3D模型,顾客可以从各个角度观察商品,甚至可以看到不同配置下的效果。更进一步,系统可以根据顾客的个人偏好调整展示的详细程度,既满足了快速浏览的需求,也支持深度了解的需要。
建筑和工业设计领域将体验到前所未有的效率提升。建筑师可以通过自然语言描述快速生成建筑的初步3D模型,然后逐步完善细节。工业设计师可以快速迭代产品概念,在早期阶段就能看到产品的三维效果。这种快速原型能力将大大缩短设计周期,促进创新。
医疗领域的应用前景同样令人兴奋。医生可以根据医学描述快速生成器官或病灶的3D模型,用于教学、手术规划或患者沟通。特别是在远程医疗场景中,医生可以通过语言描述快速创建3D模型来解释病情,使得医患沟通更加直观有效。
对于内容创作者和艺术家而言,LoST技术提供了一种全新的创作媒介。他们不再需要掌握复杂的3D建模软件,而是可以像写诗一样,通过语言来"雕塑"3D艺术品。这种创作方式的变革可能会催生全新的艺术形式和创作流派。
在人工智能助手的发展中,LoST技术也具有重要意义。未来的AI助手将能够不仅通过语言,还能通过生成3D模型来回应用户的需求。当用户问"iPhone 15长什么样"时,AI可以直接生成一个3D模型而不仅仅是描述或显示平面图片。
制造业也将从这项技术中获益。在工业4.0的背景下,智能制造系统可以根据订单要求自动生成产品的3D模型,然后直接传输给3D打印机或数控机床进行生产。这种从概念到制造的无缝连接将大大提高制造效率和灵活性。
然而,这项技术的普及也带来了新的挑战和考虑。知识产权保护将成为一个重要议题,因为生成的3D模型可能与现有设计存在相似性。数据隐私和安全也需要特别关注,特别是在涉及敏感信息的应用场景中。此外,技术的普及可能会对传统3D建模师的就业产生影响,需要行业和社会做好相应的转型准备。
说到底,LoST技术代表了人机交互的一个重要进步。它让3D创作从专业技能变成了普通能力,让每个人都能够成为3D世界的创造者。这种民主化的趋势将释放出巨大的创造力和创新潜能,推动整个社会向更加立体化、沉浸化的数字未来迈进。
随着技术的进一步发展和完善,我们有理由相信,LoST技术将成为连接虚拟与现实、想象与创造的重要桥梁,为人类的创造力插上翅膀,让3D世界变得触手可及。
Q&A
Q1:LoST技术和传统3D建模方法有什么本质区别?
A:LoST技术的核心创新在于改变了3D信息的组织方式。传统方法按照几何复杂度来排列信息,必须积累大量几何细节才能形成可识别的形状。而LoST按照语义重要性排列,第一个"词汇"就能表达物体的核心特征,后续词汇逐步添加细节。就像传统方法是用显微镜描述画作,而LoST是像画家一样先勾勒轮廓再填充细节。
Q2:RIDA技术是如何让计算机理解3D物体语义关系的?
A:RIDA技术通过"借鉴"已经很擅长理解图像的AI系统(DINO)来学习语义关系。它不直接复制DINO的具体判断,而是学习DINO的"关系模式"。比如如果DINO认为两张图片很相似,RIDA就会调整3D系统,让它对应的3D模型也产生相似的判断。这种跨领域的知识迁移让3D系统获得了强大的语义理解能力。
Q3:使用LoST技术生成3D模型需要多少计算资源?
A:LoST技术的效率优势非常显著。它只需要128个令牌就能生成高质量3D模型,而传统方法往往需要数千甚至数万个令牌。在实际应用中,生成一个简单物体可能只需要1-4个令牌,复杂物体也很少超过512个令牌。这种效率提升使得在手机等移动设备上运行3D生成成为可能。
好文章,需要你的鼓励
本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。
这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。
中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。
这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。