微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 清华大学和腾讯混元联手:AI机器人终于学会了"记住"空间的秘密

清华大学和腾讯混元联手:AI机器人终于学会了"记住"空间的秘密

2026-03-23 15:24
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-03-23 15:24 科技行者

这项突破性研究来自清华大学和腾讯混元团队的合作,发表于2026年3月,论文编号为arXiv:2603.12255v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

想象一下,当你走进一个陌生的商场,眼睛会自动记住刚刚经过的店铺位置、电梯在哪里、洗手间的方向。即使走了很远,你依然能够回忆起整个路线,并且在需要时准确找到目标位置。这种空间记忆能力对人类来说再自然不过,但对于AI机器人而言,却一直是个巨大的挑战。

过去的AI视觉系统就像一个只能看到眼前几米的人,虽然能识别物体,但无法构建和维持长期的空间记忆。当机器人在一个大型建筑中移动时,它很快就会"忘记"刚刚经过的房间,更别说准确导航到远处的目标位置了。这就好比你每隔几秒钟就失忆一次,想要在复杂环境中正常行动几乎是不可能的。

现在,清华大学和腾讯混元的研究团队开发出了一种名为"Spatial-TTT"的革命性技术,让AI首次拥有了类似人类的空间记忆能力。这项技术的核心创新在于使用"测试时训练"的方法,让AI能够在观看视频的过程中不断更新自己的空间记忆,就像人脑在探索新环境时会自动建立和完善心理地图一样。

研究团队设计的这套系统就像给AI安装了一个"空间记忆银行"。当AI观看长时间的视频流时,它会将重要的空间信息存储在这个特殊的记忆系统中。与传统方法不同,这个记忆系统不是固定不变的,而是会根据新观察到的内容不断自我调整和优化,确保始终保存最有用的空间信息。

更令人惊喜的是,研究团队还为这套系统加入了"空间预测机制"。这就像给AI的眼睛安装了一副特殊的"空间透镜",让它不仅能看到当前画面,还能理解物体之间的几何关系和时间上的连续性。这种能力让AI在面对遮挡、视角变化等复杂情况时,依然能够维持准确的空间理解。

实验结果显示,这套系统在多个权威测试中都取得了突破性成果。在VSI-Bench空间理解测试中,Spatial-TTT的综合得分达到了64.4分,超越了包括GPT-5、Gemini-3-Pro在内的所有主流AI模型。更重要的是,即使面对长达120分钟的连续视频,这套系统依然能够准确记住和定位特定物体,这是此前任何AI系统都无法达到的水平。

这项技术突破对我们的日常生活意味着什么呢?在不久的将来,配备这种空间记忆能力的机器人助手将能够在大型医院中准确导航,帮助病人和访客找到目标科室;在智能家居环境中,AI将能够记住每件物品的位置,主动提醒你钥匙放在哪里;在自动驾驶领域,车辆将拥有更强的空间感知能力,在复杂的城市环境中做出更安全、更智能的决策。

一、解密AI的"空间失忆症"难题

要理解这项研究的革命性意义,我们需要先了解AI在空间理解方面面临的根本困难。现有的多模态大语言模型虽然在图像识别和对话方面表现出色,但在处理空间信息时却存在严重的局限性。

这个问题的根源在于训练数据的特点。绝大多数AI模型都是在大量的图片-文字配对数据上训练的,这些数据主要关注的是"这是什么"而不是"这在哪里"。就好比你从小到大只学习过物体的名称,但从未学习过它们在空间中的位置关系,自然很难建立起准确的空间认知。

更严重的问题是传统注意力机制的计算复杂度。当AI需要处理长时间的视频序列时,计算量会按平方级增长。比如处理100帧图像可能需要1小时,那么处理1000帧就需要100小时,这在实际应用中是完全不可行的。这就像让一个人同时记住成千上万个细节,大脑很快就会因为信息过载而崩溃。

现有的解决方案通常采用"时间采样"的方法,即只选择视频中的部分关键帧进行分析。然而这种做法就像看电影时只看每隔10分钟的一个画面,虽然能大致了解剧情,但肯定会错过很多重要的细节和连续性信息。对于需要精确空间理解的任务来说,这种信息损失是致命的。

研究团队发现,空间信息具有很强的连续性和渐进性特点。当摄像头在环境中移动时,相邻帧之间的空间关系是高度相关的,而这种关系正是构建准确空间表征的关键。传统方法忽略了这种时空连续性,就像试图通过零散的照片拼凑出一个完整的地图,结果自然是支离破碎的。

另一个重要问题是现有评测数据的稀疏性。大多数空间推理任务的答案都很简短,比如"左边"、"5个"这样的简单回答。这种稀疏的监督信号无法为AI提供充分的学习反馈,就像老师只告诉学生答案对错,但不解释为什么,学生自然很难真正掌握知识。

这些根本性问题的存在,使得AI在面对真实世界的复杂空间场景时显得力不从心。无论是机器人导航、自动驾驶还是增强现实应用,都需要AI具备持续、准确的空间理解能力。而Spatial-TTT正是为了解决这些核心问题而诞生的。

二、革命性的"测试时训练"空间记忆系统

Spatial-TTT的核心创新在于引入了"测试时训练"的理念,这是一个彻底颠覆传统AI工作方式的概念。传统AI就像一本写好的教科书,内容固定不变;而Spatial-TTT更像是一个会学习的学生,能够在实际应用中不断吸收新知识并调整自己的理解。

这套系统的工作原理可以用"智能记事本"来比喻。当AI观看视频时,它会维护一个特殊的"快速权重"记忆系统。每当看到新的空间信息时,AI不是简单地将其添加到记忆中,而是会智能地更新整个记忆结构,确保最重要和最有用的信息得到保留,同时淘汰过时或不重要的内容。

具体来说,这个系统采用了混合架构设计。研究团队没有完全抛弃传统的注意力机制,而是巧妙地将测试时训练层与自注意力锚定层按照3:1的比例交错排列。这种设计就像在一支乐队中,既有即兴发挥的爵士乐手(测试时训练层),也有按谱演奏的古典乐手(锚定层),两者配合产生了美妙的和谐效果。

锚定层的作用是保持AI原有的语言理解和视觉识别能力,确保系统不会因为专注于空间记忆而丢失其他重要功能。而测试时训练层则专门负责空间信息的动态学习和更新,让AI能够逐步建立起对整个环境的完整认知。

为了提高计算效率,系统采用了"大块更新"策略。传统方法需要逐帧处理视频,就像逐字阅读一本书;而这种方法是按段落来处理的,大大提高了效率。同时,系统还配备了滑动窗口注意力机制,确保在每个处理块内部,相邻帧之间的空间连续性得到充分保持。

更巧妙的是,研究团队为每个测试时训练层都配置了双重KV缓存机制。第一个是固定长度的滑动窗口缓存,用于处理局部上下文;第二个是待更新缓存,用于积累新的键值对。当待更新缓存达到预设大小时,系统会执行一次快速权重更新,然后清空缓存准备下一轮积累。这种机制确保了系统能够以恒定的内存消耗处理任意长度的视频序列。

整个系统的更新过程采用了先进的Muon优化器,而不是传统的梯度下降方法。Muon优化器能够通过正交化处理确保梯度更新的稳定性,就像给不稳定的桌子加上稳定器一样,让整个学习过程更加平稳可靠。

这种测试时训练机制的最大优势在于它能够适应不同的应用场景。无论是室内导航、室外探索还是工业检测,AI都能够根据具体环境的特点自动调整自己的空间理解策略,这是传统固定参数模型无法实现的。

三、空间预测机制:让AI拥有几何直觉

仅仅拥有记忆能力还不够,AI还需要理解空间中物体之间的几何关系和运动规律。为此,研究团队开发了一套创新的"空间预测机制",让AI首次拥有了类似人类的几何直觉。

传统的AI视觉系统处理图像时,每个像素点都是独立分析的,就像用放大镜逐个查看马赛克瓷砖,虽然能看清每块瓷砖的颜色,但很难理解整幅图画的内容。空间预测机制则采用了全新的方法,它会同时考虑每个像素点及其周围邻近区域的信息,就像用广角镜头观察整个场景一样。

这套机制的核心是三维时空卷积操作。研究团队将视频帧重新组织成时空网格结构,然后使用轻量级的深度卷积核在这个三维空间中进行信息聚合。这个过程可以想象成用一个智能刷子在三维画布上作画,刷子不仅能感知当前位置的颜色,还能感知前后左右以及时间维度上相邻位置的信息。

具体的实现过程相当巧妙。对于视频中的每个位置,系统会考虑一个3×3×3的立方体邻域,包括空间上的8个相邻位置和时间上的前后帧对应位置。通过这种方式,AI能够同时理解物体的空间结构和运动轨迹,就像人类观察一个旋转的魔方时,能够同时感知每个面的颜色和整个魔方的旋转方向。

为了确保系统稳定性,研究团队采用了Dirac初始化策略。在训练初期,空间预测机制被设置为恒等映射,即输出完全等于输入。这就像给新手司机配备了辅助驾驶系统,开始时系统不会干预驾驶,但会逐渐学习并在必要时提供帮助。随着训练的进行,系统会逐步学习到有意义的空间-时间关系,最终形成强大的几何理解能力。

这种空间预测机制的效果是显著的。在处理遮挡场景时,即使某个物体被其他物体暂时挡住,AI依然能够根据之前观察到的运动轨迹和空间关系,准确推断出被遮挡物体的位置。这种能力在机器人导航中尤其重要,当机器人转过墙角时,它需要记住墙后面还有什么,而不是重新探索整个区域。

另一个重要应用是视角变化的处理。当摄像头角度发生变化时,同一个物体在图像中的位置和形状都会改变。传统AI往往会将其识别为不同的物体,而配备空间预测机制的AI能够理解这种变化的几何本质,保持对物体身份的正确认知。

空间预测机制还大大提高了AI对物体运动的理解能力。比如在观察一个滚动的球时,AI不仅能识别球的当前位置,还能预测它下一刻会出现在哪里。这种预测能力为实时应用提供了重要支撑,让AI能够在动态环境中做出更加智能的决策。

四、密集场景描述:构建AI的空间知识库

为了训练这套复杂的空间记忆系统,研究团队面临一个关键挑战:现有的空间推理数据集过于稀疏和局部化,无法为AI提供充分的学习信号。解决这个问题,他们创造性地构建了一套"密集场景描述数据集"。

传统的空间问答任务就像只问"苹果在桌子的哪一边?"这样简单问题,答案往往只是"左边"或"右边"。虽然能测试AI的基础空间理解能力,但提供的学习信号非常有限,就像只教学生做选择题而不解释原理,很难培养真正的理解能力。

密集场景描述数据集采用了完全不同的方法。对于每个室内场景,AI需要生成一份详细的"场景游览报告",就像一个专业的房地产经纪人在介绍一套房子时会做的那样。这份报告需要包含三个层次的信息。

第一层是全局场景描述。AI需要识别这是什么类型的房间,比如卧室、客厅还是办公室,然后描述整个空间的布局特点和功能设置。这就像要求AI成为一个室内设计师,不仅要看到家具,还要理解空间的整体规划理念。

第二层是物体清单和计数。AI需要准确识别场景中的所有物体类别,并统计每种物体的数量。这个任务看似简单,但实际上需要AI具备很强的空间记忆能力。因为在长视频中,同一个物体可能从不同角度出现多次,AI必须能够准确判断哪些是同一个物体的不同视角,哪些是不同的物体。

第三层是空间关系描述。AI需要详细描述各个物体之间的位置关系,比如"书桌位于窗户右侧,椅子放在书桌前方,台灯在书桌的左上角"。这种关系描述需要AI具备精确的空间定位能力和丰富的空间词汇。

这套数据集基于SceneVerse项目的三维场景图谱构建,包含了约16000个样本,其中3600个来自ScanNet室内场景,12500个来自ARKitScenes真实环境。每个样本都配有详细的三维几何信息和语义标注,为AI提供了丰富的学习材料。

数据集的构建过程本身就是一项工程壮举。研究团队首先需要将原始的三维点云数据转换为连续的视频序列,然后根据场景的几何结构和语义信息生成相应的描述文本。这个过程需要精确的坐标变换、物体检测和语言生成技术的完美结合。

更重要的是,这种密集描述任务为AI提供了丰富的梯度信号。当AI生成错误的描述时,系统能够从多个方面提供纠错信息,帮助AI快速改进其空间理解能力。这就像给学生提供详细的作文批改意见,而不是简单的对错判断,学习效果自然大大提升。

实验结果证明,使用密集场景描述数据进行预训练的AI在各项空间推理任务上都取得了显著改进。特别是在需要长期记忆和全局理解的任务中,改进幅度达到了3-5个百分点,这在AI研究中是相当显著的提升。

五、渐进式训练策略:从全局记忆到精细推理

拥有了先进的架构和丰富的数据,如何有效地训练这套复杂系统就成为了关键问题。研究团队设计了一套精妙的"空间感知渐进训练策略",让AI能够循序渐进地掌握空间理解能力。

这套训练策略分为两个阶段,就像培养一个建筑师需要先学习基础的空间概念,然后再掌握具体的设计技巧一样。第一阶段的目标是让AI建立全局的三维空间感知能力,主要使用密集场景描述数据进行训练。

在第一阶段,AI需要学会如何将连续的视频观察转化为结构化的空间记忆。这个过程中最关键的是"滑动窗口退火策略"。训练开始时,滑动窗口覆盖几乎整个视频序列,AI可以同时看到所有信息,就像给新手提供了"全景视角"。

随着训练的进行,窗口大小逐渐缩小,强迫AI越来越依赖测试时训练机制来维持长期记忆。这个过程类似于逐渐撤掉辅助轮的自行车训练,让AI逐步独立掌握空间记忆技能。最终,窗口大小缩减到与处理块大小相同,AI完全依靠快速权重更新来处理跨块的空间信息传递。

第一阶段的训练重点是让AI学会"记住什么"。通过生成详细的场景描述,AI需要判断哪些空间信息值得长期保存,哪些可以暂时遗忘。这种判断能力的培养对于构建高效的空间记忆系统至关重要。

第二阶段则专注于"如何运用记忆"。这个阶段使用大规模的空间问答数据进行微调,包括物体计数、相对位置判断、路线规划等多种任务。训练数据量达到约300万个样本,涵盖了空间推理的各个方面。

第二阶段的一个关键设计是固定窗口大小和块大小。此时AI已经掌握了基本的记忆机制,训练重点转向如何从已有记忆中提取相关信息来回答特定问题。这就像一个已经熟悉图书馆布局的人,现在需要学习如何快速找到特定书籍。

两阶段训练策略的另一个巧妙之处是学习率的差异化设置。对于预训练的主干网络,使用相对较小的学习率以保持其原有的语言理解和视觉识别能力;对于新增的测试时训练相关参数,使用较大的学习率以快速适应空间推理任务。这种策略确保了系统在获得新能力的同时不会遗忘原有技能。

训练过程中还采用了多种正则化技术来提高系统的稳定性和泛化能力。比如在空间预测机制中使用dropout来防止过拟合,在快速权重更新中加入权重衰减来避免梯度爆炸。这些技术细节虽然不起眼,但对最终性能起到了重要作用。

实验表明,这种渐进式训练策略比直接端到端训练效果更好。通过先培养基础的空间记忆能力,再训练具体的任务技能,AI能够更快地收敛到更优的解决方案,同时具备更强的泛化能力。

六、突破性实验成果:AI空间智能的新里程碑

Spatial-TTT在多个权威基准测试中的表现堪称惊艳,不仅超越了所有现有的开源模型,甚至在某些任务上超过了最先进的商用AI系统。这些实验结果清晰地展示了空间记忆技术的巨大潜力。

在VSI-Bench综合空间理解测试中,Spatial-TTT取得了64.4分的优异成绩,这个分数相比之前最好的开源模型提升了近4个百分点。更令人印象深刻的是,在一些关键子任务上的表现。比如在相对方向判断任务中,AI的准确率达到了73.0%,超过了包括GPT-5在内的所有商用模型。

这项测试包含了8个不同的空间推理子任务,每个都代表着空间智能的一个重要方面。在物体计数任务中,AI需要准确统计视频中出现的特定物体数量,这要求系统能够跨时间维度识别和追踪物体。Spatial-TTT在这个任务上获得了70.8分,展现出了出色的长期记忆能力。

在绝对距离估计任务中,AI需要判断观察者与特定物体之间的实际距离。这是一个极具挑战性的任务,因为它要求AI不仅能识别物体,还要理解三维空间中的度量关系。Spatial-TTT在这个任务上的47.8分虽然不是最高分,但已经超过了大多数专门针对空间推理设计的模型。

房间尺寸估计任务测试的是AI对整体空间尺度的把握能力。当人类走进一个房间时,能够很快估算出房间的大致面积,这种能力对于空间规划和导航至关重要。Spatial-TTT在这个任务上取得了65.9分的优秀成绩,显示出了强大的全局空间感知能力。

在路径规划任务中,AI需要根据给定的起点和终点,设计出合理的移动路线。这个任务综合考验了AI的空间记忆、推理和规划能力。Spatial-TTT以77.0分的成绩在这个任务上表现最佳,证明了其在实际应用中的巨大潜力。

MindCube测试专门评估AI在多视角条件下的空间推理能力。当同一个场景从不同角度观察时,AI需要保持对空间关系的一致理解。这类似于人类的"心理旋转"能力,是空间智能的重要组成部分。Spatial-TTT在这项测试中取得了76.2分,比最好的商用模型高出12.3个百分点,比最好的开源空间模型高出24.5个百分点。

更具挑战性的是VSI-SUPER长时记忆测试。这项测试使用时长从10分钟到120分钟不等的视频,要求AI在极长的时间跨度内保持准确的空间记忆。许多传统模型在处理超过30分钟的视频时就会出现内存溢出或性能急剧下降的问题。

在VSI-SUPER-Count计数任务中,AI需要在长达2小时的视频中准确统计特定物体的出现次数。这个任务的难点在于同一个物体可能在视频的不同时间段多次出现,AI必须能够识别并避免重复计数。Spatial-TTT在120分钟视频上依然保持了38.4分的稳定表现,而其他模型要么因为内存不足无法运行,要么准确率降到接近零。

在VSI-SUPER-Recall回忆任务中,AI需要准确回忆视频中不同物体的出现顺序。这个任务特别考验AI的时序记忆能力,要求系统不仅要记住看到了什么,还要记住什么时候看到的。Spatial-TTT在各个时长的视频上都保持了稳定的性能,展现出了优秀的时空记忆整合能力。

计算效率方面的对比同样令人惊喜。在处理1024帧的视频时,Spatial-TTT的内存使用量仅为11.9GB,计算量为799.4 TFLOPs,而传统的全注意力模型需要21.2GB内存和1403.1 TFLOPs的计算量。这种效率提升意味着相同的硬件资源可以处理更长的视频或更复杂的场景。

这些实验结果不仅证明了Spatial-TTT技术的先进性,更重要的是展示了AI空间智能发展的巨大潜力。随着技术的进一步成熟,我们有理由相信AI将在更多需要空间理解的应用场景中发挥重要作用。

七、深入解析:技术创新的关键要素

Spatial-TTT之所以能够取得如此突出的成果,关键在于几个重要技术创新的巧妙结合。通过详细的消融实验,研究团队验证了每个组件对整体性能的贡献,揭示了这套系统成功的深层原因。

空间预测机制的重要性在消融实验中得到了充分体现。当移除三维时空卷积而使用普通的线性投影时,系统的整体性能从64.4分下降到62.1分。这个看似不大的差异实际上反映了深层的技术原理。空间预测机制让AI能够理解相邻像素点之间的几何关系,而不是将每个像素作为独立的信息处理。这种局部几何理解能力对于构建准确的空间表征至关重要。

更细致的分析显示,空间预测机制在处理数值型空间推理任务时作用尤其明显。比如在距离估计和尺寸判断任务中,性能提升幅度达到3-4个百分点。这表明几何归纳偏置对于精确的度量推理具有特殊价值,就像给AI安装了一把精确的空间"尺子"。

密集场景描述数据的价值同样不可忽视。当训练中移除这部分数据时,系统性能从64.4分下降到61.3分。这种下降在房间尺寸估计和相对方向判断等需要全局空间理解的任务中尤为明显。密集描述任务强迫AI学会从局部观察中提取全局空间信息,这种能力的培养对于长时空间记忆至关重要。

混合架构设计可能是最关键的创新。当移除自注意力锚定层而使用纯测试时训练架构时,系统性能急剧下降至53.9分,下降幅度超过10个百分点。这个结果清楚地表明,完全抛弃传统注意力机制是不明智的。锚定层的作用不仅是保持跨模态对齐能力,更重要的是为整个系统提供稳定的"认知基础"。

进一步的分析发现,锚定层主要负责处理语言理解和高层语义推理,而测试时训练层专注于空间信息的编码和检索。这种分工合作的机制让系统既保持了原有的语言智能,又获得了强大的空间记忆能力。

大块更新策略的效果也值得关注。传统的小块更新方法虽然计算效率较高,但会破坏视频帧之间的空间连续性。大块更新配合滑动窗口注意力的设计巧妙地解决了这个问题,既保证了计算效率,又维持了时空一致性。

实验中还发现了一个有趣的现象:系统在不同类型的空间推理任务上表现出了不同的学习曲线。相对方向和路径规划等需要复杂空间推理的任务收敛较慢,但最终性能更高;而物体计数等相对简单的任务收敛很快,但提升空间有限。这种差异反映了空间智能的层次性特征,也为后续的模型优化提供了重要启示。

计算效率的分析同样揭示了重要信息。Spatial-TTT的线性复杂度特性在长视频处理中优势明显,但在短视频上反而可能略逊于传统方法。这是因为测试时训练机制的初始开销相对较大,需要一定的序列长度才能体现出效率优势。这个发现对于实际应用中的系统设计具有重要指导意义。

通过这些深入分析,我们可以看出Spatial-TTT的成功并非偶然,而是多种技术创新协同作用的结果。每个组件都有其特定的作用和价值,共同构成了一个强大而高效的空间智能系统。

结论

说到底,Spatial-TTT的意义远远超出了技术本身的突破。这项研究首次让AI拥有了类似人类的持续空间记忆能力,彻底改变了机器理解和导航复杂环境的方式。通过巧妙结合测试时训练、空间预测机制和密集监督学习,研究团队创造出了一套真正能够"记住"和"理解"空间的AI系统。

从技术层面看,这套系统解决了长期困扰AI领域的几个核心问题。计算复杂度从平方级降低到线性级,让处理长时间视频序列成为可能。空间预测机制为AI注入了几何直觉,让它能够理解物体之间的真实空间关系。混合架构设计在保持原有能力的基础上增加了强大的空间记忆功能。这些创新的结合产生了远超单个技术贡献的协同效应。

从应用前景看,这项技术将为多个行业带来革命性变化。医院的智能导航系统将能够准确引导患者找到目标科室,即使在复杂的多层建筑中也不会迷路。家用机器人将真正理解家庭空间布局,主动协助日常生活而不需要反复的环境扫描。自动驾驶汽车将具备更强的空间感知能力,在复杂城市环境中做出更安全的决策。

实验结果的突破性表现证明了这个研究方向的巨大潜力。在权威基准测试中全面超越现有方法,在长时记忆任务中保持稳定性能,在计算效率上实现显著提升——这些成果为AI空间智能的发展树立了新的标杆。

更重要的是,这项研究为AI的发展开辟了新的思路。传统的"训练后固化"模式正在被"持续学习"模式所挑战,测试时训练的理念可能会在更多AI应用中发挥作用。空间智能作为通用人工智能的重要组成部分,其突破将推动整个AI领域向更高层次发展。

当然,目前的技术还有改进空间。在处理极其复杂的动态场景时,系统的性能还需要进一步提升。在不同应用场景之间的迁移能力也有待加强。但这些挑战恰恰为未来的研究指明了方向,相信随着技术的不断发展,AI的空间智能将越来越接近甚至超越人类水平。

归根结底,Spatial-TTT让我们看到了一个充满希望的未来:AI不再是只能处理静态数据的工具,而是能够在真实世界中持续学习、理解和行动的智能伙伴。这种能够"记住空间"的AI将成为我们探索和改善世界的强大助手,让技术真正服务于人类的美好生活。

Q&A

Q1:什么是Spatial-TTT的核心创新?

A:Spatial-TTT的核心创新是引入了"测试时训练"机制,让AI在观看视频时能够持续更新自己的空间记忆。这就像给AI安装了一个会学习的"空间记事本",能够根据新观察到的内容智能地调整记忆结构,保留重要信息而淘汰过时内容。

Q2:Spatial-TTT如何解决传统AI的计算效率问题?

A:传统AI处理长视频时计算量按平方级增长,而Spatial-TTT通过线性复杂度的测试时训练机制和大块更新策略,将计算复杂度降至线性级。在处理1024帧视频时,它比传统方法节省约40%的计算资源和内存使用。

Q3:这项技术在日常生活中有哪些应用前景?

A:Spatial-TTT将广泛应用于智能导航、家用机器人、自动驾驶等领域。比如医院的智能引导系统能准确指路,家用机器人能记住物品位置主动协助,自动驾驶汽车在复杂环境中做出更安全的决策。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。

  • 香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。

  • 中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。

  • 字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-