在科技发展的今天,人工智能正在以惊人的速度改变着我们的生活。最近,由上海人工智能实验室联合北京理工大学、上海创新研究院等多个机构组成的研究团队,在2025年6月18日发布了一项令人瞩目的研究成果。这项名为"Sekai:面向世界探索的视频数据集"的研究,发表在计算机视觉领域的顶级期刊上,感兴趣的读者可以通过arXiv:2506.15675v1获取完整论文。Sekai在日语中意为"世界",而这个数据集确实像它的名字一样,包含了来自全世界的丰富内容。
这个研究解决的问题其实和我们的日常生活息息相关。设想一下,如果你想要体验在日本京都的古老街道上漫步,或者在芬兰的森林中无人机飞行的感觉,但现实中却无法亲自前往,那该怎么办?这就是研究团队想要解决的核心问题——如何让人工智能能够生成真实的世界探索体验,让用户可以通过键盘和鼠标控制,在虚拟世界中自由漫游。
传统的视频生成技术就像是一个只会拍摄静态风景照的摄影师,虽然能产生美丽的画面,但缺乏互动性和探索感。而这个新的数据集更像是一个经验丰富的旅行向导,不仅知道世界各地的风土人情,还能根据你的需求带你去任何想去的地方。研究团队收集了超过5000小时的第一人称视角视频,覆盖了101个国家和地区的750多个城市,这个规模相当于一个人连续观看视频208天不间断。
这项研究的创新性在于,它首次将世界探索的概念引入到视频生成领域。以往的研究更像是制作电影片段,而这项研究则是在构建一个可以自由探索的虚拟世界。研究团队不仅收集了大量真实世界的视频数据,还开发了一套完整的工具链来处理和标注这些视频,为每个视频片段添加了位置、天气、人群密度、场景描述和相机轨迹等丰富信息。
一、数据收集:像收集世界各地的明信片一样
研究团队的数据收集工作就像一个热爱旅行的摄影师在全世界搜集最美的风景片段。他们从YouTube上精心挑选了来自世界各地的高质量步行和无人机视频,这些视频都是由真实的旅行者和摄影爱好者拍摄的,具有很强的真实性和代表性。
收集过程分为两个主要部分。第一部分是从YouTube收集真实世界的视频,研究团队手动搜索了热门的旅行博主和摄影师的频道,然后使用相关关键词扩展搜索范围,比如"徒步"、"无人机"、"高清"和"4K"等。他们总共收集了超过10471小时的步行视频和628小时的无人机视频,所有视频都是在最近三年内发布的,分辨率至少为1080P,帧率在30到60帧每秒之间。这就像是建造一个巨大的视频图书馆,里面存放着来自世界各地的珍贵影像资料。
第二部分的收集工作更加有趣,研究团队从一个名为"Lushfoil Photography Sim"的写实游戏中收集数据。这个游戏使用虚幻引擎5制作,画面质量极高,几乎达到了照片级的真实感。在游戏中,玩家可以步行或者使用第一人称无人机来探索各种真实世界的地貌景观。研究团队使用专业的录屏软件OBS Studio录制了40小时的游戏视频,分辨率为1080P,帧率30帧每秒。虽然这部分数据来自游戏,但由于其极高的视觉保真度,可以作为真实数据的有效补充,而且游戏数据的优势在于可以获得完全准确的标注信息,比如精确的位置坐标、天气条件和相机轨迹等。
二、数据预处理:像厨师准备食材一样精心
收集到的原始视频就像未经处理的食材,需要经过精心的预处理才能变成可用的训练数据。研究团队开发了一套完整的预处理流程,这个过程就像一个经验丰富的视频编辑师在筛选和整理素材。
首先是镜头边界检测。YouTube上的视频经常包含剪辑和拼接的内容,而游戏中也常常有传送点,这些都会导致视频内容的不连续性。研究团队使用了一个名为TransNetV2的先进算法来检测这些不连续的镜头切换点,就像一个细心的编辑师能够识别出电影中每一个场景的转换。为了提高处理效率,他们还对原始算法进行了GPU加速优化,使处理速度提升了五倍。
接下来是视频片段提取和转码。考虑到实际处理的便利性,研究团队将每个连续的镜头分割成一分钟长的视频片段,太短的片段会被丢弃。他们使用专业的视频编码库将所有视频统一转换为标准格式:720P分辨率、30帧每秒、H.265编码、4Mbps码率。这个过程就像将各种不同格式的照片统一冲洗成相同规格的相片,确保后续处理的一致性。
研究团队还特别注重音频的处理,因为他们认为真实的世界探索应该包含现实的声音。对于步行视频,他们保留了原始的立体声音频,并将其转换为标准的AAC格式,采样率为48kHz,然后与对应的视频片段合并。
为了确保训练数据的质量,研究团队实施了多重过滤机制。亮度过滤器可以去除过暗或过亮的视频片段,这对于游戏数据尤其重要,因为游戏引擎有时会产生简化的光照效果。质量过滤器使用名为COVER的综合视频质量评估工具,根据技术质量指标筛选出最优秀的视频片段,将质量最低的10%的内容剔除。字幕过滤器则专门检测和去除包含硬编码字幕的视频片段,因为这些人工文字会降低视频的真实性,并可能在模型训练过程中引入误导性的模式。
三、标注系统:给每个视频片段配上详细的"身份证"
如果说视频数据是这个研究的主体,那么标注信息就是每个视频片段的详细"身份证"。研究团队为每个视频片段添加了六个维度的标注信息:位置、场景类型、天气状况、人群密度、详细描述和相机轨迹。这个过程就像为每张照片写下拍摄时间、地点、天气和故事背景。
位置标注的获取颇具巧思。研究团队利用YouTube的数据接口获取每个视频的标题和描述信息,由于大多数旅行视频都包含详细的地点描述和时间线标注,他们使用GPT-4o这个强大的语言模型来解析这些文本信息,提取出每个章节对应的具体位置,并附加ISO 3166国家/地区代码。然后使用区间树算法根据时间戳将每个视频片段精确匹配到对应的拍摄地点。这个过程就像一个地理学家在为每个风景照片标注准确的经纬度坐标。
类别和描述标注采用了两阶段策略。第一阶段是分类,研究团队设计了四个正交的维度:场景类型(如室外、室内等)、天气状况(如晴天、雨天、雾天等)、时间段(如白天、夜晚、日出日落等)和人群密度(如空旷、适中、拥挤等)。第二阶段是生成详细描述,他们精心设计了提示词,结合预测的类别标签、位置信息和视频帧内容,生成详细的、按时间顺序排列的动作和场景描述。他们使用72B参数版本的Qwen2.5-VL模型进行标注,每隔两秒从视频中提取一帧进行分析,最终生成的描述平均长度超过176个单词,就像为每个视频片段写了一篇详细的游记。
相机轨迹标注是最具技术挑战性的部分。研究团队尝试了多种不同类型的相机轨迹标注方法,包括视觉里程计方法DPVO、深度视觉SLAM框架MegaSaM和专门设计的3D变换器VGGT。经过实验比较,他们选择了MegaSaM作为基础标注方法,并进行了多项优化。他们将原本使用的单目深度估计模型Depth Anything替换为在时间一致性方面表现更好的Video Depth Anything。为了提高标注效率,他们还优化了MegaSaM的官方实现,支持跨机器、多GPU并行推理,显著提升了标注效率。
四、数据采样:精选出"精华中的精华"
面对如此庞大的数据量,研究团队需要从中挑选出最优质、最具代表性的数据用于模型训练。这个过程就像一个策展人在为博物馆挑选最珍贵的展品,需要在质量和多样性之间找到完美的平衡。
质量采样关注两个核心方面:美学质量和语义质量。美学质量反映视频中不同元素之间的视觉和谐程度,就像评判一幅画作的构图和色彩搭配是否令人赏心悦目。语义质量则评估内容的语义完整性和一致性,确保视频内容逻辑清晰、叙事连贯。研究团队使用COVER质量评估工具获得这两个维度的分数,并将它们相加作为综合质量评分,然后选择得分最高的70%的视频片段。
多样性采样更加复杂,需要在多个维度上确保数据的均衡分布。内容多样性采样使用InternVideo2模型提取每个视频片段的特征嵌入,然后使用小批量K均值聚类算法对每个国家或地区的视频进行聚类分析。在每个聚类中,他们根据质量评分对样本进行排序,然后逐步采样视频片段并移除最相似的样本,直到移除30%的视频片段。这个过程就像在整理照片集时,确保不会有太多相似的照片占用宝贵的空间。
位置多样性采样确保来自不同城市的视频能够得到相对均衡的代表。研究团队统计每个城市的视频数量,然后按照数量升序排列城市,为每个城市分配大致相等的采样比例。如果某个城市的视频数量不足以满足分配额度,就将短缺部分按比例重新分配给其他城市。
类别多样性采样采用逆概率加权采样策略,确保在天气、场景、时间段和人群密度四个独立类别上都有广泛覆盖。对于每个类别,他们计算各个标签的频率,然后分配与频率成反比的采样概率。假设这四个类别相互独立,每个视频的采样概率就是其在四个类别上标签概率的乘积。这种方法可以确保那些相对稀少但重要的场景(比如雪天或日出时分)不会被忽略。
相机轨迹多样性采样关注相机运动的多样性。研究团队首先计算每个视频的方向向量(从轨迹起点到终点)和整体抖动程度(位置方差的欧几里得范数)。然后将方向向量离散化到球面网格上,将抖动值也进行离散化,形成方向和抖动的联合分组。最后在每个联合组内进行均匀采样,确保各种不同的相机运动模式都能得到适当的代表。
经过这个精心设计的采样流程,研究团队从原始的Sekai-Real数据集中选出了400小时的最高质量数据,命名为Sekai-Real-HQ。这个子集在保持高质量的同时,实现了更加均衡的数据分布,为后续的模型训练提供了理想的基础。
五、数据集特征:一个真正全球化的虚拟世界
最终构建完成的Sekai数据集具有五个显著特征,使其在同类数据集中独树一帜。
高质量和多样性是数据集的第一个特征。所有视频都以720P分辨率、30帧每秒的标准录制,涵盖了各种天气条件、不同时间段和动态场景。这种标准化确保了数据的一致性,同时丰富的变化又保证了多样性,就像一个包含世界各地风景的高清纪录片合集。
全球化覆盖是数据集的第二个突出特征。视频采集遍及101个国家和地区,涵盖超过750个城市,展现了不同文化、活动、建筑风格和自然景观。从日本的繁华街道到芬兰的宁静森林,从阿联酋的现代都市到意大利的古老城镇,这个数据集真正实现了全球化的视野,为模型提供了极其丰富的世界知识。
步行和无人机双重视角是第三个重要特征。除了传统的步行视频(如城市漫步和徒步旅行),数据集还包含大量的无人机视角视频,包括第一人称无人机(FPV)和传统航拍无人机(UAV)的镜头。这种多视角的设计使得虚拟世界探索可以突破传统的地面限制,实现真正的三维自由探索。
长时间持续性是第四个关键特征。所有步行视频的长度都至少为60秒,确保能够支持真实世界的长期探索体验。这种设计避免了传统短视频数据集的局限性,为构建连续、沉浸式的虚拟世界体验奠定了基础。
丰富的标注信息是第五个核心特征。每个视频都配备了位置、场景类型、天气状况、人群密度、详细描述和相机轨迹等六个维度的标注。这些标注信息不仅为模型训练提供了丰富的监督信号,也为用户提供了精确控制虚拟世界体验的可能性。
数据集的统计分析显示了其卓越的规模和多样性。整个数据集包含101个国家和地区,其中前八个国家(如日本、美国和英国)约占总时长的60%。从场景类型来看,大部分视频为户外场景,其中天气条件以晴天和多云为主,同时也包含雨雪等特殊天气情况。从拍摄时间来看,白天视频占大多数,夜间视频次之,这种分布提供了自然光照和人工光照下的多样化场景。人群密度分布相对均匀,从芬兰人烟稀少的森林到日本熙熙攘攘的街道,涵盖了各种人群密度场景。
六、YUME模型:将数据集转化为实际应用
为了验证数据集的有效性,研究团队使用Sekai-Real-HQ的一个子集训练了一个名为YUME(日语中意为"梦想")的交互式世界探索模型。这个模型就像一个能够理解用户意图的虚拟向导,可以根据用户的键盘和鼠标操作生成相应的探索视频。
YUME模型的设计理念是让用户能够像玩游戏一样自由探索虚拟世界。用户只需要提供一张起始图像,然后通过键盘的WASD键控制移动方向,通过鼠标控制视角转动,模型就能够实时生成对应的探索视频。这种交互方式非常直观,任何有基本计算机操作经验的用户都能够快速上手。
从展示的样例来看,YUME模型能够生成高质量、连续性良好的探索视频。无论是城市街道的漫步、山间小径的徒步,还是海边的悠闲散步,模型都能够根据用户的控制指令生成逼真的第一人称视角视频。视频中的场景转换自然流畅,物体的遮挡关系正确,光影变化合理,展现出了良好的时空一致性。
虽然受限于计算资源,研究团队只使用了Sekai-Real-HQ的一小部分数据来训练YUME模型,但已经展现出了令人鼓舞的效果。这表明随着更多数据的加入和计算资源的增加,模型的性能还有很大的提升空间。
七、技术创新与突破
这项研究在多个技术层面实现了显著突破。在数据收集方面,研究团队创新性地结合了真实世界视频和高质量游戏视频,既保证了数据的真实性,又获得了精确的标注信息。这种混合数据策略为后续研究提供了新的思路。
在数据处理方面,研究团队开发了一套高效的GPU加速处理流程,将原本耗时的镜头检测算法速度提升了五倍。他们还设计了多重质量过滤机制,从亮度、技术质量、字幕干扰等多个角度确保数据质量。
在标注技术方面,研究团队巧妙地利用了YouTube视频的元数据信息,结合先进的语言模型自动提取位置信息。他们还优化了相机轨迹标注算法,实现了跨机器、多GPU并行处理,大大提高了标注效率。
在采样策略方面,研究团队设计了一套多维度的采样框架,同时考虑质量和多样性,确保最终数据集在各个维度上都达到了理想的平衡。这种采样策略可以作为其他大规模数据集构建的参考范例。
八、应用前景与影响
Sekai数据集的发布为多个应用领域开辟了新的可能性。在虚拟旅游方面,人们可以足不出户就体验世界各地的风土人情,这对于行动不便的人群或者受疫情等因素限制无法旅行的情况特别有意义。在教育领域,教师可以使用这种技术带领学生"实地"参观历史遗迹或自然景观,让地理、历史等课程变得更加生动有趣。
在游戏和娱乐产业,这种技术可以大大降低开放世界游戏的开发成本,开发者不再需要花费大量时间和资源来手工制作每一个场景,而是可以基于真实世界的数据快速生成游戏环境。同时,这也为影视制作提供了新的工具,制片方可以在虚拟环境中完成一些危险或昂贵的拍摄任务。
在城市规划和建筑设计领域,规划师可以使用这种技术让市民提前体验未来的城市布局和建筑设计,收集反馈意见并进行优化。在房地产行业,购房者可以通过虚拟漫步的方式深入了解房产周边环境,做出更明智的决策。
研究团队也坦诚地指出了当前研究的局限性。由于计算资源的限制,他们在模型训练中只使用了Sekai-Real-HQ的一小部分数据,模型的性能还有很大提升空间。另外,相机轨迹标注目前只覆盖了部分数据,未来需要扩大标注范围以支持更精确的相机控制。
九、未来发展方向
这项研究为未来的发展指明了几个重要方向。在数据扩展方面,研究团队计划继续收集更多高质量的全球视频数据,特别是那些目前覆盖较少的地区和场景类型。他们也在探索如何更好地整合室内场景数据,实现从室外到室内的无缝探索体验。
在技术优化方面,研究团队正在开发更高效的标注算法,特别是相机轨迹的自动标注技术。他们也在研究如何利用多模态信息(如音频、文本描述等)来提升视频生成的质量和可控性。
在应用拓展方面,研究团队希望将这种技术扩展到更多垂直领域,比如医疗培训、工业仿真、文化遗产保护等。他们也在探索如何与虚拟现实(VR)和增强现实(AR)技术结合,提供更加沉浸式的体验。
研究团队还特别提到,他们正在寻找有志于交互式世界生成研究的合作伙伴和实习生。这表明这个研究方向还有很大的发展空间,需要更多的研究力量投入其中。
说到底,Sekai数据集的发布标志着视频生成技术向着更加实用和互动的方向迈出了重要一步。它不仅为研究人员提供了丰富的训练数据,也为普通用户展示了人工智能技术在日常生活中的巨大潜力。虽然目前这种技术还处在相对早期的阶段,但我们有理由相信,在不久的将来,每个人都能够通过简单的操作就体验到自由探索虚拟世界的乐趣。
这项研究的意义不仅在于技术本身的突破,更在于它为我们描绘了一个未来生活的美好图景。在那个世界里,地理距离不再是体验世界多样性的障碍,每个人都能够成为自己人生的探险家,在虚拟与现实交融的空间中自由穿行。而这一切,都始于研究团队今天所迈出的这一步——为人工智能提供了真正了解世界的眼睛。
有兴趣深入了解这项研究的读者,可以访问项目主页https://lixsp11.github.io/sekai-project/获取更多信息,或者通过arXiv:2506.15675v1查阅完整的技术论文。研究团队也欢迎对交互式世界生成感兴趣的研究者联系zhangkaipeng@pjlab.org.cn,共同推动这个令人兴奋的研究领域向前发展。
Q&A
Q1:Sekai数据集和普通的视频数据集有什么区别? A:Sekai专门针对世界探索设计,包含了来自101个国家750个城市的第一人称视角视频,每个视频都有详细的位置、天气、场景等标注信息,而且视频时长更长(平均2分钟),支持连续的虚拟世界探索体验,这些都是普通视频数据集所不具备的。
Q2:YUME模型现在普通人可以使用吗? A:目前YUME还处于研究阶段,普通用户暂时无法直接使用。研究团队由于计算资源限制,只使用了部分数据进行训练。不过他们正在寻找合作伙伴,未来可能会有更成熟的产品推出供公众体验。
Q3:这种虚拟世界探索技术会不会取代真正的旅行? A:不会完全取代,但会成为很好的补充。对于行动不便、预算有限或受其他因素限制无法旅行的人来说,这种技术提供了体验世界的新方式。同时它也可以帮助人们在真正旅行前预览目的地,或者重温曾经去过的地方。
好文章,需要你的鼓励
这项研究提出了"高效探测"方法,解决了掩码图像建模AI难以有效评估的问题。通过创新的多查询交叉注意力机制,该方法在减少90%参数的同时实现10倍速度提升,在七个基准测试中均超越传统方法。研究还发现注意力质量与分类性能的强相关性,生成可解释的注意力图谱,展现出优异的跨域适应性。团队承诺开源全部代码,推动技术普及应用。
伊利诺伊大学研究团队开发了CLAIMSPECT系统,通过层次化分解复杂争议、智能检索相关文献、多角度收集观点的方法,将传统的"真假"判断转变为多维度分析。该系统能够自动构建争议话题的分析框架,识别不同观点及其支撑证据,为科学和政治争议提供更全面客观的分析,已在生物医学和国际关系领域验证有效性。
清华大学研究团队首次提出情感认知融合网络(ECFN),让AI能像人类一样理解和表达情感。该系统通过多层次情感处理架构,在情感识别准确率上比现有最佳系统提升32%,情感表达自然度提升45%。研究突破了传统AI情感理解的局限,实现了跨模态情感融合、动态情感追踪和个性化情感建模,为医疗、教育、客服等领域带来革命性应用前景。
哈佛大学研究团队通过创新的多智能体强化学习方法,让AI在战略游戏中学会复杂推理。研究发现AI通过游戏竞争能发展出类人思维能力,在逻辑推理、创造性解决问题等方面表现显著提升。这项突破性成果为未来AI在医疗、教育、城市管理等领域的应用奠定基础,展现了通过模拟人类学习过程培养真正智能AI的新路径。