
这项研究来自京东旗下的Joy Future Academy,论文于2026年5月5日发布在预印本平台arXiv,论文编号为arXiv:2605.04128v1,分类为计算机图形学(cs.GR)领域。感兴趣的读者可以通过该编号在arXiv平台上找到完整论文,相关代码也已在GitHub上公开发布。
一、先聊聊这件事为什么值得关注
如果你用过那些能"看图说话"的AI工具,也用过那些能"按文字画图"的AI工具,你可能会发现这些能力通常分散在不同的产品和模型里——理解图片的是一个,生成图片的又是另一个,编辑图片的还是第三个。就像一家餐厅把点餐、烹饪和上菜三道程序分给三个完全不相干的团队来做,虽然各自都能完成自己的那部分,但三者之间缺乏协调,往往出现"理解"和"生成"脱节的问题。
更麻烦的是,现有的这些模型即便整合在一起,也普遍缺乏对"空间"的深刻理解。什么是空间理解?简单说,就是能判断两个物体谁在谁前面、谁更高、相对距离是多少,或者当摄影师绕着一个东西转一圈时,从不同角度拍到的画面之间是什么关系。这种能力对于人类来说再自然不过,但对于AI来说,却是一道高难度的关卡。
京东AI团队推出的JoyAI-Image,就是试图在一个统一的系统里,同时解决"理解图片""生成图片"和"编辑图片"这三件事,并且在整个过程中把空间智能作为核心能力来强化,而不是事后补丁式地加进去。
二、系统的核心架构:一个大脑指挥两只手
要理解JoyAI-Image的工作原理,可以把它想象成一位既懂艺术鉴赏又擅长绘画的艺术家。这位艺术家有一个聪明的大脑(负责理解和分析),一双灵巧的手(负责创作和修改),以及一套把脑中想法转化为具体画布内容的神经系统。
在技术层面,这个系统由三个核心部分组成。第一部分是"多模态大语言模型",也就是那个"聪明的大脑",具体采用的是Qwen3-VL-8B-Instruct这个模型作为基础,经过专门训练后能同时处理图像和文字。它承担两种角色:一是直接回答关于图片的问题(比如"这张图里的包包大概多高?"),二是把用户的指令解析成能指导后续图片生成的信号。
第二部分是"变分自编码器"(可以理解为一个压缩和解压机器),它把像素级别的图片转化成一种紧凑的数学表示,方便后续处理,同时在还原时能保留文字、纹理等细节。
第三部分是"多模态扩散变换器",这是那双"灵巧的手",负责实际的图片生成和修改工作。这个部分拥有160亿个参数(参数数量是衡量AI模型复杂程度的一个指标,数量越多通常意味着处理能力越强),通过一个叫做"双流架构"的设计,能同时融合大脑传来的语义理解信号和图片本身的视觉信息。
整个系统的训练分三个阶段推进:先训练大脑让它能深刻理解视觉和空间信息,然后从头训练那双手让它学会高质量的图片生成,最后把两者结合起来,专门优化图片编辑的精细控制能力。
三、"空间智能"究竟难在哪里,研究团队怎么解决它
这里需要停下来好好解释一下"空间智能"这个概念,因为它贯穿了整个JoyAI-Image的设计思路。
以一张咖啡厅的照片为例。人类看到这张图,脑子里会自动构建一个三维的场景模型——椅子在桌子旁边,咖啡杯在桌面上,窗外的树在建筑物后面,吊灯距离地面大约两三米。但对于普通的AI视觉系统来说,它看到的只是一堆像素,要推断出这些"前后左右高低远近"的关系需要特别的训练和设计。
更难的情况是"多视角一致性"——同一个场景从不同角度拍摄,得到的照片看起来差异很大,但AI必须明白这些照片描述的是同一个三维世界。这就像你用眼睛看一个苹果,闭上左眼和闭上右眼时看到的位置略有不同,但你的大脑知道这是同一个苹果。
为了系统性地解决这个问题,研究团队开发了一个叫做"OpenSpatial"的数据引擎,专门用来自动生成空间理解训练数据。这个引擎的核心思路是用"三维边界框"(可以理解为给每个物体套上一个看不见的三维盒子)来标注场景中每个物体的位置、大小和朝向。
数据来源包括专业的室内三维扫描数据集(如ScanNet、Matterport3D、ARKitScenes等),以及大量的网络视频。对于那些没有三维标注的视频,研究团队设计了一种"三维提升"技术:通过分析深度信息,将平面图像中的二维物体轮廓"提升"到三维空间,并通过跨视角一致性检验来确保标注的准确性——如果一个物体的三维框从不同视角投影回二维图像后,都能和实际看到的轮廓吻合,才算通过验证。
基于这个引擎,研究团队创建了包含300万条训练样本的OpenSpatial-3M数据集,覆盖五大类空间能力:空间测量(判断物体的尺寸和距离)、空间关系(判断物体之间的相对位置如"在前面""在左边")、相机感知(理解拍摄角度和相机运动)、多视角一致性(跨不同视角识别同一物体)以及场景感知推理(综合理解整个场景的三维布局)。这五类能力展开又形成了19个具体的子任务,覆盖范围相当全面。
训练策略上,研究团队采用了一个巧妙的设计:对于空间理解任务,不给AI施加"别偏离原来模型"的约束,因为原始模型在空间理解上本就很弱,如果施加这种约束反而会阻碍学习新的空间知识;而对于通用理解任务,则保留这种约束,防止AI在学习新内容时把之前掌握的通用能力忘掉。这种差别对待的策略,很好地平衡了"学新东西"和"不忘旧知识"之间的矛盾。
空间理解能力的提升效果相当显著。在包含9个空间理解基准和4个通用理解基准的综合测试中,JoyAI-Image的空间理解平均分达到64.4分,比它的基础模型提升了5.3分,甚至与Google的商业大模型Gemini-2.5-Pro的表现持平。在AllAnglesBench这个专门测试多视角空间推理的基准上,提升幅度高达11.5个百分点,这是相当大的进步。
四、图片生成:从海量数据中炼出高质量图像
理解了空间智能的部分,接着来看图片生成。JoyAI-Image的生成能力建立在一套非常精细的数据处理流程上,这套流程包含五个相互协作的模块,就像一条精密的流水线。
数据筛选是第一道关。研究团队从来自专业摄影平台、网络爬取和内部收集的数十亿张图片出发,设计了一个分阶段逐步提高门槛的筛选系统。在最初阶段,主要过滤掉明显有问题的图片,比如分辨率太低、有违规内容或重复图片。随着训练推进到更高分辨率阶段,筛选标准也越来越严格。
其中有两个特别值得一提的筛选工具。一个是内部开发的图片质量评估系统,它同时检测亮度、饱和度、清晰度等统计指标,以及借助多个学习型模型评估图片的感知质量,最后通过一套级联决策逻辑给出是否保留的判断。这套系统与人工判断的一致性达到了90%。另一个是基于文字描述的内容过滤器:AI先对图片生成描述文字,然后通过在这些描述中匹配关键词来识别不适合训练的图片(如拼图、水印明显的图片、截图等)——这种方式比逐张用图像识别器判断快了几个数量级,而且还能发现图像识别器容易漏掉的一些细微问题。
图片描述生成是第二道工序。高质量的文字描述对于文字生成图片的模型至关重要,因为模型就是通过学习文字和图片之间的对应关系来掌握生成能力的。研究团队为每张图片生成四种不同详细程度的文字描述:最简洁的一两句话版本(模拟用户在实际使用时的输入习惯)、段落级别的详细描述、更细粒度的超详细描述,以及结构化的JSON格式描述(按照主体、背景、风格、构图等维度分类标注)。所有描述都同时生成中文和英文版本,以支持双语生成。
在这个过程中,处理图片中的文字是一个特殊挑战。研究团队设计了专门的"OCR感知描述流程":先用专业的文字识别工具提取图片中的所有文字,然后把这些文字作为额外信息输入给描述生成模型,确保生成的描述能准确覆盖图片中出现的每一个文字内容。描述生成后还要经过严格的后处理检验,确保识别出的文字一个不漏、原始文字未被翻译或改写、也没有凭空捏造不存在的文字。
数据重新平衡是第三道工序,用来解决网络数据中的"长尾分布"问题——少数常见类别的图片数量过多,大多数不常见类别的图片却很少,导致模型在常见内容上表现好,在罕见内容上表现差。研究团队建立了一个约28.5万个叶节点类别的层次化标签体系,通过计算图片描述与各类别标签在语义空间中的相似度来为每张图片打标签,然后对高频类别做降采样、对低频类别做全量保留,让各类别的训练数据更加均衡。
人工标注是第四道工序,用于为最终阶段的精细调整提供高质量的种子数据。人工标注员从美学质感(权重50%)、信息密度(权重30%)和风格纯粹性(权重20%)三个维度对图片进行评分,每个维度分为5、4、3、0四个档次。为了保证标注质量,系统会定期用已知答案的"哨兵样本"来检验标注员,标注员的准确率如果低于90%就会被要求重新培训;每天还会随机抽查5%的前一天通过样本,如果问题率超过5%则整批返工。
多视角生成数据准备是第五道工序。为了支持"给定一个视角的图片,生成其他视角看起来的样子"这种能力,研究团队使用Blender(一款三维建模软件)渲染了大约100万张多视角图片。这些图片专注于以单一物体或单一主体为中心的场景,摄像机围绕目标物体从不同角度拍摄,并通过射线检测排除了摄像机被遮挡的不合理拍摄位置。每组多视角图片都配有结构化的标注,包含视角变化的逻辑描述、每个子图的角度说明等信息。
整个训练过程分为三个阶段推进。第一阶段在低分辨率(208像素)下建立基础生成能力,第二阶段在中等分辨率(512像素)下提升质量,第三阶段在高分辨率(1024像素)下精修,并在这个阶段引入多视角数据,让模型学会视角控制。之后是继续训练阶段,用更严格筛选的高质量子集来缩小数据分布的"熵",让模型的生成行为更稳定。再之后是监督微调阶段,专门强化复杂文字渲染和多视角生成两个方向。最后还有强化学习阶段,用"美学奖励"和"文图对齐奖励"两套评估信号来进一步提升生成质量。
在多项基准测试上,JoyAI-Image的图片生成表现相当突出。在专门评估长文本渲染能力的LongText-Bench上,英文和中文的准确率都达到0.963,是所有参与比较模型中最高的,甚至超越了OpenAI的GPT Image 1(英文0.956,中文仅0.619)。在评估文字准确度的CVTG-2K基准上,JoyAI-Image的词级准确率达到0.8739,同样排名第一。在评估文字与图像综合遵循能力的DPG基准上,综合得分为88.05,也处于领先位置。
五、图片编辑:精准改动,其余一切保持原样
图片编辑是比生成更难的任务——生成是从零开始创造,而编辑要求你只改应该改的地方,其他地方一点不动。这就像外科手术和艺术创作的结合:要有手术刀的精准,又要有画家的创意。
JoyAI-Image-Edit的训练数据由三大来源构成,比例上形成了有意设计的组合。接近一半的数据来自开放域编辑,也就是从视频中提取的图片对,这些图片来自真实世界中自然发生的变化(人的动作、物体移动、光线变化等),训练的是模型对广泛现实世界变化的基本理解。这类数据的获取方式很有意思:先把视频切分成语义连贯的片段,然后从同一片段中选取相邻帧或短间隔帧作为"前"和"后"图片,再用语言模型分析两张图片之间的差异并将其转写成自然语言的编辑指令。
约28%的数据来自空间编辑,这部分是用专门开发的三维驱动数据引擎生成的。引擎分为两个分支。一个是"静态相机·物体变换"分支:保持相机位置不动,对场景中的某个物体执行平移、缩放或旋转操作,然后通过图像修补技术填补物体移走后留下的空洞,生成一对"原图·编辑后"的训练样本。另一个是"动态相机·视角变换"分支:保持三维场景不变,让相机绕着目标物体改变角度(偏航角、俯仰角和距离三个自由度),从而生成不同视角的场景画面。
在生成训练数据之前,有一个精心设计的"资产预处理"环节:每个三维物体都要先用语言模型验证其可识别性,再通过分割模型确认在各视角下物体能被清晰定位,不合格的资产直接淘汰。这道预处理保证了后续生成的训练样本质量。
剩余约25%的数据来自各类专项编辑,包括文字替换和插入(既要改对字,又不能破坏原来的排版和字体风格)、IP保留编辑(给人物换衣服但脸要保持一致)、风格迁移、多图合成等。
所有这些来自不同渠道的数据都被统一转换成同一种格式:源图片、可选的参考图片、自然语言编辑指令、目标图片,以及必要时的结构化元数据(如空间变换的具体参数)。
训练同样分四个阶段。预训练阶段建立基本的"理解图片差异、执行编辑操作"能力,大量使用视频衍生的编辑对,让模型先掌握"什么叫做根据指令修改图片"。继续训练阶段引入高质量的综合编辑数据,全面提升指令遵循精度、内容保留能力和视觉美观程度。监督微调阶段对最敏感的编辑维度做针对性强化,包括文字精确性、空间精准度、参考图一致性等。最后的后训练(强化学习)阶段,使用Gemini-3-Flash模型和HPSv3美学模型作为奖励信号,进一步提升编辑的自然度和指令遵循质量。
后训练阶段的奖励设计有一个亮点:指令遵循分数和内容一致性分数采用了优先级排序而非简单加权——当指令遵循分数太低时,无论内容保留得多好,整体奖励都会被压低。这防止了模型通过"什么都不改"来获得高保留分而逃避真正的编辑任务。
在性能测试上,JoyAI-Image-Edit在GEdit-Bench(评估通用编辑质量)和ImgEdit-Bench(评估多类型编辑能力)两个通用编辑基准上均达到当前最优水平。在SpatialEdit-Bench(专门评估空间编辑精准度)上的提升尤为显著:与排名第二的LongCatImage-Edit相比,物体移动得分从0.373提升到0.652,物体旋转得分从0.505提升到0.646,相机控制误差从0.743降低到0.429。这个基准还把JoyAI-Image-Edit与多个视频生成模型(如Veo3.1、Kling-V2.5等)做了对比,JoyAI-Image-Edit在相机控制精准度上仍然超过了这些专门的视频模型。
强化学习对于编辑质量的提升也有实质效果:与仅做监督微调的版本相比,加了强化学习后,在GEdit-Bench英文版的综合得分提升了0.186,中文版提升了0.372,ImgEdit-Bench综合得分提升了0.06。
在人工评测方面,与Qwen-Image-Edit-2511的对比中,JoyAI-Image-Edit在"指令遵循"和"整体偏好"两个维度上占有明显优势;与Flux.2(一个知名的开源模型)的对比中,JoyAI-Image-Edit在"指令遵循"、"内容一致性"和"整体偏好"上都有大幅领先。与Nano-Banana-2(当时表现最强的对比基准)相比,JoyAI-Image-Edit的整体偏好略低,主要差距体现在"自然度"维度,说明生成图片的感知真实感还有进步空间。
六、"用生成帮助理解"——空间推理的一个意想不到的用法
JoyAI-Image带来了一个颇具启发性的应用思路:用高质量的空间编辑能力来辅助空间推理,而不只是把编辑当作一个终端产品功能。
这个应用被称为"借助新视角思考"(Thinking with Novel Views,TwNV)。其基本逻辑是:当AI面对一个需要理解空间关系的问题时(比如"图里的钟比房子高还是低?"),可以先预测出最有利于回答这个问题的观察角度,然后生成从那个角度看到的画面,最后再结合原图和生成图来回答问题。
这个流程分三步:由"规划者"(大语言模型)根据问题制定出最有价值的视角变换指令(用六个自由度描述相机运动),由"合成者"(JoyAI-Image-Edit的空间编辑能力)按照指令生成新视角图片,最后由"推理者"(另一个视觉语言模型)综合原图和新生成的图来给出最终答案。
研究团队专门构建了一个包含695个样本的评测集(其中575个来自3DSRBench基准,120个来自RealWorldQA基准),涵盖方向判断、位置关系和多物体关系三个空间推理维度。
测试结果显示,使用JoyAI-Image-Edit作为视角合成器时,能将GPT-5在这个评测集上的综合准确率从68.8%提升到71.7%,在多物体关系判断这个最难的维度上提升了5.7个百分点。相比之下,使用其他编辑模型(如Qwen-Image-Edit)作为合成器时,提升效果微乎其微甚至有轻微下降,说明视角合成的几何精准度对于这个流程至关重要,不是任何一个能生成图片的模型都能有效胜任。
此外,研究团队还观察到一个有趣的现象:这个方法对能力较弱的模型带来的相对提升更大。Qwen3-VL-32B(一个相对较小的模型)的相对提升幅度达到7.8%,而Gemini-3-Flash(能力更强的模型)只有2.3%。这意味着,借助外部生成的"视角链条",能力有限的小模型可以在空间推理上获得远超其本身能力的表现。
七、生成多视角图片还能改善三维重建
另一个有趣的应用是用空间编辑能力来辅助三维重建。研究团队用JoyAI-Image-Edit对同一张输入图片生成多个不同视角的版本,然后把这些生成的多视角图片送进VGGT(一个三维重建模型)进行三维场景重建,并与只用单张输入图片进行重建的结果做对比。
结果相当直观:单张图片的重建结果点云稀疏、几何形状残缺;而加入生成的多视角图片后,重建得到的点云密度大幅提升,场景布局、主要表面和物体位置都清晰了很多。这间接验证了JoyAI-Image-Edit的视角生成质量确实达到了几何层面的一致性——如果生成的图片只是"看起来像"而几何上不一致,反而会干扰三维重建,降低质量。
这个结果的意义不只是技术层面的。它说明,经过充分训练的二维图片编辑模型,确实能够在内部建立起某种程度上的三维场景理解,而不仅仅是做像素层面的"美化"。这对于未来将这类模型用于具身机器人、虚拟场景探索、可控视觉仿真等更复杂的应用场景,提供了一个可行性的早期证据。
说到底,JoyAI-Image做的事情,可以概括成三个字:不分家。它不把图片理解、图片生成和图片编辑当作三件独立的事来做,而是让这三者互相滋养——更好的理解帮助生成更准确、更贴合指令的图片,更精准的空间编辑反过来给理解提供额外的视角和线索,整个系统在这个双向循环中一起变强。
这种设计思路本身就很值得思考。过去我们习惯于把AI的不同能力切开来分别优化,就像把一个人的左手和右手分开训练。JoyAI-Image的实践表明,让这些能力在一个统一框架里共同成长,可能是一条更有效的路径,尤其是在需要"理解-行动"紧密配合的场景下(比如机器人执行操作任务,或者世界模型模拟物理变化)。
当然,任何研究都有其局限。JoyAI-Image在感知图片自然度方面与顶级闭源商业模型相比还有差距,这在人工评测中表现得相当明显。空间编辑的几何精准度在复杂场景下也还有提升空间。此外,这类统一系统的训练复杂度极高,如何以更经济的方式实现同等性能,也是未来需要探索的方向。
有兴趣深入了解技术细节的读者,可以通过arXiv编号2605.04128查阅完整论文,相关代码和模型也在GitHub上公开,地址可通过论文中找到。
Q&A
Q1:JoyAI-Image和普通的文字生成图片AI有什么区别?
A:普通的文字生成图片AI只做一件事——根据文字描述创建新图片。JoyAI-Image同时整合了三种能力:理解图片内容并回答问题、根据文字生成图片、以及按照指令精确修改现有图片。更关键的区别在于,JoyAI-Image专门强化了对三维空间的理解,能判断物体之间的距离、位置关系,还能从不同角度"看"同一个场景,这是普通图片生成模型通常做不到的。
Q2:OpenSpatial数据引擎是什么,为什么它对空间理解很重要?
A:OpenSpatial是京东AI团队开发的一个自动生成空间训练数据的系统。它的核心是用三维边界框(给每个物体套一个无形的三维盒子)来标注场景中物体的位置和尺寸,既可以直接用专业三维扫描数据,也能从普通视频中通过"三维提升"技术自动生成。这个系统生成了300万条训练样本,覆盖距离判断、位置关系、多视角一致性等多种空间能力,让AI通过大量实例学会像人类一样理解三维世界。没有这种规模的专项数据,AI很难从平面图片中推断出空间关系。
Q3:JoyAI-Image的空间编辑能力在实际应用中有什么用处?
A:实际应用场景比较广泛。在电商领域,可以给产品图自动生成多个不同角度的视图,帮助消费者全面了解商品,论文中也展示了多视角试穿衣服的演示案例。在辅助推理方面,当AI被问到需要从特定角度才能看清楚的空间问题时,可以先生成该角度的图片再回答,提升判断准确率。在三维重建辅助方面,可以从单张照片出发生成多视角图片,改善三维重建的完整性。未来在机器人导航、场景模拟等方向也有潜在价值。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。