微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

南洋理工大学、中山大学、马来亚大学、VinUniversity联合研究：让AI同时学会"画"和"改"人与物的互动场景

图像生成扩散变换器多模态统一模型

南洋理工大学、中山大学、马来亚大学、VinUniversity联合研究：让AI同时学会"画"和"改"人与物的互动场景

作者：科技行者

2026-04-27 11:34

分享至：

这项由南洋理工大学、中山大学、马来亚大学和VinUniversity联合完成的研究（arXiv:2604.14062，2026年4月）提出了OneHOI框架，首次将"人与物体互动场景生成"和"互动关系编辑"统一到同一个扩散变换器模型中。核心创新在于关系扩散变换器R-DiT，包含动作定位、HOI编码器、结构化HOI注意力和HOI旋转位置编码四个模块，使模型能真正理解"谁对谁做了什么"的关系语法。研究还构建了44K规模的配对编辑数据集HOI-Edit-44K，并在HOI生成、无布局编辑和多HOI编辑三项任务上均达到当前最优水平。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-27 11:34 • 科技行者

这项由南洋理工大学、中山大学、马来亚大学以及VinUniversity联合完成的研究，以预印本形式于2026年4月15日发布在论文预印平台arXiv，编号为arXiv:2604.14062。研究的核心成果是一个名为OneHOI的AI图像系统，它首次将"生成人与物体互动场景"和"修改已有图片中的人与物体互动关系"这两件事，整合进了同一个模型里完成。

当你刷短视频时，有没有想过一件事：为什么AI现在可以画出一个人，也可以画出一条狗，但却很难同时画出"一个人在遛狗"这个具体的动作关系？更进一步，如果你已经有一张"一个人抱着猫"的照片，想把它改成"一个人在逗猫玩"，现有的AI工具要么把猫画成了另一只，要么人的姿势根本没变，甚至整张图片都面目全非。这个"理解关系"的难题，正是这篇研究想要解决的核心问题。

研究团队把这类"人和物体之间的互动关系"定义为一种三元结构：人物、动作、物体——比如"人、踢、足球"或者"人、坐在、椅子上"。他们把这种结构叫做HOI，是Human-Object Interaction的缩写，中文可以理解为"人与物体互动"。现有的AI系统通常只会处理其中两件事之一：要么负责"生成"，给它一组这样的三元关系再加上布局框，它就画出对应的图；要么负责"编辑"，给它一张已有的图片加上文字指令，它就尝试修改互动关系。但没有一个系统能同时、灵活地做好这两件事，更别提在一张图里同时修改多组互动关系了。OneHOI就是为了填补这个空白而生的。

一、为什么"画一个互动场景"比"画一个人"难那么多

要理解这项研究的价值，需要先搞清楚现有AI系统卡在哪里。

以目前流行的图像生成模型为例，它们的底层逻辑是"扩散变换器"——可以把它理解成一种"从模糊到清晰的雕塑家"，先用噪声覆盖画布，再一步步把有意义的图像雕刻出来。这类模型在生成质量上已经非常出色，但有一个根本性的缺陷：它们把图片里的每个元素当作独立的个体来处理，就像一个厨师只会分别煎好每块食材，却不知道怎么把它们组合成一道需要特定烹饪顺序的菜。一个人站在那里没问题，一条狗趴在那里也没问题，但"人牵着狗走路"这个动态关系——手握着绳子、姿势协调、视线方向——就常常出问题。

现有的研究分成了两个相互独立的阵营。一边是"生成派"，代表作是InteractDiffusion，它能根据三元关系和空间布局框画出互动场景，但如果你不给它精确的边界框，或者想在同一张图里混合一些只有物体没有互动的元素，它就会力不从心。另一边是"编辑派"，代表作有HOIEdit和InteractEdit，它们接受一张已有的图片加上文字指令来修改互动，但问题是它们很难把"姿势"和"接触方式"分开处理——比如你想把"拿着杯子"改成"喝着杯子"，系统可能只改了一点点，或者把人的脸都改了。而且这两类系统都无法在一张图里同时编辑多个不同的互动关系。

正因如此，研究团队提出了一个核心问题：能不能用一个统一的框架，同时做好生成和编辑，还能灵活应对各种条件——有布局框或没有、有文字描述或没有、多个互动关系同时处理？

二、OneHOI的核心设计：一套能"理解关系语法"的新型处理器

研究团队把解决这个问题的关键模块命名为"关系扩散变换器"，英文缩写R-DiT。如果把普通的图像生成模型比作一个只会认识单个汉字的阅读器，那么R-DiT就是一个能理解句子语法、知道"主语、谓语、宾语"之间关系的阅读器。它由四个紧密配合的子组件构成，每一个都在解决"理解关系"这件事的某一层难题。

第一个子组件叫做"动作定位"，负责告诉模型"这个动作发生在哪里"。普通模型只会把人和物体各自定位到它们的边界框里，但不知道动作本身应该在哪里发生。研究团队发现，一个有趣的现象：在现有模型里，代表"动作"的信号最自然地关注的区域，其实是人和物体两个边界框合并之后的整个区域，而不是之前另一个研究方法所定义的"两者之间的夹缝区域"。打个比方，"踢球"这个动作的注意力不是集中在脚和球之间的空气里，而是覆盖了脚和球本身这两个实体。所以动作定位模块把"动作区域"定义为人的区域和物体区域的并集，这个改变让模型对动作的空间感知更准确。

第二个子组件叫做"HOI编码器"，专门解决"谁是主语、谁是宾语、这是第几组互动"的身份混乱问题。当一张图里有两组互动——比如"张三追着狗"和"李四抱着猫"——模型很容易把它们弄混，生成张三抱着猫、或者狗在追张三这样的错误结果。HOI编码器通过给每个词元打上三种身份标签来解决这个问题：第一种是"角色嵌入"，区分这个词元是主体、是客体还是动作；第二种是"实例嵌入"，用数学上的正弦波编码来标记这是第几组互动；第三种是"空间嵌入"，用傅里叶变换把边界框的位置信息编码进去。这三种信息通过一个小型神经网络融合后，以加权方式叠加回原始词元上，权重由一个可学习的门控参数控制，这样训练初期不会因为新加的信息太猛而破坏原有的模型能力。

第三个子组件叫做"结构化HOI注意力"，它规定了信息在不同词元之间流动的"交通规则"。在标准的注意力机制里，所有词元可以互相看到彼此，就像一个没有隔间的开放办公室，所有人的对话混在一起。HOI注意力给这个办公室加了隔断：同一组互动里，主体和动作可以互相沟通，客体和动作可以互相沟通，但主体和客体之间是隔开的，必须通过动作词元这个"中间人"来传递信息——这正是互动关系的语法结构，动作是连接主体和客体的纽带。不同组互动之间也完全隔离，防止串扰。当空间布局信息存在时，每组互动中的词元只能"看到"图像中属于它们自己区域的像素，主体词元只看主体区域，动作词元看主体加客体的合并区域，客体词元只看客体区域；当没有布局信息时，这些限制取消，所有连接开放。

第四个子组件叫做"HOI旋转位置编码"，简称HRoPE，专门解决多组互动的"位置身份混淆"问题。现有的位置编码系统为图像里的每个像素分配一个空间坐标，但对于代表互动关系的抽象词元，就缺乏清晰的定位。HRoPE给每组互动分配一个独特的"位置槽"：所有属于第n组互动的词元，都被赋予坐标(0, T+n, T+n)，其中T是图像网格的最大维度。这意味着不同互动的词元在位置空间里保持距离，就像给每个演员分配了不同的舞台区域，互相不会踩台词。

三、训练策略和数据集：既教它"从零画"，也教它"改图"

把这四个组件组合成R-DiT之后，研究团队还需要解决另一个关键问题：怎么让同一个模型同时学会生成和编辑？他们采用的策略叫做"联合训练加模态随机丢弃"。

训练时，每批数据交替混合生成任务和编辑任务。生成任务就是从噪声开始生成图像，编辑任务则是把源图像的VAE编码和噪声拼接在一起输入模型。更重要的是，训练中会随机"遮掉"部分输入信息：有25%的概率丢掉布局边界框信息，有25%的概率把HOI三元关系降级为仅物体描述，有30%的概率丢掉全局文字描述——但保证至少一种输入模态存在。这种随机遮掩的训练方式，就像训练一个厨师在有时候没有食谱、有时候没有食材清单、有时候没有调料表的情况下都能做出合格的菜，从而使模型在真实使用时能灵活应对各种不完整的输入条件。

数据方面，这项研究的一个重要贡献是构建并公开了HOI-Edit-44K数据集，专门用来解决HOI编辑任务中配对训练数据极度稀缺的问题。这个数据集的构建过程非常严格：首先从两个来源收集源图像，一是用Flux.1模型生成的、包含可验证互动关系的图像，二是HICO-DET数据集中的真实照片。对于每张源图像，用Flux.1 Kontext和InteractEdit工具生成候选的编辑结果。然后每对候选图像要通过两道严格的自动审核：第一道是"互动正确性"，用PViC这个HOI检测器检查编辑后的图像里是否真的包含目标互动关系；第二道是"身份保持性"，用DINOv2视觉特征模型提取源图和编辑图中人物和物体的特征，计算余弦相似度，只有相似度高于0.75的才保留。这两道筛选极其严苛，大约90%的候选数据被淘汰，最终保留了44,117对高质量的编辑样本。这个数据集涵盖79种物体类别、92种目标动作，组合出372种独特的HOI三元关系。

除了HOI-Edit-44K，训练还使用了另外两个数据集：从SA-1B中采样的35,000张图像（用于加强纯物体级别的空间布局控制，不含互动关系监督），以及HICO-DET训练集的37,000张图像（用于学习HOI生成的基础知识，测试集仅用于评估）。

整个模型基于Flux.1 Kontext这个多模态扩散变换器骨干网络，使用LoRA微调方法在骨干网络的每个块的线性层上进行调整，LoRA秩设为64，产生约3亿个可训练参数，占整个12B参数规模冻结基础模型的2.5%。HOI编码器本身有1700万参数，从头训练。整个训练在两块NVIDIA RTX 6000 ADA显卡上进行了10,000步，学习率恒定为0.0001，使用bf16精度。

四、评测任务和衡量标准：用三把尺子量三件不同的事

研究团队设计了三种不同的评测任务，各自使用不同的衡量标准。

第一种叫"无布局HOI编辑"，考察的是：给定一张图片和一组新的互动三元关系（不提供空间布局），模型能不能正确地改变互动动作，同时保持人物和物体的外观不变？使用的是IEBench这个已有的评测基准，包含100个目标编辑任务，每个任务生成10张候选图像，共1000张。评价指标有两个：一个是"HOI可编辑性"，用PViC检测器检查目标互动是否在编辑后的图像中被实现，取成功率；另一个是"可编辑性-身份综合分"，用调和平均值把HOI成功率和身份保持度（用DINOv2特征相似度衡量）结合起来，两者都高才能得高分。

第二种叫"有布局引导的HOI编辑"，在第一种的基础上额外提供目标布局信息，分为单HOI编辑和多HOI编辑两个子任务。多HOI编辑使用了研究团队自己提出的全新评测基准MultiHOIEdit，包含103张源图像、200个多互动编辑任务，每个任务涉及2到3组互动关系同时修改。这个基准的构建过程同样严格：先用Flux.1生成包含多组互动的源图像，再用PViC验证，最终从8,942张候选图像里只筛选出200张合格的源图像（成功率仅2.2%），充分说明了多HOI场景生成本身的难度。MultiHOIEdit覆盖54种物体类别、40种源动作、74种目标动作，涉及从112种源HOI对到252种目标HOI对的转换。

第三种叫"HOI生成"，在HICO-DET测试集的2000个目标上评估，报告"HOI准确率"（目标互动是否被正确检测到）、"空间分"（预测边界框和目标边界框的平均IoU）以及各种图像质量指标（PickScore、HPSv2、ImageReward，均为基于人类偏好训练的感知质量模型）。

五、实验结果：在三个维度上都领先于所有对比方法

在无布局HOI编辑任务上，OneHOI与包括HOIEdit、InstructPix2Pix、TurboEdit、OmniGen、FireFlow、Flux.1 Kontext、OmniGen2、Qwen Image Edit以及InteractEdit在内的众多方法进行了对比。结果显示，OneHOI在"可编辑性-身份综合分"上达到0.638，在"HOI可编辑性"上达到0.596，分别比排名第二的InteractEdit高出10%和16%。PickScore、HPSv2和ImageReward三项图像质量指标也均为最优。研究团队还将自己的结果与Nano Banana（一个通过Gemini API访问的闭源商业模型）进行了对比，OneHOI在HOI编辑指标上仍然领先。这说明即使没有任何布局信息，这套统一框架也能可靠地修改互动关系并保持人物外观。

在有布局引导的单HOI编辑任务上，研究团队将InteractEdit和InteractDiffusion结合作为基线，OneHOI的空间分达到0.822（基线为0.749），HOI可编辑性达到0.570（基线为0.520），图像质量全面领先。对于更难的多HOI编辑任务，由于没有任何现有方法能完成这个任务，OneHOI是唯一报告结果的方法，空间分达到0.675，质量指标也保持在较好水平。

在HOI生成任务上，OneHOI的空间分达到0.6104，比之前最好的InteractDiffusion（0.5768）提高了5.8%；HOI准确率达到0.4528，略优于InteractDiffusion的0.4505；ImageReward达到0.5224，比最好的基线Eligen（0.3921）提高了33.2%。这说明把编辑任务的训练数据加进来，不但没有损害生成能力，反而还提升了它。

六、消融实验：每个组件都有不可替代的作用

为了验证R-DiT里每个新增组件的价值，研究团队做了系统的逐步叠加实验，以Eligen作为基线，每次添加一个新组件，观察性能变化。

从基线出发，只加入"动作定位"这个模块后，HOI生成的准确率从0.3061跳到0.4138，同时解锁了编辑任务的基础能力。这个提升幅度最大，说明动作定位是整个体系的地基，没有它模型就完全不理解"动作在哪里发生"。

在此基础上再加入"HOI编码器"，HOI准确率进一步提升至0.4254，而ImageReward的质量分则从0.3156大幅上涨到0.4602，说明明确的角色和实例身份信息让图像的感知质量有了明显提升。

再加上"结构化HOI注意力"，HOI准确率来到0.4504，多HOI编辑的综合分也进一步改善，确认了这个模块在强制执行关系结构上的核心作用。

最后加入"HOI旋转位置编码"，HOI准确率略微提升到0.4528，但ImageReward再次显著提升至0.5224，说明实例位置的清晰分离对最终图像的整体感知质量非常有帮助。

研究团队用一个具体的例子来可视化这个过程：一张图片要求画"一个人既在托着鸟又在抚摸鸟"。只有动作定位时，模型只画出了简单的"抚摸"动作。加上编码器后，"抚摸"的姿势更自然了。加上注意力机制后，"托着"的姿势出现了，但两个动作的手形还有些混乱。只有加上旋转位置编码之后，两个动作才被清楚地分开，正确地呈现了双手一托一抚的复杂姿势。

研究团队还验证了"统一训练"本身的价值，将OneHOI与仅针对单个任务训练的专用模型进行了对比（计算量相同，都训练1000步）。在HOI生成任务上，专用模型的HOI准确率为0.177，统一模型为0.224，提升了26.4%；在无布局编辑任务上，HOI可编辑性从0.464提升至0.562，提升了21.1%；在多HOI编辑任务上，统一模型也以0.329对0.287领先。这证明生成任务学到的互动知识确实迁移到了编辑任务，反之亦然，产生了真实的协同效益。

七、人类偏好研究：真实用户更喜欢什么

除了自动指标，研究团队还进行了真人评测。26名参与者在网页界面上完成了450次盲测，每次看到源图像和编辑指令，然后对两个匿名模型的输出在"互动物理合理性"、"身份保持度"和"整体质量"三个维度上用五点量表打分。

对比Qwen Image Edit，OneHOI在互动物理合理性上有58.2%的概率被评为更好，而Qwen只有8.2%；在整体质量上，OneHOI有50.4%的概率被评为明显更好，21.6%打平，Qwen有28%更好。对比InteractEdit，OneHOI在身份保持度上有74.8%的概率更好，在整体质量上有66.1%的概率更好。这些真人评测结果与自动指标高度一致，说明模型的提升是真实可感知的，而不是指标上的数字游戏。

说到底，这项研究做的事情可以用一句话来概括：它教会了AI理解"关系语法"，而不只是"词汇"。过去的AI很擅长认识和画出一个个独立的东西，但对于"谁在对谁做什么"这种关系描述，就像一个只认识单字但读不懂句子的人。研究团队建造的这套系统，通过角色身份标注、关系拓扑约束、位置空间隔离这三层机制，把互动关系编织进了模型的计算过程，使它在生成和编辑两种使用场景下都能展现出对关系的真正理解。

这对普通人意味着什么？从最实际的角度看，未来的图像编辑工具可能真的能做到"把这张照片里爸爸搂着孩子改成爸爸教孩子骑自行车"，而不是给你返回一张面目全非的图——人还是那个人，自行车还是那辆自行车，只是互动关系变了。当然，这项研究还处于学术阶段，从论文到真正好用的消费级产品还需要时间。但方向是清晰的：让AI从"认识物体"升级到"理解关系"，这一步，研究团队迈出来了。

有兴趣深入了解技术细节的读者可以通过arXiv编号2604.14062查询完整论文，代码和数据集也已在论文主页公开。

Q&A

Q1：OneHOI能同时修改一张图里的多组互动关系吗？

A：可以。OneHOI通过HOI旋转位置编码和结构化HOI注意力机制将不同互动实例在特征空间里隔离开来，配合布局边界框输入，可以同时对一张图里的两到三组互动关系进行独立编辑，例如同时把"甲持杯喝水"改为"甲提瓶携带"、把"乙坐在长椅上"改为"乙躺在长椅上"，两组编辑互不干扰。

Q2：HOI-Edit-44K数据集是怎么保证编辑质量的？

A：数据集通过两道自动审核筛选。第一道用PViC检测器验证编辑后的图像里是否真的出现了目标互动关系；第二道用DINOv2提取源图和编辑图中人物与物体的特征，计算余弦相似度，只有人物和物体的相似度都超过0.75才保留。两道筛选合计淘汰了约90%的候选数据，最终保留44,117对高质量样本。

Q3：OneHOI和InteractDiffusion相比有什么核心改进？

A：InteractDiffusion只能做有布局框的HOI生成，不支持编辑，也不支持在一张图里混合HOI和纯物体描述。OneHOI把生成和编辑统一在同一个模型里，支持有布局、无布局、任意形状遮罩和混合条件四种控制方式，还首次支持多HOI同时编辑，并通过HOI编码器和注意力机制显式建模了互动的关系结构，而不只是靠文本提示隐式引导。

图像生成扩散变换器多模态统一模型

分享至