
这项由南洋理工大学、中山大学、马来亚大学以及VinUniversity联合完成的研究,以预印本形式于2026年4月15日发布在论文预印平台arXiv,编号为arXiv:2604.14062。研究的核心成果是一个名为OneHOI的AI图像系统,它首次将"生成人与物体互动场景"和"修改已有图片中的人与物体互动关系"这两件事,整合进了同一个模型里完成。
当你刷短视频时,有没有想过一件事:为什么AI现在可以画出一个人,也可以画出一条狗,但却很难同时画出"一个人在遛狗"这个具体的动作关系?更进一步,如果你已经有一张"一个人抱着猫"的照片,想把它改成"一个人在逗猫玩",现有的AI工具要么把猫画成了另一只,要么人的姿势根本没变,甚至整张图片都面目全非。这个"理解关系"的难题,正是这篇研究想要解决的核心问题。
研究团队把这类"人和物体之间的互动关系"定义为一种三元结构:人物、动作、物体——比如"人、踢、足球"或者"人、坐在、椅子上"。他们把这种结构叫做HOI,是Human-Object Interaction的缩写,中文可以理解为"人与物体互动"。现有的AI系统通常只会处理其中两件事之一:要么负责"生成",给它一组这样的三元关系再加上布局框,它就画出对应的图;要么负责"编辑",给它一张已有的图片加上文字指令,它就尝试修改互动关系。但没有一个系统能同时、灵活地做好这两件事,更别提在一张图里同时修改多组互动关系了。OneHOI就是为了填补这个空白而生的。
一、为什么"画一个互动场景"比"画一个人"难那么多
要理解这项研究的价值,需要先搞清楚现有AI系统卡在哪里。
以目前流行的图像生成模型为例,它们的底层逻辑是"扩散变换器"——可以把它理解成一种"从模糊到清晰的雕塑家",先用噪声覆盖画布,再一步步把有意义的图像雕刻出来。这类模型在生成质量上已经非常出色,但有一个根本性的缺陷:它们把图片里的每个元素当作独立的个体来处理,就像一个厨师只会分别煎好每块食材,却不知道怎么把它们组合成一道需要特定烹饪顺序的菜。一个人站在那里没问题,一条狗趴在那里也没问题,但"人牵着狗走路"这个动态关系——手握着绳子、姿势协调、视线方向——就常常出问题。
现有的研究分成了两个相互独立的阵营。一边是"生成派",代表作是InteractDiffusion,它能根据三元关系和空间布局框画出互动场景,但如果你不给它精确的边界框,或者想在同一张图里混合一些只有物体没有互动的元素,它就会力不从心。另一边是"编辑派",代表作有HOIEdit和InteractEdit,它们接受一张已有的图片加上文字指令来修改互动,但问题是它们很难把"姿势"和"接触方式"分开处理——比如你想把"拿着杯子"改成"喝着杯子",系统可能只改了一点点,或者把人的脸都改了。而且这两类系统都无法在一张图里同时编辑多个不同的互动关系。
正因如此,研究团队提出了一个核心问题:能不能用一个统一的框架,同时做好生成和编辑,还能灵活应对各种条件——有布局框或没有、有文字描述或没有、多个互动关系同时处理?
二、OneHOI的核心设计:一套能"理解关系语法"的新型处理器
研究团队把解决这个问题的关键模块命名为"关系扩散变换器",英文缩写R-DiT。如果把普通的图像生成模型比作一个只会认识单个汉字的阅读器,那么R-DiT就是一个能理解句子语法、知道"主语、谓语、宾语"之间关系的阅读器。它由四个紧密配合的子组件构成,每一个都在解决"理解关系"这件事的某一层难题。
第一个子组件叫做"动作定位",负责告诉模型"这个动作发生在哪里"。普通模型只会把人和物体各自定位到它们的边界框里,但不知道动作本身应该在哪里发生。研究团队发现,一个有趣的现象:在现有模型里,代表"动作"的信号最自然地关注的区域,其实是人和物体两个边界框合并之后的整个区域,而不是之前另一个研究方法所定义的"两者之间的夹缝区域"。打个比方,"踢球"这个动作的注意力不是集中在脚和球之间的空气里,而是覆盖了脚和球本身这两个实体。所以动作定位模块把"动作区域"定义为人的区域和物体区域的并集,这个改变让模型对动作的空间感知更准确。
第二个子组件叫做"HOI编码器",专门解决"谁是主语、谁是宾语、这是第几组互动"的身份混乱问题。当一张图里有两组互动——比如"张三追着狗"和"李四抱着猫"——模型很容易把它们弄混,生成张三抱着猫、或者狗在追张三这样的错误结果。HOI编码器通过给每个词元打上三种身份标签来解决这个问题:第一种是"角色嵌入",区分这个词元是主体、是客体还是动作;第二种是"实例嵌入",用数学上的正弦波编码来标记这是第几组互动;第三种是"空间嵌入",用傅里叶变换把边界框的位置信息编码进去。这三种信息通过一个小型神经网络融合后,以加权方式叠加回原始词元上,权重由一个可学习的门控参数控制,这样训练初期不会因为新加的信息太猛而破坏原有的模型能力。
第三个子组件叫做"结构化HOI注意力",它规定了信息在不同词元之间流动的"交通规则"。在标准的注意力机制里,所有词元可以互相看到彼此,就像一个没有隔间的开放办公室,所有人的对话混在一起。HOI注意力给这个办公室加了隔断:同一组互动里,主体和动作可以互相沟通,客体和动作可以互相沟通,但主体和客体之间是隔开的,必须通过动作词元这个"中间人"来传递信息——这正是互动关系的语法结构,动作是连接主体和客体的纽带。不同组互动之间也完全隔离,防止串扰。当空间布局信息存在时,每组互动中的词元只能"看到"图像中属于它们自己区域的像素,主体词元只看主体区域,动作词元看主体加客体的合并区域,客体词元只看客体区域;当没有布局信息时,这些限制取消,所有连接开放。
第四个子组件叫做"HOI旋转位置编码",简称HRoPE,专门解决多组互动的"位置身份混淆"问题。现有的位置编码系统为图像里的每个像素分配一个空间坐标,但对于代表互动关系的抽象词元,就缺乏清晰的定位。HRoPE给每组互动分配一个独特的"位置槽":所有属于第n组互动的词元,都被赋予坐标(0, T+n, T+n),其中T是图像网格的最大维度。这意味着不同互动的词元在位置空间里保持距离,就像给每个演员分配了不同的舞台区域,互相不会踩台词。
三、训练策略和数据集:既教它"从零画",也教它"改图"
把这四个组件组合成R-DiT之后,研究团队还需要解决另一个关键问题:怎么让同一个模型同时学会生成和编辑?他们采用的策略叫做"联合训练加模态随机丢弃"。
训练时,每批数据交替混合生成任务和编辑任务。生成任务就是从噪声开始生成图像,编辑任务则是把源图像的VAE编码和噪声拼接在一起输入模型。更重要的是,训练中会随机"遮掉"部分输入信息:有25%的概率丢掉布局边界框信息,有25%的概率把HOI三元关系降级为仅物体描述,有30%的概率丢掉全局文字描述——但保证至少一种输入模态存在。这种随机遮掩的训练方式,就像训练一个厨师在有时候没有食谱、有时候没有食材清单、有时候没有调料表的情况下都能做出合格的菜,从而使模型在真实使用时能灵活应对各种不完整的输入条件。
数据方面,这项研究的一个重要贡献是构建并公开了HOI-Edit-44K数据集,专门用来解决HOI编辑任务中配对训练数据极度稀缺的问题。这个数据集的构建过程非常严格:首先从两个来源收集源图像,一是用Flux.1模型生成的、包含可验证互动关系的图像,二是HICO-DET数据集中的真实照片。对于每张源图像,用Flux.1 Kontext和InteractEdit工具生成候选的编辑结果。然后每对候选图像要通过两道严格的自动审核:第一道是"互动正确性",用PViC这个HOI检测器检查编辑后的图像里是否真的包含目标互动关系;第二道是"身份保持性",用DINOv2视觉特征模型提取源图和编辑图中人物和物体的特征,计算余弦相似度,只有相似度高于0.75的才保留。这两道筛选极其严苛,大约90%的候选数据被淘汰,最终保留了44,117对高质量的编辑样本。这个数据集涵盖79种物体类别、92种目标动作,组合出372种独特的HOI三元关系。
除了HOI-Edit-44K,训练还使用了另外两个数据集:从SA-1B中采样的35,000张图像(用于加强纯物体级别的空间布局控制,不含互动关系监督),以及HICO-DET训练集的37,000张图像(用于学习HOI生成的基础知识,测试集仅用于评估)。
整个模型基于Flux.1 Kontext这个多模态扩散变换器骨干网络,使用LoRA微调方法在骨干网络的每个块的线性层上进行调整,LoRA秩设为64,产生约3亿个可训练参数,占整个12B参数规模冻结基础模型的2.5%。HOI编码器本身有1700万参数,从头训练。整个训练在两块NVIDIA RTX 6000 ADA显卡上进行了10,000步,学习率恒定为0.0001,使用bf16精度。
四、评测任务和衡量标准:用三把尺子量三件不同的事
研究团队设计了三种不同的评测任务,各自使用不同的衡量标准。
第一种叫"无布局HOI编辑",考察的是:给定一张图片和一组新的互动三元关系(不提供空间布局),模型能不能正确地改变互动动作,同时保持人物和物体的外观不变?使用的是IEBench这个已有的评测基准,包含100个目标编辑任务,每个任务生成10张候选图像,共1000张。评价指标有两个:一个是"HOI可编辑性",用PViC检测器检查目标互动是否在编辑后的图像中被实现,取成功率;另一个是"可编辑性-身份综合分",用调和平均值把HOI成功率和身份保持度(用DINOv2特征相似度衡量)结合起来,两者都高才能得高分。
第二种叫"有布局引导的HOI编辑",在第一种的基础上额外提供目标布局信息,分为单HOI编辑和多HOI编辑两个子任务。多HOI编辑使用了研究团队自己提出的全新评测基准MultiHOIEdit,包含103张源图像、200个多互动编辑任务,每个任务涉及2到3组互动关系同时修改。这个基准的构建过程同样严格:先用Flux.1生成包含多组互动的源图像,再用PViC验证,最终从8,942张候选图像里只筛选出200张合格的源图像(成功率仅2.2%),充分说明了多HOI场景生成本身的难度。MultiHOIEdit覆盖54种物体类别、40种源动作、74种目标动作,涉及从112种源HOI对到252种目标HOI对的转换。
第三种叫"HOI生成",在HICO-DET测试集的2000个目标上评估,报告"HOI准确率"(目标互动是否被正确检测到)、"空间分"(预测边界框和目标边界框的平均IoU)以及各种图像质量指标(PickScore、HPSv2、ImageReward,均为基于人类偏好训练的感知质量模型)。
五、实验结果:在三个维度上都领先于所有对比方法
在无布局HOI编辑任务上,OneHOI与包括HOIEdit、InstructPix2Pix、TurboEdit、OmniGen、FireFlow、Flux.1 Kontext、OmniGen2、Qwen Image Edit以及InteractEdit在内的众多方法进行了对比。结果显示,OneHOI在"可编辑性-身份综合分"上达到0.638,在"HOI可编辑性"上达到0.596,分别比排名第二的InteractEdit高出10%和16%。PickScore、HPSv2和ImageReward三项图像质量指标也均为最优。研究团队还将自己的结果与Nano Banana(一个通过Gemini API访问的闭源商业模型)进行了对比,OneHOI在HOI编辑指标上仍然领先。这说明即使没有任何布局信息,这套统一框架也能可靠地修改互动关系并保持人物外观。
在有布局引导的单HOI编辑任务上,研究团队将InteractEdit和InteractDiffusion结合作为基线,OneHOI的空间分达到0.822(基线为0.749),HOI可编辑性达到0.570(基线为0.520),图像质量全面领先。对于更难的多HOI编辑任务,由于没有任何现有方法能完成这个任务,OneHOI是唯一报告结果的方法,空间分达到0.675,质量指标也保持在较好水平。
在HOI生成任务上,OneHOI的空间分达到0.6104,比之前最好的InteractDiffusion(0.5768)提高了5.8%;HOI准确率达到0.4528,略优于InteractDiffusion的0.4505;ImageReward达到0.5224,比最好的基线Eligen(0.3921)提高了33.2%。这说明把编辑任务的训练数据加进来,不但没有损害生成能力,反而还提升了它。
六、消融实验:每个组件都有不可替代的作用
为了验证R-DiT里每个新增组件的价值,研究团队做了系统的逐步叠加实验,以Eligen作为基线,每次添加一个新组件,观察性能变化。
从基线出发,只加入"动作定位"这个模块后,HOI生成的准确率从0.3061跳到0.4138,同时解锁了编辑任务的基础能力。这个提升幅度最大,说明动作定位是整个体系的地基,没有它模型就完全不理解"动作在哪里发生"。
在此基础上再加入"HOI编码器",HOI准确率进一步提升至0.4254,而ImageReward的质量分则从0.3156大幅上涨到0.4602,说明明确的角色和实例身份信息让图像的感知质量有了明显提升。
再加上"结构化HOI注意力",HOI准确率来到0.4504,多HOI编辑的综合分也进一步改善,确认了这个模块在强制执行关系结构上的核心作用。
最后加入"HOI旋转位置编码",HOI准确率略微提升到0.4528,但ImageReward再次显著提升至0.5224,说明实例位置的清晰分离对最终图像的整体感知质量非常有帮助。
研究团队用一个具体的例子来可视化这个过程:一张图片要求画"一个人既在托着鸟又在抚摸鸟"。只有动作定位时,模型只画出了简单的"抚摸"动作。加上编码器后,"抚摸"的姿势更自然了。加上注意力机制后,"托着"的姿势出现了,但两个动作的手形还有些混乱。只有加上旋转位置编码之后,两个动作才被清楚地分开,正确地呈现了双手一托一抚的复杂姿势。
研究团队还验证了"统一训练"本身的价值,将OneHOI与仅针对单个任务训练的专用模型进行了对比(计算量相同,都训练1000步)。在HOI生成任务上,专用模型的HOI准确率为0.177,统一模型为0.224,提升了26.4%;在无布局编辑任务上,HOI可编辑性从0.464提升至0.562,提升了21.1%;在多HOI编辑任务上,统一模型也以0.329对0.287领先。这证明生成任务学到的互动知识确实迁移到了编辑任务,反之亦然,产生了真实的协同效益。
七、人类偏好研究:真实用户更喜欢什么
除了自动指标,研究团队还进行了真人评测。26名参与者在网页界面上完成了450次盲测,每次看到源图像和编辑指令,然后对两个匿名模型的输出在"互动物理合理性"、"身份保持度"和"整体质量"三个维度上用五点量表打分。
对比Qwen Image Edit,OneHOI在互动物理合理性上有58.2%的概率被评为更好,而Qwen只有8.2%;在整体质量上,OneHOI有50.4%的概率被评为明显更好,21.6%打平,Qwen有28%更好。对比InteractEdit,OneHOI在身份保持度上有74.8%的概率更好,在整体质量上有66.1%的概率更好。这些真人评测结果与自动指标高度一致,说明模型的提升是真实可感知的,而不是指标上的数字游戏。
说到底,这项研究做的事情可以用一句话来概括:它教会了AI理解"关系语法",而不只是"词汇"。过去的AI很擅长认识和画出一个个独立的东西,但对于"谁在对谁做什么"这种关系描述,就像一个只认识单字但读不懂句子的人。研究团队建造的这套系统,通过角色身份标注、关系拓扑约束、位置空间隔离这三层机制,把互动关系编织进了模型的计算过程,使它在生成和编辑两种使用场景下都能展现出对关系的真正理解。
这对普通人意味着什么?从最实际的角度看,未来的图像编辑工具可能真的能做到"把这张照片里爸爸搂着孩子改成爸爸教孩子骑自行车",而不是给你返回一张面目全非的图——人还是那个人,自行车还是那辆自行车,只是互动关系变了。当然,这项研究还处于学术阶段,从论文到真正好用的消费级产品还需要时间。但方向是清晰的:让AI从"认识物体"升级到"理解关系",这一步,研究团队迈出来了。
有兴趣深入了解技术细节的读者可以通过arXiv编号2604.14062查询完整论文,代码和数据集也已在论文主页公开。
Q&A
Q1:OneHOI能同时修改一张图里的多组互动关系吗?
A:可以。OneHOI通过HOI旋转位置编码和结构化HOI注意力机制将不同互动实例在特征空间里隔离开来,配合布局边界框输入,可以同时对一张图里的两到三组互动关系进行独立编辑,例如同时把"甲持杯喝水"改为"甲提瓶携带"、把"乙坐在长椅上"改为"乙躺在长椅上",两组编辑互不干扰。
Q2:HOI-Edit-44K数据集是怎么保证编辑质量的?
A:数据集通过两道自动审核筛选。第一道用PViC检测器验证编辑后的图像里是否真的出现了目标互动关系;第二道用DINOv2提取源图和编辑图中人物与物体的特征,计算余弦相似度,只有人物和物体的相似度都超过0.75才保留。两道筛选合计淘汰了约90%的候选数据,最终保留44,117对高质量样本。
Q3:OneHOI和InteractDiffusion相比有什么核心改进?
A:InteractDiffusion只能做有布局框的HOI生成,不支持编辑,也不支持在一张图里混合HOI和纯物体描述。OneHOI把生成和编辑统一在同一个模型里,支持有布局、无布局、任意形状遮罩和混合条件四种控制方式,还首次支持多HOI同时编辑,并通过HOI编码器和注意力机制显式建模了互动的关系结构,而不只是靠文本提示隐式引导。
好文章,需要你的鼓励
这项由IIT马德拉斯与BITS Pilani联合发布的研究(arXiv:2604.21523,2026年4月)构建了FOCUS元评估基准,系统检验了评审型视觉语言大模型的可靠性。通过向超过4000个图文和图像样本中注入40种受控错误,研究发现顶尖评审AI的检测失败率在某些条件下超过50%,物理合理性和视觉细节类错误尤为难以被发现,两两比较是最可靠的评审范式。
这篇由Sylph.AI发布的技术报告提出了一套两层自动化框架,核心思想是让AI自动优化自身的运行脚手架,再进一步让AI学会如何更高效地做这种优化。内层的脚手架进化循环通过工人代理、评估代理和进化代理的协作,自动迭代改进单个任务的运行配置;外层的元进化循环则在多个任务上训练,学习一套能快速适应任何新场景的通用进化蓝图,从而彻底消除人工脚手架工程的需求。
这篇由英伟达等顶尖机构联合发表的论文提出了一种名为Voyager的新型智能体。研究团队以《我的世界》为实验平台,通过引入自动课程规划、技能库存储以及迭代反馈机制,成功让大语言模型主导的AI在完全无人类干预的情况下,实现了在复杂开放世界中的自主探索与终身学习。实验数据表明,Voyager在物品收集、探索范围及技能解锁速度上均呈现出远超传统方法的压倒性优势,为未来开发能够自主解决真实物理世界复杂任务的通用人工智能奠定了关键的理论与实践基础。
这项由伊利诺伊大学、斯坦福大学、英伟达和麻省理工学院联合发布的研究(arXiv:2604.25917,2026年4月)提出了RecursiveMAS框架,让多个异构AI模型通过轻量级模块RecursiveLink在内部信号层面直接传递"潜在思想",形成循环协作,彻底绕开了传统多AI系统依靠文字传话的低效方式。配合两阶段内外循环训练策略,整个系统只需优化极少量参数,就能在数学、科学、代码生成和搜索问答等9个基准测试上取得平均8.3%的精度提升,同时实现最高2.4倍推理加速和75.6%的token用量削减。