微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

华为诺亚方舟实验室联手哈工大南开大学：让AI图像编辑真正懂得人心的秘密

图像编辑强化学习人类偏好对齐

华为诺亚方舟实验室联手哈工大南开大学：让AI图像编辑真正懂得人心的秘密

作者：科技行者

2026-04-30 13:05

分享至：

这篇由华为诺亚方舟实验室、哈尔滨工业大学和南开大学联合发表的研究（arXiv:2604.19406），提出了名为HP-Edit的图像编辑后训练框架。研究核心在于：先训练一个与人类偏好高度对齐的自动评分器HP-Scorer，再用它筛选出真实世界中的困难编辑样本构建RealPref-50K数据集，最后以HP-Scorer为奖励信号对编辑模型进行强化学习训练。实验表明，经过HP-Edit优化的Qwen-Image-Edit-2509模型在八类图像编辑任务上全面超越现有方法，编辑结果更真实自然，与人类审美偏好的契合度显著提升。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-30 13:05 • 科技行者

这项由华为诺亚方舟实验室、哈尔滨工业大学和南开大学联合完成的研究，于2026年4月发表在预印本平台arXiv上，论文编号为arXiv:2604.19406。研究提出了一个名为HP-Edit的图像编辑后训练框架，以及配套的数据集RealPref-50K和评测基准RealPref-Bench，旨在让AI图像编辑模型的输出结果更贴近普通人的审美和偏好。

你有没有试过用AI来帮你修改一张照片，比如把背景换成海滩，或者把图里的一把椅子换成另一把，结果出来的图要么色彩奇怪、要么边缘有鬼影，要么整个画面看起来像是PS时忘了调整光线？明明你的要求很简单，AI却像个工程师按图纸施工——任务完成了，但完全没有人情味。这正是这篇论文要解决的核心问题：如何让AI不只是"完成任务"，而是真正做出让人看了觉得舒服、自然、好看的图像编辑结果。

一、为什么AI编辑图片会"懂事"和"不懂事"之分

要理解这篇研究，先把整件事比作一个烘焙学徒的成长故事。一个烘焙学徒刚开始学做蛋糕时，他按照食谱一步步操作，能把蛋糕烤出来，但未必好吃。真正让他进步的，是师父或顾客告诉他"这个太甜了"、"那个口感太硬"，然后他根据这些反馈不断调整。这个"根据反馈调整"的过程，在AI领域有个专门的名词，叫做"从人类反馈中学习"，英文缩写是RLHF。

目前主流的AI图像编辑模型，大多是靠"监督式微调"训练出来的——就是给模型看大量"原图+修改指令+结果图"的组合，让它学习"照着葫芦画瓢"。这种方式有个致命缺陷：用来训练的数据来源五花八门，有卡通图、有合成图、有电影截图，这些图和真实世界的照片风格差距很大。就像你只吃过食堂的菜，突然要去做一桌家宴——你能做，但味道就是差那么一口气。

更麻烦的是，要构建一个"符合人类审美偏好"的训练数据集，通常需要大量真人去给图片打分，非常耗时耗力，成本极高。因此，到底怎么用强化学习的方式来提升图像编辑效果，业界一直没有一个系统性的解决方案。这篇论文就是为了填补这个空白而来的。

二、HP-Edit：一套三步走的"烘焙改良系统"

研究团队设计的HP-Edit框架，可以理解为一套让AI编辑模型从"会做"升级到"做好"的三步改良流程。整个流程环环相扣，每一步都在上一步的基础上推进。

第一步，是训练一个"自动品鉴师"，也就是论文中所说的HP-Scorer（人类偏好评分器）。烘焙学徒要进步，需要有人告诉他蛋糕好不好吃，但如果每次都请专业食评家来评分，成本太高。于是研究团队的做法是：先请少量真人评分员，对每种编辑任务各收集约50到100组样本，每组样本由一张原图、一条修改指令和一张编辑结果图构成，然后让真人给每组结果打0到5分的分数。这个0到5分的标准非常清晰：0分代表完全没按指令改、结果惨不忍睹；1分是有点动作但基本不对；2分是大体方向对但细节差很多；3分是指令基本执行了但看起来不好看；4分是执行好、视觉质量也不错；5分则是完美执行且效果逼真自然。

有了这批真人打分的样本之后，研究团队把一个预训练好的视觉语言模型（可以理解为一个能"看图说话"的大型AI）充当这个"品鉴师"，通过精心设计的评分提示词来模拟人类的打分逻辑。这个提示词的设计过程非常讲究，从一个基础版本出发，不断加入针对具体任务的判断问题，比如对于"颜色更改"任务，会问"目标区域的颜色饱和度和亮度是否符合指令要求？"、"有没有颜色误改到了相邻区域？"，持续打磨直到这个AI品鉴师给出的分数和真人评分高度一致为止。实验表明，这个HP-Scorer与真人评分的皮尔逊相关系数高达0.89，说明它确实学会了"人的口味"。

第二步，是用这个AI品鉴师来筛选出"最有训练价值的困难样本"，构建RealPref-50K数据集。这一步的关键洞察在于：现有的图像编辑模型（如论文中使用的Qwen-Image-Edit-2509）已经相当厉害，大多数简单任务它都能轻松完成，拿满分。如果拿这些"满分样本"来做强化学习训练，就好比让学霸反复做幼儿园的算术题——没有任何提升空间，模型根本不会进步。因此，研究团队的策略是：把那些被HP-Scorer打了满分5分的样本全部剔除掉，只保留那些"有提升空间"的困难样本。这样筛选出来的数据集，就像一套专门针对学霸弱点设计的强化练习题，让模型每次训练都能从错误中学习。

最终的RealPref-50K数据集包含超过55795个编辑样本，涵盖八种常见的图像编辑任务：添加物体、删除物体、物体替换、背景替换、颜色更改、背景虚化（即摄影中的"景深效果"）、重新打光和风格迁移。所有原始图片都来自高质量的真实世界开源图片库，包括Pixabay、LSDIR和DIV2K等。为了保证数据的多样性，研究团队还特别统计了每张图片与MS-COCO数据集中各个物体类别（如"人"、"车"、"蛋糕"等）的相似度，确保数据集中各类常见物体的分布相对均衡，不会出现某类物体严重过多或过少的情况。

第三步，是利用筛选好的数据和HP-Scorer作为奖励信号，对编辑模型进行强化学习训练。具体使用的算法叫做Flow-GRPO，这是一种专为流匹配类生成模型设计的在线强化学习方法。可以把这个过程理解为：模型针对同一条编辑指令，同时生成多张不同的结果图，然后HP-Scorer对每张图打分，得分高的结果会被"鼓励"，得分低的结果会被"惩罚"，模型就在这种反复的对比和纠正中逐渐学会生成更符合人类审美的结果。为了让奖励信号更加平滑，研究团队还用一个S型函数把0到5分的原始分数转换成0到1之间的奖励值，参数设置经过了仔细调校。在训练时，模型的大部分参数是被冻结不动的，只有一个轻量级的LoRA适配器（可以理解为模型顶层的一个"微调旋钮"，设定为32阶）在更新，这样既能保留模型原有的强大能力，又能有针对性地提升人类偏好对齐效果。

三、RealPref-Bench：一把衡量"好不好看"的公平尺子

研究团队还为整个领域贡献了一个新的评测基准，叫做RealPref-Bench。这个基准包含1638个测试样本，每种编辑任务大约分配200个，同样保持了物体类别的均衡分布。与以往很多使用合成图或网络爬取图片的基准不同，RealPref-Bench里的图片全部来自真实世界场景，编辑指令也经过了人工核验，确保它们符合人类的实际使用习惯和审美预期。这把"尺子"的意义在于：它能更准确地衡量一个模型在真实使用场景下的表现，而不只是在精心构建的测试集上刷数字。

四、实验结果：数据说话，进步真实可见

为了验证HP-Edit的效果，研究团队把它与当时领域内的多个强基线模型进行了对比，包括Step1X-Edit、BAGEL、X2Edit、UniWorld-V1、OmniGen2、Qwen-Image-Edit（早期版）、FLUX.1-Kontext-Dev，以及未经HP-Edit优化的Qwen-Image-Edit-2509。所有模型都用HP-Scorer（基于GPT-4o实现）在RealPref-Bench上打分，以0到5的分数进行比较。

结果相当清晰。未经优化的Qwen-Image-Edit-2509在所有任务上的综合得分为4.472，已经是同期最强的基线之一。经过HP-Edit优化之后，同一个模型的综合得分提升到了4.667，在八个子任务中几乎全部排名第一。提升最为明显的几个任务，恰好是那些对"人眼感受"最敏感的类型：颜色更改从4.358提升到4.750，背景虚化从4.165提升到4.545，重新打光从3.540提升到3.913，背景替换从4.539提升到4.733。这些任务有一个共同特点——它们都需要模型在视觉上做出细腻、自然的调整，既不能改得太少看不出效果，也不能改得太过显得突兀，恰恰是人类最挑剔的地方。

在另一个独立的评测平台GEdit-Bench-EN（Step1X-Edit官方基准）上，HP-Edit同样表现出色，在语义一致性（G_SC）、感知质量（G_PQ）和综合得分（G_O）三个维度上分别达到8.35、8.54和8.30，全面超越了包括Qwen-Image-Edit-2509在内的所有对比模型。这证明HP-Edit的提升不是针对某一个特定测试集的"刷分"行为，而是真实的能力提升。

此外，研究团队还在DreamBench++这个更传统的评测集上进行了对比。在概念保留（衡量原图的内容是否被正确保留）和提示遵循（衡量修改是否符合指令）两个维度上，HP-Edit均优于原始基线模型，综合乘积指标从0.575提升到0.630，整体综合得分从0.662提升到0.679。

五、用户真实打分验证："机器评分"与"人眼评分"高度吻合

再漂亮的自动评分数据，也需要真人验证。研究团队招募了五位标注员，对RealPref-Bench中超过1000对编辑结果进行人工评分，评分维度同样是指令遵循程度和图像质量，使用同样的0到5分标准。最终的用户评分结果和HP-Scorer的自动评分结果呈现出高度的一致性，两套分数的分布几乎完全吻合。这意味着HP-Scorer确实是一个可靠的"人类偏好代理人"，用它作为强化学习的奖励信号是合理的，而不是在自欺欺人。

六、消融实验：拆开每个零件看效果

研究团队还做了一组"拆零件"实验，专门分析HP-Edit中每个组件各自贡献了多少。他们对比了三种组合：第一种是用未筛选的原始数据配合简单的基础评分提示；第二种是用筛选后的RealPref-50K数据配合简单的基础评分提示；第三种则是完整的HP-Edit，既用筛选数据又用精心设计的任务感知评分提示。

结果非常有说服力。用未筛选数据加基础评分的组合，综合得分反而比原始基线模型下降了（4.391 vs. 4.472），说明质量参差不齐的数据不但帮不上忙，反而会干扰训练。引入筛选后的RealPref-50K数据之后，得分上升到4.577，证明"挑出困难样本"这一步的价值。再加上精心设计的HP-Scorer之后，得分进一步提升到最终的4.667。从奖励曲线的变化趋势上也能看出这个规律：使用原始数据的训练曲线几乎一开始就趋于平稳、几乎没有上升；使用RealPref-50K的曲线在训练初期有明显的上升趋势；而完整HP-Edit框架下的曲线则呈现出最平稳、最持续的上升轨迹。

研究团队还对比了GRPO和DPO（另一种常用的偏好学习方法）。DPO依赖离线挖掘胜者和败者样本，通常需要反复采样和人工筛选，而GRPO则通过在线采样并实时用HP-Scorer反馈来驱动学习，能更充分地探索偏好空间。实验结果显示，DPO方案能将综合得分从4.472提升到4.521，但仍不及GRPO（HP-Scorer）的4.590，更不及完整HP-Edit的4.667。

七、LoRA秩的选择：旋钮调多大最合适

研究团队还专门测试了不同LoRA秩（可以理解为微调旋钮的"精细度"）对效果的影响。秩为8时，得分为4.614；秩为32时，得分达到最高的4.667；秩为128时，得分反而下降到4.645。这说明微调旋钮调得太粗（秩太低）学不到足够的东西，但调得太细（秩太高）又容易"过度学习"，反而破坏了原模型的通用能力。32这个"黄金秩"在实验中被确认为最佳选择。

说到底，HP-Edit这套框架做到的事情，用一句话可以概括：它在不大幅改动AI图像编辑模型的前提下，用一个聪明的"口味测试员"和一批精心挑选的"有挑战性的练习题"，让模型学会了更接近人类审美的图像编辑方式。无论是背景替换后前景人物的边缘是否自然、颜色更改时有没有误改到其他区域、背景虚化时焦点区域是否真的锐利，这些细节都在HP-Edit的作用下得到了可见的改善。

当然，这项研究也坦诚地指出了自身的局限：HP-Edit目前在处理中英文混合的文字编辑任务上仍然有短板，比如"把图片里的英文翻译成中文"这类需求，效果还不够理想，而且这个问题主要来自底层基础模型本身的限制，不是HP-Edit框架能单独解决的。未来的研究方向之一，就是针对这类跨语言编辑场景专门进行改进。

归根结底，这项研究的价值在于它提供了一条切实可行的路径：哪怕没有海量的人工标注数据，也可以通过一个经过仔细校准的自动评分器，把"让人看了舒服"这件主观的事情，转化成可以量化、可以优化的训练目标。对于普通用户来说，这意味着你未来在用AI修图时，有更大的概率得到一个不需要再二次调整、直接就觉得"嗯，就是这个感觉"的结果。感兴趣深入了解技术细节的读者，可以通过论文编号arXiv:2604.19406查阅完整论文。

Q&A

Q1：HP-Edit框架和普通图像编辑AI的区别是什么？

A：普通图像编辑AI通常靠大量"原图+结果图"配对数据进行训练，能完成任务但不一定符合人的审美。HP-Edit在此基础上增加了一个"后训练"阶段，用一个模拟人类偏好的自动评分器作为奖励信号，让模型通过强化学习不断向"人类觉得好看自然"的方向靠拢，最终输出结果在视觉质量和指令遵循上都更贴近人的预期。

Q2：RealPref-50K数据集和其他图像编辑数据集有什么不同？

A：RealPref-50K最核心的特点有两个。第一，所有图片来自真实世界的高质量图片库，而不是卡通图或合成图，更贴近实际使用场景。第二，数据集专门筛选掉了那些模型已经能轻松处理的"简单样本"，只保留对模型有挑战、有学习价值的困难案例，让训练效率大幅提升。同时数据集还平衡了不同物体类别的分布，避免某类物体样本过多影响模型的泛化能力。

Q3：HP-Scorer的评分可以信赖吗，和真人打分差别大吗？

A：根据论文中的实验，HP-Scorer与真人评分的皮尔逊相关系数达到0.89，说明两者的一致性非常高。研究团队还在GEdit-Bench数据集上专门做了验证，散点图显示人工评分和HP-Scorer评分高度集中在对角线附近。这意味着HP-Scorer作为人类偏好的代理评分器是可靠的，用它作为强化学习的奖励信号不会产生明显的偏差。

图像编辑强化学习人类偏好对齐

分享至