微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

快手技术团队：只需100个样本，他们造出了一个比GPT-5更懂图片编辑的"AI评审官"

人工智能视觉语言模型自进化奖励模型

快手技术团队：只需100个样本，他们造出了一个比GPT-5更懂图片编辑的"AI评审官"

作者：科技行者

2026-05-20 16:34

分享至：

快手联合多所顶校提出RewardHarness，只需100个样本即可自动演化评判图片编辑质量的AI系统，平均准确率超越GPT-5，用作强化学习奖励信号效果优于专用奖励模型。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-20 16:34 • 科技行者

这项由快手技术团队（Kolors Team）联合不列颠哥伦比亚大学、滑铁卢大学、卡内基梅隆大学、清华大学及佐治亚理工学院等多家机构共同完成的研究，以arXiv预印本形式于2026年5月9日发布，论文编号为arXiv:2605.08703。有兴趣深入了解的读者可通过该编号查询完整论文。

每当我们看到一张经过AI修改的图片，第一个念头往往是：这改得好不好？原图里的猫换成了狗，改得自然吗？背景从城市换成海边，接缝处有没有穿帮？这些判断对人类来说几乎是本能，但对AI系统而言却是一道极其棘手的难题。更要命的是，评判这类"图片改得好不好"的AI系统，本身就需要看过海量的人工打分样本才能学会评判——而收集这些打分样本既费时又费钱。快手这个研究团队的核心目标，就是打破这个死循环：能不能让AI只看100个例子，就学会像经验丰富的人类评审一样评判图片编辑的质量？答案是肯定的，而且效果出人意料地好。

一、为什么"评判图片改得好不好"这件事这么难

以一位刚入职的图片编辑助手为例。他的第一天，主管给他看了十几张"好的修改"和"差的修改"，告诉他好在哪、差在哪。第二天，他就能独立上岗评判新的图片了。这个过程对人来说非常自然，因为我们善于从少量例子中归纳出规律，然后举一反三。

然而现有的AI评判系统完全不是这样工作的。它们更像是一个需要反复刷题才能上岗的考生：必须先收集十几万甚至几十万张人工打过分的图片对比，然后花大量计算资源"训练"一个专门的评判模型，这个模型才能勉强学会评分。这套流程不仅成本极高，而且还有几个致命缺陷。

第一，这些评判模型一旦训练完成，它的"评判逻辑"就藏在数以亿计的参数里，没有人能解释它为什么给某张图打了高分。第二，如果你用的是GPT或Gemini这样的"黑盒"API模型，根本无法对它进行传统意义上的训练。第三，你只能接受一个冷冰冰的数字分数，无法知道AI到底在评判哪些维度。

正是这种"人类只需要10个例子、AI却需要10万个例子"的巨大落差，激发了研究团队重新思考问题的本质：评判能力到底藏在哪里？是模型的参数里，还是评判的知识本身？

二、一个全新的思路：把知识写下来，而不是让AI死记硬背

研究团队给出的答案叫做RewardHarness，翻译过来大概是"奖励驾驭系统"，但核心理念用一句话就能说清楚：与其让AI通过海量数据"背下来"评判标准，不如把评判标准明确地写成文字，让AI来阅读和执行。

这个思路的巧妙之处在于，它把"学习"这件事的方向彻底反转了。传统方法是用数据改变AI的大脑（更新模型参数），而RewardHarness是用数据改变AI手边的"参考手册"（更新外部知识库），AI的大脑本身一直保持不变。

可以把整个系统理解成一家专业的图片审核机构。这家机构有两个角色：一个是"协调员"（论文中叫Orchestrator，基于Claude大模型），负责安排工作、分析错误、修订手册；另一个是"执行审核员"（论文中叫Sub-Agent，默认使用Qwen2.5-VL-7B这个7B参数的视觉语言模型），负责拿着手册实际去看图打分。这家机构手边有一本不断更新的"审核知识手册"（论文中叫Library），手册里分两类内容：一类叫"技能"（Skills），是书面的评判准则，比如"如何区分真正的视觉瑕疵和用户主动要求的超现实风格"；另一类叫"工具"（Tools），是具体的操作规程，比如"遇到图片中有文字时，按照以下步骤进行OCR识别和拼写核查"。

新来一张需要评判的图片时，协调员先看一遍这张图和修改指令，然后从手册里挑出最相关的几条技能和工具规程，交给执行审核员。审核员阅读这些规程，然后一步一步地走完整个评判流程，最终给出分数和排名。整个过程产生的推理链条是可见的、可阅读的，不是一个不透明的黑箱。

三、这本"手册"是怎么从零开始写出来的

手册的起点是空白的。研究团队给系统提供了100个已经有人类打分的图片编辑案例，然后让系统自己摸索、自己总结、自己写手册。这个过程分五个循环往复的步骤进行。

每一轮循环开始时，协调员拿出手册里现有的内容，对每个训练样本进行评判，得到一批预测分数。接着，系统把这些预测分数和真实的人类分数对比，看哪些判对了、哪些判错了。然后，协调员像一个认真复盘的学生一样，逐条分析那些判错的案例：这次判错，是因为手册里缺少某个评判维度（那就需要新增一条"技能"）？还是因为这条技能的描述不够精确（那就需要修改这条技能）？还是因为某个视觉细节单靠肉眼看不准，需要一个更精细的分析工具（那就需要新增一个"工具"）？

分析完成后，协调员起草一份手册修订方案，可以是新增条目、修改现有条目，或者删掉那些总是导致误判的条目。最后，这份修订方案会在40个验证样本上测试：如果改了手册之后准确率提升了，就把这次改动保留下来；如果反而变差了，就撤销这次改动，恢复到之前的状态。这个"不进则退"的守门机制确保了手册只会越变越好，不会因为一次糟糕的修改而退步。

这个循环一共进行了77轮。从最初空白的手册，到最终3条技能加4条工具的精简组合，整个演化过程就像一株植物经历了发芽、疯长、再修剪的过程。在第50轮左右，手册曾经膨胀到13个条目（8条技能+5条工具），但验证准确率并没有随之提升，停留在52.5%。协调员随即开始一轮"大剪枝"，把那些冗余的、互相干扰的条目清除掉，最终在第69轮选定了只有7个条目的精简手册，验证准确率反而跳升到62.5%——相比最初空手册的42.5%，提升了整整47%。这个过程印证了一个有趣的道理：不是知识越多越好，而是精准的知识才真正管用。

四、手册里到底写了什么：三个真实案例

通过观察手册在不同阶段的内容变化，研究团队记录了三个特别能说明问题的案例。

第一个案例展示的是"技能"如何在犯错中成长。手册早期有一条叫做"现实感与瑕疵惩罚"的技能，大意是：如果原图是真实照片，修改后的图不能变成卡通风格，否则扣分。这条规则听起来合理，但系统很快发现了一个漏洞：如果用户明确要求"把照片改成波普艺术风格"，那这种"卡通化"明明是完成任务，却被错误地扣了分。到第69轮，这条技能被修订为：如果修改指令本身要求了超现实或艺术化效果，就不应该因为"不够真实"而扣分；只有那些并非用户要求的视觉瑕疵（比如接缝、漂浮的物体、变形的纹理）才应该受到惩罚。这个改动极大地减少了对"按要求完成的超现实编辑"的误判。

第二个案例展示的是"技能"如何指挥"工具"。演化进行到第10轮时，手册里新增了一条叫做"反幻觉与核查"的技能，它的特别之处在于它本身并不直接评判图片，而是规定了什么时候必须调用工具。比如，当怀疑一张图是纯黑的时候，不能凭主观感觉判断，必须调用视觉问答工具询问"这张图是不是完全黑的或损坏的"；当图片里有文字时，不能猜测文字是否拼写正确，必须调用OCR工具实际读出来再做判断。这条技能的核心逻辑是：AI系统在某些视觉细节上非常容易"脑补"出不存在的内容，而规定它在这类情况下必须借助外部工具核实，是防止幻觉的有效手段。

第三个案例展示的是一个结构化"工具"的完整样貌。到第69轮时，手册里有一个叫做"空间与对象分析器"的工具，专门处理需要数数和判断位置关系的任务。这个工具的规程详细到指定了输入格式（图片列表和查询问题）、输出格式（包含"检测到的对象列表""数量""空间关系描述""结论"的JSON结构），甚至还提供了示例问题，比如"从左到右数第四块冲浪板上写的是什么"。当系统遇到需要数对象或判断位置的修改指令时，它会按照这个工具的规程，发起一次专项的视觉查询，而不是靠整体感知去猜。这种分工让"复杂的局部判断"变得系统化和可靠。

五、实验数字：比GPT-5还准，比同底座的专业模型还强

研究团队在两个权威的图片编辑评判基准测试上验证了RewardHarness的效果：EditReward-Bench（测试系统在2张、3张、4张候选图中选出最优的准确率）和GenAI-Bench（测试对文字转图像生成质量的评判）。

结果相当亮眼。当RewardHarness使用Gemini-2.0-Flash作为执行审核员时，在这两个测试上的平均准确率达到47.4%，比GPT-5的42.1%高出了5.3个百分点。考虑到GPT-5是目前最顶尖的商业模型之一，这个差距尤为值得关注。

更能说明问题的是，当RewardHarness使用Qwen2.5-VL-7B这个70亿参数的开源模型作为执行审核员时，平均准确率达到45.7%，同样超过了GPT-5。而这个Qwen2.5-VL-7B模型本身单独使用时，准确率只有30.3%——RewardHarness的演化手册给它带来了整整15.4个百分点的提升。

还有一组对比尤其有说服力。EditReward是一个专门针对图片编辑评判任务微调过的模型，以Qwen2.5-VL-7B为基础，使用了整整20万对人工偏好标注数据进行训练，平均准确率为42.0%。而RewardHarness用同样的Qwen2.5-VL-7B底座，只用了100个样本进行手册演化，却达到了45.7%。这100个样本只占EditReward所用训练数据的0.05%，但效果还更好。

此外，研究团队还把RewardHarness作为奖励信号，用于训练一个图片编辑生成模型（FLUX.2-klein-base-4B，参数量约40亿）。训练方式是强化学习中的GRPO算法，大意是：让模型生成一批修改结果，由RewardHarness打分，然后根据分数让模型朝着"被打高分的方向"调整。经过这样的训练，模型在ImgEdit-Bench测试上的综合得分从3.32上升到了3.52，恰好和Flux.1 Kontext这个知名图片编辑模型的得分持平——尽管RewardHarness训练的模型参数量远小于后者。相比之下，使用EditReward作为奖励信号训练的同款模型只达到了3.45分。

六、这套系统为什么还不完美：团队自己承认的局限

研究团队在论文中诚实地列出了几个尚未解决的问题。

最明显的一个是：充当"协调员"的部分目前依赖Claude这个商业API，而且研究团队尚未验证用开源模型替换Claude之后效果会如何。这意味着完整复现这套系统需要支付API费用，对于资源有限的研究者来说是个不小的门槛。

另一个局限是适用范围。目前RewardHarness只在"按指令编辑图片"这个任务上进行了验证，对于文字生成图片、视频编辑、3D场景等其他视觉任务是否同样有效，尚未测试。

还有一个比较隐晦但同样重要的问题：演化过程依赖的100个样本如果本身偏向某类任务，手册就可能过度适应那些类型，在更广泛的情况下表现下降。此外，那个"不进则退"的守门机制虽然防止了倒退，但也可能因为某条有用的修改"在绝大多数情况下有效、只在少数情况下有害"而被拒绝，导致无法发现某些真正有价值的知识。

归根结底，RewardHarness展示的是一种重新理解"AI如何学习评判"的方式。它并不是在比拼谁的参数更多、谁的训练数据更多，而是在探索一条全然不同的路：把评判知识写成人能读懂的文字，让AI阅读并执行，再通过少量反馈不断打磨这些文字。这条路比传统方法更透明，成本更低，而且能够兼容那些根本不能被训练的黑盒模型。至于它最终能走多远，将取决于"知识的精度"能被打磨到什么程度——这是一个值得继续追问的开放问题。

Q&A

Q1：RewardHarness为什么只用100个样本就能超过用20万样本训练的EditReward模型？

A：RewardHarness没有把知识"压缩"进模型参数里，而是把评判标准明确写成可读的文字手册（技能和工具），让AI直接阅读并执行。这种方式信息损耗极小，每一条规则都清晰可见，而传统训练方式需要大量样本才能让知识隐式地沉淀到参数里，本质上是两种完全不同的知识存储方式。

Q2：RewardHarness里的"工具"和"技能"有什么区别？

A：技能是"评判准则"，告诉AI应该关注哪些维度、如何打分，比如"不要因为超现实风格而扣分，只要这是用户要求的"。工具是"操作规程"，告诉AI遇到特定情况时该怎么具体分析，比如"遇到图片中有文字，调用OCR工具逐字读出来核查拼写"。技能负责判断要评什么，工具负责解决怎么看清楚。

Q3：RewardHarness训练出的图片编辑模型和直接用EditReward训练的模型有什么实际差异？

A：在ImgEdit-Bench测试中，用RewardHarness训练的模型综合得分为3.52，用EditReward训练的同款模型得分为3.45。两者在不同类别上各有侧重：EditReward训练的模型在"添加"和"替换"类任务上更好，而RewardHarness训练的模型在"调整""提取""背景"等类别上表现更强，整体平衡性更好。

人工智能视觉语言模型自进化奖励模型

分享至