
这项由快手技术团队(Kolors Team)联合不列颠哥伦比亚大学、滑铁卢大学、卡内基梅隆大学、清华大学及佐治亚理工学院等多家机构共同完成的研究,以arXiv预印本形式于2026年5月9日发布,论文编号为arXiv:2605.08703。有兴趣深入了解的读者可通过该编号查询完整论文。
每当我们看到一张经过AI修改的图片,第一个念头往往是:这改得好不好?原图里的猫换成了狗,改得自然吗?背景从城市换成海边,接缝处有没有穿帮?这些判断对人类来说几乎是本能,但对AI系统而言却是一道极其棘手的难题。更要命的是,评判这类"图片改得好不好"的AI系统,本身就需要看过海量的人工打分样本才能学会评判——而收集这些打分样本既费时又费钱。快手这个研究团队的核心目标,就是打破这个死循环:能不能让AI只看100个例子,就学会像经验丰富的人类评审一样评判图片编辑的质量?答案是肯定的,而且效果出人意料地好。
一、为什么"评判图片改得好不好"这件事这么难
以一位刚入职的图片编辑助手为例。他的第一天,主管给他看了十几张"好的修改"和"差的修改",告诉他好在哪、差在哪。第二天,他就能独立上岗评判新的图片了。这个过程对人来说非常自然,因为我们善于从少量例子中归纳出规律,然后举一反三。
然而现有的AI评判系统完全不是这样工作的。它们更像是一个需要反复刷题才能上岗的考生:必须先收集十几万甚至几十万张人工打过分的图片对比,然后花大量计算资源"训练"一个专门的评判模型,这个模型才能勉强学会评分。这套流程不仅成本极高,而且还有几个致命缺陷。
第一,这些评判模型一旦训练完成,它的"评判逻辑"就藏在数以亿计的参数里,没有人能解释它为什么给某张图打了高分。第二,如果你用的是GPT或Gemini这样的"黑盒"API模型,根本无法对它进行传统意义上的训练。第三,你只能接受一个冷冰冰的数字分数,无法知道AI到底在评判哪些维度。
正是这种"人类只需要10个例子、AI却需要10万个例子"的巨大落差,激发了研究团队重新思考问题的本质:评判能力到底藏在哪里?是模型的参数里,还是评判的知识本身?
二、一个全新的思路:把知识写下来,而不是让AI死记硬背
研究团队给出的答案叫做RewardHarness,翻译过来大概是"奖励驾驭系统",但核心理念用一句话就能说清楚:与其让AI通过海量数据"背下来"评判标准,不如把评判标准明确地写成文字,让AI来阅读和执行。
这个思路的巧妙之处在于,它把"学习"这件事的方向彻底反转了。传统方法是用数据改变AI的大脑(更新模型参数),而RewardHarness是用数据改变AI手边的"参考手册"(更新外部知识库),AI的大脑本身一直保持不变。
可以把整个系统理解成一家专业的图片审核机构。这家机构有两个角色:一个是"协调员"(论文中叫Orchestrator,基于Claude大模型),负责安排工作、分析错误、修订手册;另一个是"执行审核员"(论文中叫Sub-Agent,默认使用Qwen2.5-VL-7B这个7B参数的视觉语言模型),负责拿着手册实际去看图打分。这家机构手边有一本不断更新的"审核知识手册"(论文中叫Library),手册里分两类内容:一类叫"技能"(Skills),是书面的评判准则,比如"如何区分真正的视觉瑕疵和用户主动要求的超现实风格";另一类叫"工具"(Tools),是具体的操作规程,比如"遇到图片中有文字时,按照以下步骤进行OCR识别和拼写核查"。
新来一张需要评判的图片时,协调员先看一遍这张图和修改指令,然后从手册里挑出最相关的几条技能和工具规程,交给执行审核员。审核员阅读这些规程,然后一步一步地走完整个评判流程,最终给出分数和排名。整个过程产生的推理链条是可见的、可阅读的,不是一个不透明的黑箱。
三、这本"手册"是怎么从零开始写出来的
手册的起点是空白的。研究团队给系统提供了100个已经有人类打分的图片编辑案例,然后让系统自己摸索、自己总结、自己写手册。这个过程分五个循环往复的步骤进行。
每一轮循环开始时,协调员拿出手册里现有的内容,对每个训练样本进行评判,得到一批预测分数。接着,系统把这些预测分数和真实的人类分数对比,看哪些判对了、哪些判错了。然后,协调员像一个认真复盘的学生一样,逐条分析那些判错的案例:这次判错,是因为手册里缺少某个评判维度(那就需要新增一条"技能")?还是因为这条技能的描述不够精确(那就需要修改这条技能)?还是因为某个视觉细节单靠肉眼看不准,需要一个更精细的分析工具(那就需要新增一个"工具")?
分析完成后,协调员起草一份手册修订方案,可以是新增条目、修改现有条目,或者删掉那些总是导致误判的条目。最后,这份修订方案会在40个验证样本上测试:如果改了手册之后准确率提升了,就把这次改动保留下来;如果反而变差了,就撤销这次改动,恢复到之前的状态。这个"不进则退"的守门机制确保了手册只会越变越好,不会因为一次糟糕的修改而退步。
这个循环一共进行了77轮。从最初空白的手册,到最终3条技能加4条工具的精简组合,整个演化过程就像一株植物经历了发芽、疯长、再修剪的过程。在第50轮左右,手册曾经膨胀到13个条目(8条技能+5条工具),但验证准确率并没有随之提升,停留在52.5%。协调员随即开始一轮"大剪枝",把那些冗余的、互相干扰的条目清除掉,最终在第69轮选定了只有7个条目的精简手册,验证准确率反而跳升到62.5%——相比最初空手册的42.5%,提升了整整47%。这个过程印证了一个有趣的道理:不是知识越多越好,而是精准的知识才真正管用。
四、手册里到底写了什么:三个真实案例
通过观察手册在不同阶段的内容变化,研究团队记录了三个特别能说明问题的案例。
第一个案例展示的是"技能"如何在犯错中成长。手册早期有一条叫做"现实感与瑕疵惩罚"的技能,大意是:如果原图是真实照片,修改后的图不能变成卡通风格,否则扣分。这条规则听起来合理,但系统很快发现了一个漏洞:如果用户明确要求"把照片改成波普艺术风格",那这种"卡通化"明明是完成任务,却被错误地扣了分。到第69轮,这条技能被修订为:如果修改指令本身要求了超现实或艺术化效果,就不应该因为"不够真实"而扣分;只有那些并非用户要求的视觉瑕疵(比如接缝、漂浮的物体、变形的纹理)才应该受到惩罚。这个改动极大地减少了对"按要求完成的超现实编辑"的误判。
第二个案例展示的是"技能"如何指挥"工具"。演化进行到第10轮时,手册里新增了一条叫做"反幻觉与核查"的技能,它的特别之处在于它本身并不直接评判图片,而是规定了什么时候必须调用工具。比如,当怀疑一张图是纯黑的时候,不能凭主观感觉判断,必须调用视觉问答工具询问"这张图是不是完全黑的或损坏的";当图片里有文字时,不能猜测文字是否拼写正确,必须调用OCR工具实际读出来再做判断。这条技能的核心逻辑是:AI系统在某些视觉细节上非常容易"脑补"出不存在的内容,而规定它在这类情况下必须借助外部工具核实,是防止幻觉的有效手段。
第三个案例展示的是一个结构化"工具"的完整样貌。到第69轮时,手册里有一个叫做"空间与对象分析器"的工具,专门处理需要数数和判断位置关系的任务。这个工具的规程详细到指定了输入格式(图片列表和查询问题)、输出格式(包含"检测到的对象列表""数量""空间关系描述""结论"的JSON结构),甚至还提供了示例问题,比如"从左到右数第四块冲浪板上写的是什么"。当系统遇到需要数对象或判断位置的修改指令时,它会按照这个工具的规程,发起一次专项的视觉查询,而不是靠整体感知去猜。这种分工让"复杂的局部判断"变得系统化和可靠。
五、实验数字:比GPT-5还准,比同底座的专业模型还强
研究团队在两个权威的图片编辑评判基准测试上验证了RewardHarness的效果:EditReward-Bench(测试系统在2张、3张、4张候选图中选出最优的准确率)和GenAI-Bench(测试对文字转图像生成质量的评判)。
结果相当亮眼。当RewardHarness使用Gemini-2.0-Flash作为执行审核员时,在这两个测试上的平均准确率达到47.4%,比GPT-5的42.1%高出了5.3个百分点。考虑到GPT-5是目前最顶尖的商业模型之一,这个差距尤为值得关注。
更能说明问题的是,当RewardHarness使用Qwen2.5-VL-7B这个70亿参数的开源模型作为执行审核员时,平均准确率达到45.7%,同样超过了GPT-5。而这个Qwen2.5-VL-7B模型本身单独使用时,准确率只有30.3%——RewardHarness的演化手册给它带来了整整15.4个百分点的提升。
还有一组对比尤其有说服力。EditReward是一个专门针对图片编辑评判任务微调过的模型,以Qwen2.5-VL-7B为基础,使用了整整20万对人工偏好标注数据进行训练,平均准确率为42.0%。而RewardHarness用同样的Qwen2.5-VL-7B底座,只用了100个样本进行手册演化,却达到了45.7%。这100个样本只占EditReward所用训练数据的0.05%,但效果还更好。
此外,研究团队还把RewardHarness作为奖励信号,用于训练一个图片编辑生成模型(FLUX.2-klein-base-4B,参数量约40亿)。训练方式是强化学习中的GRPO算法,大意是:让模型生成一批修改结果,由RewardHarness打分,然后根据分数让模型朝着"被打高分的方向"调整。经过这样的训练,模型在ImgEdit-Bench测试上的综合得分从3.32上升到了3.52,恰好和Flux.1 Kontext这个知名图片编辑模型的得分持平——尽管RewardHarness训练的模型参数量远小于后者。相比之下,使用EditReward作为奖励信号训练的同款模型只达到了3.45分。
六、这套系统为什么还不完美:团队自己承认的局限
研究团队在论文中诚实地列出了几个尚未解决的问题。
最明显的一个是:充当"协调员"的部分目前依赖Claude这个商业API,而且研究团队尚未验证用开源模型替换Claude之后效果会如何。这意味着完整复现这套系统需要支付API费用,对于资源有限的研究者来说是个不小的门槛。
另一个局限是适用范围。目前RewardHarness只在"按指令编辑图片"这个任务上进行了验证,对于文字生成图片、视频编辑、3D场景等其他视觉任务是否同样有效,尚未测试。
还有一个比较隐晦但同样重要的问题:演化过程依赖的100个样本如果本身偏向某类任务,手册就可能过度适应那些类型,在更广泛的情况下表现下降。此外,那个"不进则退"的守门机制虽然防止了倒退,但也可能因为某条有用的修改"在绝大多数情况下有效、只在少数情况下有害"而被拒绝,导致无法发现某些真正有价值的知识。
归根结底,RewardHarness展示的是一种重新理解"AI如何学习评判"的方式。它并不是在比拼谁的参数更多、谁的训练数据更多,而是在探索一条全然不同的路:把评判知识写成人能读懂的文字,让AI阅读并执行,再通过少量反馈不断打磨这些文字。这条路比传统方法更透明,成本更低,而且能够兼容那些根本不能被训练的黑盒模型。至于它最终能走多远,将取决于"知识的精度"能被打磨到什么程度——这是一个值得继续追问的开放问题。
Q&A
Q1:RewardHarness为什么只用100个样本就能超过用20万样本训练的EditReward模型?
A:RewardHarness没有把知识"压缩"进模型参数里,而是把评判标准明确写成可读的文字手册(技能和工具),让AI直接阅读并执行。这种方式信息损耗极小,每一条规则都清晰可见,而传统训练方式需要大量样本才能让知识隐式地沉淀到参数里,本质上是两种完全不同的知识存储方式。
Q2:RewardHarness里的"工具"和"技能"有什么区别?
A:技能是"评判准则",告诉AI应该关注哪些维度、如何打分,比如"不要因为超现实风格而扣分,只要这是用户要求的"。工具是"操作规程",告诉AI遇到特定情况时该怎么具体分析,比如"遇到图片中有文字,调用OCR工具逐字读出来核查拼写"。技能负责判断要评什么,工具负责解决怎么看清楚。
Q3:RewardHarness训练出的图片编辑模型和直接用EditReward训练的模型有什么实际差异?
A:在ImgEdit-Bench测试中,用RewardHarness训练的模型综合得分为3.52,用EditReward训练的同款模型得分为3.45。两者在不同类别上各有侧重:EditReward训练的模型在"添加"和"替换"类任务上更好,而RewardHarness训练的模型在"调整""提取""背景"等类别上表现更强,整体平衡性更好。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。