
这项由Scale AI与Persona联合完成的研究发表于2026年5月,论文编号为arXiv:2605.20164v1,感兴趣的读者可通过该编号查询完整原文。
当你雇了一位家教来帮孩子备考,你会给家教一份详细的评分表,列出孩子需要掌握的所有知识点,并标注每个知识点的重要程度。然而,如果家教每节课都花大量时间"考察"那些孩子早就烂熟于心的内容,同时对那些孩子完全摸不着头脑、暂时也学不会的难题反复追问,那么剩下真正能在这节课帮助孩子进步的内容,就所剩无几了。
这正是当前AI训练领域中一个被长期忽视的真实问题。Scale AI的研究团队发现,当人们用一份精心设计的"评分表"来训练AI时,这份评分表中有相当大比例的考核项目对当前阶段的AI训练毫无帮助——要么AI早就全部答对了,要么AI根本没有能力通过。真正能推动AI进步的考核项目,在整个评分表里只占一半左右,而传统的训练方式对此毫不区分,把所有考核项目一视同仁。
为了解决这个问题,研究团队提出了一个名为POW3R(Policy-Aware Rubric Reward,直译为"策略感知评分奖励")的新框架。这个框架的核心思路并不是推翻原有的评分表,而是在训练过程中动态调整每个考核项目的"教学权重",把训练资源集中在当前AI真正能学到东西的地方,从而让同样的训练成本产出更好的效果。
一、一份评分表的隐藏问题
要理解这项研究解决了什么问题,先得了解AI训练的基本逻辑。训练AI回答复杂问题的方式,有点像让它参加一场反复进行的考试:AI先给出一堆不同的答案,然后一个"评卷系统"对每个答案打分,AI通过对比自己各个答案的得分高低来判断哪种回答方向更好,并朝那个方向调整自己。
这种方法在答案对错分明的任务上效果极好,比如数学题或代码调试。但对于医疗建议、学术写作、图像分析这类需要同时满足多个质量维度的任务,就需要一份更细致的评分表。这种评分表会把一个好答案拆解成若干具体的考核项目,比如"是否提到了药物相互作用的风险"、"是否建议用户咨询医生"、"格式是否清晰"等,每个项目都有一个人类专家事先标注好的重要性权重。
传统做法是把所有考核项目的得分,按照各自的重要性权重相加,得到一个总分,再用这个总分来驱动AI学习。这看起来合情合理,但其中藏着一个微妙的陷阱:重要性权重只是在说"这件事对最终答案有多重要",而不是"这件事现在能不能教会AI"。这两件事其实相差甚远。
研究团队用两组AI模型和两套数据集做了一次系统性摸底。他们让AI对1300道题目各自生成一批答案,然后用另一个AI来逐条检查每个考核项目是否被满足。结果发现,在评分表的所有考核项目中,大约有17%到26%的项目是"饱和"状态——AI每次都能通过,相当于满分,没有任何提升空间。另外有20%到33%的项目是"死亡"状态——AI每次都无法通过,暂时根本学不会。只剩下大约一半的项目,AI有时能通过、有时不能,也就是说这些项目才是真正能帮AI学到东西的地方。
更令人意外的是,考核项目的重要性权重和它当前能否给AI带来学习信号,几乎没有任何相关性。那些人类专家打了最高重要性分数的项目,大约有一半处于饱和或死亡状态。换句话说,按重要性加权的传统做法,会把将近一半的训练资源浪费在那些完全无法产生学习效果的考核项目上。
一、POW3R如何解决这个问题
研究团队把这种现象称为"训练压力错位"——评分表的权重体系告诉我们什么对最终答案重要,却无法告诉我们什么对当前的AI有教学价值。POW3R框架就是专门用来纠正这种错位的,而且它的设计非常克制:不改变评分表本身,不修改任何考核项目,也不动摇人类专家赋予各项目的重要性权重。它只做一件事——在每轮训练时,根据当前AI的实际表现,临时调整各考核项目在计算训练得分时的"教学权重"。
具体来说,POW3R首先会检查每个考核项目在当前这一批AI答案中的"区分度"——也就是说,对于这道题目,AI有时能通过这个项目、有时不能通过的程度有多高。区分度越高,说明这个项目当前越能帮助AI学习,应该分配更多的训练注意力;如果一个项目所有答案都通过或都不通过,区分度为零,就应该暂时减少它的训练权重。
为了避免这种调整带来新的不平衡,POW3R还设置了两道"护栏"。第一道护栏是类别均衡:评分表通常把考核项目按照大类分组,比如"视觉感知"、"内容完整性"、"指令遵循"等,POW3R在每个大类内部进行区分度调整,但确保各大类在总分中占的份量保持不变。这样就不会出现某个大类因为恰好有很多高区分度项目就"垄断"了整个训练过程的情况。第二道护栏是对调整幅度的限制:每个项目的教学权重不会被调整到太极端的程度,确保即使是当前区分度很低的项目也保留一定的训练存在感,避免AI以后无法重新拾起这些能力。
此外,POW3R还引入了一种叫做"指数移动平均"的平滑机制。这听起来复杂,但本质就像是一个人对市场的判断:不会因为今天股票涨了一点就断定必然一直涨,而是结合历史表现和最新数据,做出更稳定的判断。POW3R对每个考核项目的区分度估计也是如此,用历史数据和最新数据的加权平均来决定当前的教学权重,避免因为某一轮采样的随机波动导致训练方向剧烈摇摆。
二、实验数据说明了什么
研究团队在两个不同的数据集上验证了POW3R的效果。一个是他们自建的多模态数据集(简称MM),包含1万道需要同时理解图片和文字的任务,涵盖图表分析、照片理解、截图解读等多种场景,每道题都有一份由人类贡献者撰写的详细评分表。另一个是HealthBench英文版(简称HB),这是一个由医学专家撰写评分标准的医疗问答数据集,专门用于评估AI在医疗建议场景中的表现质量。
实验在三种不同大小的基础AI模型上进行,分别是阿里通义的Qwen3-VL-4B(视觉语言模型)、Qwen3-VL-8B,以及谷歌的Gemma 3 4B。这三个模型分别在两个数据集上进行训练,每种训练方法重复三次取平均,确保结果的可靠性。
研究团队设置了五种对比条件:不经过强化学习训练的原始模型;使用"全对或全错"粗粒度奖励的训练方法(相当于只看最终结果是否全部通过);使用传统按权重求和方式的训练方法;使用类别均衡但不做区分度调整的训练方法;以及POW3R。
结果显示,在涵盖两个数据集和三种模型的30项对比指标中,POW3R在24项上取得了最佳成绩,稳居第一。在多模态数据集上,Qwen3-VL-4B模型经过POW3R训练后,在标准评分指标上达到了48.8分,而传统方法只有47.1分,类别均衡方法为47.9分。在"严格完成率"这个更苛刻的指标上(要求AI对一道题的所有必须通过项目一个不落地全部通过),POW3R达到20.2%,传统方法是17.9%,类别均衡方法是18.7%。
在医疗问答数据集上,效果同样明显。Qwen3-4B模型经过POW3R训练后,综合得分比原始模型提升了4.7个百分点,而传统方法只提升了1.6个百分点,类别均衡方法提升了2.5个百分点。这意味着POW3R的提升幅度差不多是传统方法的三倍。
这种提升并不局限于某一个具体评分维度,而是普遍分布在评分表的各个大类中。在视觉感知、视觉推理、内容完整性、指令遵循、真实性这几个大类上,POW3R相比传统方法的优势都很明显。唯独在"写作风格"这个大类上,三种方法的差异很小——研究团队发现这是因为写作风格类的考核项目对原始模型来说大多数已经饱和,AI早就能通过这些项目,区分度接近于零,POW3R也就无从发力,自然退化为和传统方法差不多的效果。这恰恰验证了POW3R的设计逻辑:在没有可利用的学习信号时,它就安静地退回到基础状态,不会做无用功。
三、训练速度同样大幅提升
除了最终表现更好,POW3R还让训练过程快了很多。研究团队追踪了不同训练方法在每个检查点的验证集表现,记录了各方法分别需要多少训练步数才能首次跨过某个性能门槛。
以Qwen3-VL-4B在多模态数据集上的训练为例,当目标是让验证集评分达到46分时,POW3R只需要83步,而传统方法需要249步,类别均衡方法需要332步。也就是说,POW3R以三到四倍的速度达到了同样的效果。当目标提高到49分和50分时,传统方法和类别均衡方法在整个训练计划内(最多664步)都无法到达,而POW3R分别在249步时就越过了这两条线。
这种速度提升并非来自任何"取巧"手段——所有方法使用完全相同的训练算法、相同的学习率、相同的超参数设置。唯一的区别就是如何把评分表里的考核项目转化为训练信号。这说明POW3R的加速效果完全来自信号质量的提升:当每一次训练更新都能告诉AI"你在这道题上的哪个方向做得更好或更差",AI就能更快地找到正确的学习方向,不需要反复在无效信号的噪音里摸索。
四、不过度拟合、不损害通用能力
研究团队担心的一个潜在问题是:POW3R在帮助AI学习特定评分表的同时,会不会让AI过度适应这份评分表,反而损害了AI的通用能力?为此,他们在完成训练后,把三个多模态模型分别放到六个与训练数据完全无关的外部视觉语言基准测试上进行评估,包括测试幻觉的HallusionBench、测试目标识别的POPE、测试多模态指令遵循的MM-IFE、测试综合能力的MMVetV2、测试数学推理的MathVista,以及测试真实世界空间理解的RealWorldQA。
结果发现,POW3R训练出的模型在这六个外部基准上的表现,和传统方法训练出的模型相比,几乎没有差异,甚至在大多数指标上略有微弱优势。这说明POW3R并不是让AI更擅长"应付"某一份特定的评分表,而是真正帮助AI在那些可学习的维度上提升了能力,这种提升是可以迁移到不同任务场景中的。
五、研究的局限与未竟之路
研究团队对这项工作的局限性保持了诚实的态度。整个评分流程依赖另一个AI(GPT-5.4系列)来充当"评卷老师"。训练时用的是GPT-5.4-nano(精度稍低但成本极低,每千次判断约0.12美元),评估时用的是GPT-5.4-mini(精度更高,约1.52美元每千次)。研究团队专门做了一个校准实验,用人类评价为基准,验证这两个AI评卷系统与人类判断的一致率分别约为91.4%和93.6%,与人类水准较为接近。但无论如何,只要评卷系统存在系统性偏差,这种偏差就会被POW3R的动态调整机制放大,因为POW3R会更积极地跟随评卷信号进行优化。
另一个局限是数据来源相对集中。医疗问答数据集来自公开的HealthBench,多模态数据集是研究团队自建的,这两个数据集覆盖的都是比较结构化的问答场景。对于长篇代码反馈、科学写作、多语言指令遵循这类具有不同类别结构和饱和模式的任务,POW3R的效果还没有被系统验证。当前带有静态人工权重的公开评分数据集总体上比较稀少,这限制了在更多领域进行测试的可能性。
说到底,POW3R揭示的核心洞察其实很简单:一份评分表同时承载了两件不同的事,一是"最终答案里什么重要",二是"现在能教会AI什么",而这两件事并不相同。传统方法把两者混为一谈,导致训练资源大量流入那些无法产生学习效果的地方。POW3R的贡献在于找到了一种轻量级的方式,在不改变任何评分目标的前提下,动态地把训练注意力引导到真正有效的地方。
这项发现对AI训练领域的意义不仅在于提升了一两个数字,更在于它提示了一种新的设计思路:评分表的聚合方式应当被当作一个训练时的能动选择,而不是一个固定不变的设定。随着AI被应用到越来越多需要多维度质量评估的领域,如何让评分信号更有教学效率,将会成为一个越来越值得深挖的研究方向。有兴趣继续探索的读者,可以通过arXiv编号2605.20164查找完整论文。
Q&A
Q1:POW3R和传统评分方法的本质区别是什么?
A:传统方法把评分表中所有考核项目按固定的重要性权重相加,不管这些项目对当前AI是否有学习价值。POW3R的不同在于,它会在训练中实时检测每个考核项目能不能区分AI的好答案和差答案,把训练注意力集中在那些AI"有时能过、有时不能过"的项目上,而不浪费在AI早就全部通过或根本无法通过的项目上。评分表本身和人类设定的重要性权重一点都没有改变。
Q2:训练AI时"饱和"和"死亡"的考核项目为什么会浪费训练资源?
A:AI的学习依赖于比较同一道题不同答案之间的得分差异。如果一个考核项目AI每次都能通过,它对所有答案贡献的分数完全相同,AI无法从中判断哪个回答方向更好。同理,如果一个项目AI每次都无法通过,同样没有差异可供学习。只有那些"有时通过有时不通过"的项目才能产生有效的学习信号,而传统方法对这三种情况不加区分,导致将近一半的训练权重流向无效项目。
Q3:POW3R在训练速度上有多大优势?
A:以Qwen3-VL-4B模型在多模态数据集上的实验为例,POW3R达到验证集46分只需83步训练,而传统方法需要249步,快了约三倍。在更高的性能目标(49分、50分)上,传统方法在整个训练计划内始终未能达到,POW3R则分别在249步时就已越过。这种加速完全来自训练信号质量的提升,所有方法使用完全相同的训练算法和超参数。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。