想要让人工智能变得更聪明,就像培养一个优秀的学生一样,需要有好老师来指导。而在AI的世界里,这个"老师"的角色就是由"奖励模型"来担任的。最近,中科院自动化所的研究团队联合字节跳动等机构,发布了一项突破性研究成果——BaseReward,这是一个专门为多模态AI模型量身定制的"超级评委"系统。这项研究由中科院的张艺凡、杨海华等人领导,发表于2025年9月的arXiv预印本平台,感兴趣的读者可以通过arXiv:2509.16127访问完整论文。
这项研究的重要性可以用一个简单的比喻来理解:当你教孩子画画时,如果没有人告诉他哪里画得好、哪里需要改进,孩子就很难进步。同样,现在的AI模型能够同时处理文字、图片、视频等多种信息(这就是所谓的"多模态"),但要让它们变得更智能、更符合人类的期望,就需要一个能够准确评判其表现好坏的"评委"。
传统的AI训练就像是盲人摸象,缺乏统一的评判标准。研究团队发现,虽然目前已经有一些多模态奖励模型,但它们就像是各自为政的地方法官,缺乏一套通用的"执法标准"。有的模型专门评判文字回答,有的专门看图片理解,还有的专注于安全性检查,但没有一个真正的"全能评委"能够统一标准、综合评价。
更关键的是,研究团队发现了一个令人意外的现象:加入纯文本数据居然能显著提升多模态模型的判断能力。这就好比让一个美食评委不仅要懂得品尝菜肴,还要学会欣赏食谱的文字描述,结果发现这样的综合训练让评委的判断更加准确和全面。
一、构建多模态奖励模型的"烹饪秘籍"
研究团队的工作就像是编写一本详尽的"烹饪秘籍",告诉大家如何从零开始制作一道完美的"多模态奖励模型大餐"。在这个比喻中,不同的奖励模型训练方法就像是不同的烹饪手法,而数据就是各种食材,模型架构则是厨具的选择。
研究团队首先对比了三种主要的"烹饪方法"。第一种是"简单直接法"(Naive-RM),就像用最基本的平底锅直接煎蛋,在预训练好的多模态模型上直接加一个线性的评分头,让模型输出一个数字分数。这种方法虽然简单快速,但就像黑盒子一样,你不知道它为什么给出这个分数。
第二种是"评论家方法"(Critic-based RM),类似于先让厨师品尝并描述菜品的味道,然后根据描述来打分。模型会先生成一段文字分析,解释为什么这个回答好或不好,然后再给出最终评分。这种方法的好处是过程透明,但问题是如果第一步的"品尝分析"质量不高,最终的评分也会受影响。
第三种是"生成式方法"(GRM),就像让评委直接说出"这道菜比那道菜好"。模型不输出数字分数,而是直接生成文本,比如说"回答1比回答2更好"或者简单的"1"、"2"来表示偏好。这种方法的优点是结果容易理解,但计算成本较高,就像每次都要写一篇详细的美食评论一样耗时。
通过大量实验对比,研究团队发现,虽然生成式方法在某些特定任务(如编程和安全判断)上表现出色,但考虑到计算效率和实际应用的便利性,简单直接的Naive-RM方法实际上是最佳选择。这就像发现,有时候最简单的煎蛋方法反而能做出最美味的早餐。
二、精心设计奖励模型的"内部构造"
确定了基本的"烹饪方法"后,研究团队开始精心设计模型的内部结构,这就像选择合适的锅具和调节火候一样重要。在传统的奖励模型中,评分头通常只是一个简单的线性层,就像只用一个平底锅来做所有菜品。
但研究团队发现,使用多层感知机(MLP)作为奖励头能显著提升性能。具体来说,他们测试了不同层数和激活函数的组合。层数就像是烹饪的步骤数量,太少可能无法充分处理复杂信息,太多则可能导致过度复杂化。经过反复实验,他们发现两层结构是最佳选择,就像很多经典菜谱都需要两个主要步骤一样。
激活函数的选择就像是调料的搭配。研究团队测试了多种"调料",包括Tanh、SiLU等,最终发现SiLU激活函数能带来最好的效果。这个发现有点像厨师经过无数次尝试后发现,某种特定的香料搭配能让菜品的味道达到最佳平衡。
有趣的是,当层数超过两层时,性能反而开始下降,这说明在奖励模型设计中,"简约而不简单"是一个重要原则。就像烹饪中的道理一样,有时候过度复杂的工序反而会破坏食材本身的味道。
三、训练策略的"火候掌控"
在确定了基本结构后,研究团队还深入研究了训练过程中的各种"火候掌控"技巧。他们测试了两种常见的正则化策略,这就像是在烹饪过程中控制火力大小和调味量。
第一种是"零系数正则化",目标是让模型给出的奖励分数尽可能接近零点,避免出现极端的高分或低分。这就像是要求厨师在评价菜品时保持中庸态度,不要轻易给出满分或零分。第二种是"长度归一化",旨在减少模型对回答长度的偏见,避免简单地认为"越长的回答越好"。
但令人意外的是,实验结果显示这些看似合理的"调味技巧"实际上并没有带来性能提升,有时甚至会产生负面影响。这个发现有点像某些传统烹饪智慧经过科学验证后发现并不准确。因此,研究团队在最终的BaseReward模型中选择了不使用任何额外的正则化损失,保持训练过程的简洁性。
这个结果告诉我们,在机器学习中,有时候"少即是多"的哲学同样适用。过度的约束和限制可能会束缚模型的学习能力,就像过度调味可能会掩盖食材的本味一样。
四、数据配方的"食材选择"与"营养搭配"
在奖励模型训练中,数据的选择和搭配就像是准备一桌营养均衡的大餐需要精心挑选各种食材。研究团队收集了超过十个不同类型的数据集,其中包括多模态数据(同时包含图片和文字的内容)和纯文本数据。
这些数据集就像是不同类型的食材:有些专门训练模型识别图片中的幻觉错误,有些专注于提升数学推理能力,还有些专门处理安全相关的问题。研究团队发现,并不是所有的"食材"都对最终的"菜品"有积极作用。比如MMIF和SHP这两个数据集,就像是变质的食材,不仅没有营养价值,还可能影响整体效果。
更令人惊讶的发现是,某些纯文本数据集的效果竟然不亚于专门的多模态数据集。这就好比发现,在制作海鲜大餐时,添加一些看似不相关的陆地蔬菜反而能让整体味道更加丰富和谐。具体来说,像Ultra-Hard和Olmo-2这样的纯文本数据集,在多模态任务上的表现甚至超过了一些专门的多模态数据集。
这个现象的原因在于,纯文本数据集通常包含大量的安全性和数学内容,这些"营养成分"能够显著提升模型在相应维度上的判断能力。比如,在安全性评估方面,经过纯文本数据训练的模型在多模态安全评估中的表现明显更好,就像在汤中加入特定的草药能增强整体的营养价值。
研究团队还发现了一个重要的"营养搭配"原则:要保持模型在纯文本任务上的强大能力,必须在训练数据中包含足够的文本数据。这就像要保持身体健康,日常饮食中必须包含足够的蛋白质和维生素。只用多模态数据训练的模型在处理纯文本任务时表现会明显下降。
五、"主厨"选择:模型骨干的重要性
在构建奖励模型时,选择合适的基础模型就像选择一位经验丰富的主厨来掌勺。研究团队测试了多个知名的多模态模型作为"主厨候选人",包括Intern-VL系列和Qwen-VL系列,这些就像是来自不同烹饪学校的顶级厨师。
实验结果显示,不同的"主厨"确实有各自的专长领域。Qwen-VL系列就像是擅长处理复杂多样菜品的全能型厨师,在多模态奖励建模任务上表现出色。而Intern-VL系列则像是专精传统菜系的大师,在纯文本相关的评判任务上更有优势。
具体来说,在MM-RLHF-Reward这个重要的多模态评测中,Qwen2.5-VL-7B的准确率达到93.5%,比Intern-VL3-8B的83.7%高出近10个百分点。但在RewardBench这个主要考查文本能力的评测中,情况正好相反,Intern-VL3-8B得分84.0,超过了Qwen2.5-VL-7B的75.8分。
这种性能差异反映了不同模型的"烹饪风格"差异。某些模型更适合处理图文混合的复杂信息,而另一些模型在纯文本理解上更有天赋。这就像有些厨师擅长创新融合菜,有些厨师则更精通传统经典菜品。
令人意外的是,研究团队发现,单纯增加模型规模(从7B增加到72B参数)并不总是带来显著的性能提升。这就好比,一个经验丰富的小餐厅主厨可能比大酒店的新手厨师做出更好的菜品。这个发现对于实际应用很有价值,因为它意味着在计算资源有限的情况下,选择合适的中等规模模型可能是更明智的选择。
六、"美食评审团":集体智慧的力量
既然不同的"主厨"各有专长,研究团队自然想到了组建"美食评审团"的策略——通过集成多个模型来获得更准确、更全面的评判结果。这就像是邀请多位不同专长的美食评委组成评审团,每个人从自己的专业角度给出评价,然后综合所有意见得出最终结果。
研究团队设计了几种不同的"评审团运作方式"。第一种是基于验证集的加权方法,类似于根据每位评委的历史评判准确率来决定其发言权重。具体包括准确率加权和置信度加权两种方式。准确率加权就像是根据评委过往的判断正确率来分配话语权,而置信度加权则是根据评委对自己判断的自信程度来调整权重。
第二种是"民主投票"方式,即简单地将所有模型的评分进行平均,就像每位评委的意见都同等重要。虽然这种方法看似简单粗暴,但实验结果表明它往往能取得很好的效果。
实验结果显示,集成策略确实能带来显著的性能提升。在三个主要的多模态奖励建模基准测试中,没有任何单一模型的平均性能超过81.0分,但通过简单的平均集成策略,这个分数提升到了82.6分。这就像是一个优秀的评审团往往比任何单一的评委都能做出更准确的判断。
更有趣的是,当研究团队在评审团中加入一个专门处理纯文本的Qwen 3 LLM 8B模型时,在纯文本评估任务上的性能从80.7分跃升至82.7分。这说明增加模型的多样性,特别是不同专长的模型,能够显著提升集成系统的整体性能。这就像在美食评审团中加入一位专门研究传统菜系的专家,能让整个评审团的判断更加全面和准确。
七、BaseReward的"出炉"与实力展示
基于所有这些深入研究和实验发现,研究团队最终推出了他们的"招牌菜品"——BaseReward。这个模型采用了Qwen2.5-VL-7B作为基础架构,配备了经过优化的两层奖励头,使用SiLU激活函数,并且在精心筛选的280万个偏好数据对上进行训练。
BaseReward的训练过程就像是遵循完美食谱的精心烹饪。研究团队选择了3e-6的学习率,批次大小设定为128,整个训练过程在64张英伟达H100 GPU上完成。这些技术参数看似复杂,但实际上就像是烹饪中的火候控制和时间把握一样重要。
当BaseReward接受各种严格测试时,它的表现确实令人印象深刻。在MM-RLHF-Reward Bench这个重要评测中,BaseReward的准确率达到91.76%,比之前的最好成绩提升了11.9%。在更具挑战性的Acc+指标上,BaseReward达到80.43%,比之前的最佳表现提升了23.32%。
在VL-Reward Bench评测中,BaseReward的整体准确率为82.16%,比之前的最好成绩提升了14.2%。这些数字虽然看起来抽象,但它们代表的意义就像是一位厨师在各种烹饪比赛中都获得了冠军,证明了其全面而卓越的技能。
特别值得一提的是,BaseReward作为一个"经典款"奖励模型,具有非常快的推理速度,而一些竞争对手如R1-Reward和MM-RLHF-Reward需要先生成分析文本再给出评分,就像是需要先写评论再打分的评委,这大大增加了计算开销。BaseReward就像是能够快速准确判断的资深评委,效率和准确性兼备。
八、实战检验:真正的"下厨房"测试
任何优秀的评委系统最终都需要在实际应用中证明自己的价值。研究团队将BaseReward集成到真实的强化学习训练流程中,就像让这位"超级评委"真正参与到AI模型的"成长教育"过程中。
他们选择了Qwen-2.5-VL 3B作为"学生模型",使用Group Relative Policy Optimization(GRPO)算法进行训练。训练数据来自多个具有挑战性的数据集,包括专门测试感知能力的V*数据集、考查图表理解能力的arXivQA数据集,以及评估推理能力的ThinkLite-VL数据集。
为了全面评估BaseReward的指导效果,研究团队设计了三种不同的"教学方式"。第一种是"严格标准法",只有当模型的回答与标准答案完全一致时才给予满分,否则给零分。这就像是传统的应试教育,标准严格但可能过于刻板。
第二种是"BaseReward评估法",完全依靠BaseReward来评判学生模型的表现。这就像是让一位经验丰富的老师根据自己的专业判断来评估学生的表现,不拘泥于标准答案的字面意思。
第三种是"混合教学法",结合了严格标准和灵活评估的优点。当学生的回答与标准答案完全一致时给予满分,否则使用BaseReward的评分并通过sigmoid函数归一化到0-1范围内。这就像是既有基本标准,又允许老师根据学生的实际表现给予灵活评价。
实验结果表明,BaseReward的指导效果确实优于竞争对手R1-Reward。在多个评测基准上,使用BaseReward训练的模型都表现出更好的性能。更重要的是,R1-Reward由于需要进行复杂的成对比较计算,训练过程中大量时间都花费在等待奖励计算上,效率远低于BaseReward。
特别值得注意的是,混合教学法取得了最佳效果。在数学推理任务MathVista上,这种方法将准确率从基线的61.8%提升到64.3%。在对话质量评估中,模型在LLaVA-Wild基准上的胜率从48.4%提升到54.0%。这些改进虽然看似不大,但在AI领域已经是非常显著的进步,就像运动员将成绩提高几个百分点就可能意味着从普通选手到世界冠军的差距。
九、意外发现:文本数据的"神奇效应"
研究过程中最令人意外的发现之一,是纯文本数据对多模态奖励模型性能的显著提升作用。这个发现就像是在研究海鲜料理时意外发现,添加某些看似不相关的蔬菜竟然能让海鲜的味道更加鲜美。
研究团队深入探索了这个现象,试图理解为什么文本数据能够帮助模型更好地理解图文混合的内容。他们的解释是,纯文本数据集通常包含大量关于安全性、数学推理、逻辑分析等方面的高质量内容,这些"知识营养"能够增强模型的综合判断能力。
当模型接触到大量优质的文本推理过程后,它学会了如何进行深入的逻辑分析和判断,这种能力自然地迁移到了多模态内容的评估中。这就像是一个学会了深度思考的评委,无论面对什么类型的内容都能给出更有见地的评价。
但研究团队也发现了一个有趣的"单向性"现象:虽然文本数据能够提升多模态模型的性能,但多模态数据并不能显著提升纯文本任务的表现。这就像是学会了高级烹饪技巧确实能帮助做出更好的简单菜品,但仅仅接触复杂菜品并不能自动提升基础烹饪技能。
基于这个发现,研究团队建议在实际应用中采用模块化策略:为纯文本任务专门训练一个文本奖励模型,为多模态任务使用多模态奖励模型,然后根据输入内容的类型动态选择合适的评估工具。这就像是根据不同场合选择不同的专业评委,确保每个领域都有最合适的专家来评判。
说到底,这项研究最大的贡献不仅仅是推出了一个性能优异的BaseReward模型,更重要的是为整个多模态奖励建模领域提供了一套完整、系统的"最佳实践指南"。就像是一本详尽的烹饪教科书,不仅包含了一道招牌菜的完整食谱,还系统地解释了每个步骤背后的科学原理和实践智慧。
研究团队通过大量的对比实验,回答了这个领域中长期困扰研究者的关键问题:应该采用什么样的模型架构、如何设计训练策略、怎样选择和配比训练数据、如何选择合适的基础模型,以及何时采用集成方法。这些问题的答案对于任何想要构建高质量多模态奖励模型的研究者和工程师来说,都具有极高的参考价值。
更重要的是,BaseReward在实际的强化学习应用中证明了自己的价值,这表明这项研究不仅在理论上有所突破,在实用性方面也达到了很高的水准。归根结底,任何AI技术的最终价值都在于能否在真实世界中发挥作用,帮助人类解决实际问题。BaseReward在这方面的表现令人鼓舞,为多模态AI系统的进一步发展奠定了坚实的基础。
当然,研究团队也坦诚地指出了当前工作的局限性。由于计算资源的限制,他们没有测试超大规模(72B参数以上)模型的表现,这留下了进一步探索的空间。此外,如何让单一的多模态模型在纯文本任务上也能达到专门的文本模型水平,仍然是一个有待解决的挑战。
对于有兴趣深入了解技术细节的读者,建议访问原论文的完整版本(arXiv:2509.16127),其中包含了更多详细的实验数据和技术讨论。这项研究为多模态AI的发展开启了新的篇章,相信会激发更多研究者在这个令人兴奋的领域继续探索和创新。
Q&A
Q1:BaseReward是什么?它和普通AI模型有什么区别?
A:BaseReward是中科院开发的一种专门用来评判AI模型回答质量的"超级评委"系统,特别擅长处理同时包含文字和图片的复杂内容。它不是直接回答问题的AI,而是专门负责判断其他AI回答得好不好,就像老师批改作业一样。
Q2:为什么说文本数据能提升多模态模型的能力?
A:研究发现纯文本数据中包含大量高质量的逻辑推理、安全判断和数学分析内容,这些"知识营养"能增强模型的综合判断能力。就像学会深度思考的评委,面对任何类型内容都能给出更准确的评价,这种能力会自然迁移到图文混合内容的评估中。
Q3:BaseReward在实际应用中表现如何?
A:BaseReward在多个权威测试中都创下了新纪录,比如在MM-RLHF-Reward Bench测试中准确率达到91.76%,比之前最好成绩提升11.9%。更重要的是,当它被用来指导AI模型学习时,能让模型在数学推理、对话质量等方面都有明显提升。
好文章,需要你的鼓励
Queen's大学研究团队提出结构化智能体软件工程框架SASE,重新定义人机协作模式。该框架将程序员角色从代码编写者转变为AI团队指挥者,建立双向咨询机制和标准化文档系统,解决AI编程中的质量控制难题,为软件工程向智能化协作时代转型提供系统性解决方案。
西北工业大学与中山大学合作开发了首个超声专用AI视觉语言模型EchoVLM,通过收集15家医院20万病例和147万超声图像,采用专家混合架构,实现了比通用AI模型准确率提升10分以上的突破。该系统能自动生成超声报告、进行诊断分析和回答专业问题,为医生提供智能辅助,推动医疗AI向专业化发展。
上海AI实验室团队发现自回归图像生成模型存在局部依赖、语义不一致和空间不变性缺失三大问题,提出ST-AR训练方法。该方法通过掩码注意力、跨步骤对比学习和跨视角对比学习,让AI"先理解再生成"。实验显示,ST-AR将LlamaGen模型的图像理解准确率提升一倍以上,图像生成质量提升42-49%,为构建更智能的多模态AI系统开辟新路径。