微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 阿里云团队推出革命性多模态奖励模型:让AI更懂人类的视觉理解偏好

阿里云团队推出革命性多模态奖励模型:让AI更懂人类的视觉理解偏好

2025-07-09 09:38
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-09 09:38 科技行者

这项由阿里云Skywork AI团队和昆仑公司联合完成的突破性研究发表于2025年6月,研究团队包括王晓琨、王佩宇、裴江波、沈伟等多位专家,他们的研究成果已在arXiv平台公开发布(论文编号:arXiv:2505.07263v2)。有兴趣深入了解的读者可以通过https://huggingface.co/Skywork/Skywork-VL-Reward-7B访问完整模型和技术资料。

想象你正在教导一个聪明的学生如何理解图片和文字的组合内容,但这个学生需要学会的不仅仅是看懂内容,更要懂得什么样的回答才是人类真正想要的。这正是阿里云研究团队面临的挑战。在人工智能快速发展的今天,虽然能够同时理解图像和文字的AI模型已经相当先进,但如何让这些模型的回答更贴近人类偏好,却一直是个技术难题。

传统的文字AI已经有了相当成熟的"评分系统"来判断回答质量,就像考试中的标准答案一样。但当AI需要同时处理图片和文字时,这套评分系统就显得力不从心了。现有的多模态奖励模型就像只会简单打分的老师,无法准确评估复杂的视觉推理过程,特别是那些需要深度思考的高难度问题。

阿里云团队开发的Skywork-VL Reward模型就像是一位经验丰富的全能教师,不仅能理解图片和文字的结合,更能准确判断什么样的回答更符合人类期望。这个模型基于著名的Qwen2.5-VL-7B-Instruct架构构建,包含70亿个参数,经过精心设计的两阶段训练过程,最终能够为多模态AI的回答提供精准的质量评分。

**一、构建史上最全面的多模态偏好数据库**

要训练出一个优秀的"AI评委",首先需要大量高质量的"评分标准"数据。研究团队就像收集食谱的大厨一样,从各个渠道汇集了约19万个精心筛选的对比样本,这些样本覆盖了从简单图片描述到复杂推理任务的各种场景。

这个庞大的数据集主要来源于三个重要渠道。第一个是LLaVA-Critic-113k数据集,包含11.3万个多模态样本,每个样本都配有详细的质量评判和解释说明,就像美食评论不仅给出星级评分,还详细说明评分理由。第二个是Skywork-Reward-Preference-80K数据集,虽然是纯文本数据,但经过精心筛选,能够显著提升模型对文字内容的理解和评判能力。第三个是RLAIF-V数据集,包含超过8.3万个偏好对比样本,来源广泛,能够增强模型在不同场景下的泛化能力。

除了这些公开数据,研究团队还创建了一个独特的内部数据集,专门针对复杂推理任务。这个数据集包含约5万个精心设计的对比样本,主要涵盖数学、物理、生物和化学等科学领域的多模态推理问题。这些问题就像高考中的综合应用题,需要AI不仅看懂图表和公式,还要进行多步骤的逻辑推理。

数据收集完成后,团队还进行了三个阶段的精心筛选和优化。第一阶段像图书管理员整理书籍一样,去除重复和相似的样本,筛选出约20万个高质量的独特样本。第二阶段使用一个初步训练的模型对所有数据进行预评分,就像预审员筛选材料,对评分过低或评分差异过小的样本用GPT-4o重新生成更优质的回答。第三阶段专门针对推理类任务,使用两种不同的方法生成回答:一种是直接生成,另一种是先用视觉模型描述图像,再用推理模型生成答案,这样能够涵盖不同类型的推理路径。

**二、创新的双阶段训练策略**

训练Skywork-VL Reward就像培养一位全能评委,需要分阶段进行专门训练。研究团队采用了巧妙的双阶段训练策略,确保模型既能精通多模态内容,又能在纯文本任务上保持竞争力。

在模型架构方面,团队对原有的Qwen2.5-VL-7B-Instruct模型进行了精心改造。原本这个模型就像一个能看图说话的学生,现在研究团队把它改造成了一个能给回答打分的评委。具体来说,他们移除了原本用于生成文字的输出层,替换成一个专门的评分头,这个评分头就像评委手中的记分牌,能够根据输入的图片、问题和回答给出一个精确的质量分数。

第一阶段的训练专注于多模态理解能力。在这个阶段,模型主要学习如何同时处理图像和文字信息,就像学生先要掌握基础的看图理解能力。训练过程中,研究团队采用了部分参数冻结策略,就像保护珍贵文物一样,冻结了模型中负责视觉理解的核心组件,只训练负责融合和评判的部分,这样既保持了原有的视觉能力,又能高效地学习新的评分技能。

第二阶段则加入了纯文本数据,让模型在保持多模态能力的同时,不忘记如何处理纯文字任务。这就像让一个既会画画又会写作的艺术家,确保两种技能都不退化。整个训练过程使用了经典的配对排序损失函数,这种方法不追求给出绝对的分数,而是专注于判断哪个回答更好,就像奥运会评委不需要知道每个动作的绝对分数,只需要准确排出名次即可。

训练过程中,团队使用AdamW优化器,第一阶段采用相对较高的学习率,第二阶段则降低学习率进行精细调整。每个阶段都训练2个轮次,研究团队发现这样的设置既能确保收敛,又不会过度拟合。

**三、多维度基准测试验证模型性能**

为了全面验证Skywork-VL Reward的实际表现,研究团队设计了comprehensive的评估体系,就像给新车进行全方位的路测一样。

在多模态任务的核心测试VL-RewardBench上,Skywork-VL Reward展现出了令人瞩目的性能。这个基准测试包含1250个精心设计的测试样本,涵盖一般多模态理解、视觉幻觉检测和复杂推理三个维度。结果显示,Skywork-VL Reward在综合性能上达到73.1%的准确率,超越了包括Gemini-2.0-flash在内的所有专有模型,在开源模型中更是遥遥领先。

特别值得关注的是,在视觉幻觉检测这个最具挑战性的任务上,Skywork-VL Reward取得了80.0%的惊人成绩,大幅超越了其他所有模型。视觉幻觉是指AI模型在描述图像时出现的事实性错误,比如把图片中的红色汽车说成蓝色,或者声称看到了实际不存在的物体。这种错误在实际应用中可能造成严重后果,因此准确识别和评判这类错误的能力极其重要。

在纯文本任务的RewardBench测试中,模型同样表现优异,达到90.1%的平均分数。这个结果证明了双阶段训练策略的有效性——模型在学会处理复杂多模态任务的同时,并没有损失处理纯文本的能力。在具体的子任务中,模型在安全性判断和推理任务上都取得了91%以上的高分,显示出良好的综合素质。

研究团队还通过具体案例展示了模型的判断能力。在一个几何计算题中,模型需要评判两个都得出正确答案但推理过程不同的回答。优质回答直接使用正确公式进行简洁计算,而劣质回答则充满了反复修正和冗余解释。Skywork-VL Reward准确地给优质回答打出5.86分,给劣质回答打出-15.5分,显示出对推理质量的敏锐判断力。在另一个图表分析案例中,面对询问哪个国家在贫困率图表中柱状图最长的问题,模型同样能够区分简洁准确的回答和重复冗余的表述。

**四、实际应用中的显著效果提升**

Skywork-VL Reward不仅在基准测试中表现优异,在实际应用中也展现出强大的实用价值。研究团队将其应用于混合偏好优化训练过程中,结果显示这种应用能够显著提升AI模型的多模态推理能力。

在MathVista这个极具挑战性的数学推理基准测试中,使用Skywork-VL Reward指导的模型训练取得了明显进步。基础模型的准确率为69.2%,经过不同奖励模型指导训练后,使用Qwen2.5-VL-7B-Instruct指导能达到71.2%,使用InternVL3-8B指导能达到71.8%,而使用Skywork-VL Reward指导则能达到73.5%的最高水平。这4.3个百分点的提升看似不大,但在如此困难的任务上,这样的提升是非常显著的。

这种提升的背后反映了Skywork-VL Reward对复杂推理过程的深度理解能力。传统的奖励模型往往只能判断最终答案的对错,但Skywork-VL Reward能够评估整个推理链条的质量,包括逻辑的清晰性、步骤的合理性以及表达的简洁性。这种细致的判断能力使得AI模型能够学习到更好的推理模式,而不仅仅是死记硬背正确答案。

混合偏好优化的过程就像让AI模型在多位优秀老师的指导下学习,每位老师都有自己的专长和判断标准。Skywork-VL Reward在这个过程中扮演了一位特别优秀的导师角色,它不仅关注答案的正确性,更重视推理过程的质量和表达的清晰度。

**五、技术创新与未来展望**

Skywork-VL Reward的成功源于多项技术创新的巧妙结合。首先是大规模高质量数据集的构建,研究团队不仅收集了现有的优质数据,还专门针对复杂推理任务创建了独特的数据集。其次是巧妙的模型架构设计,通过替换输出层并采用部分参数冻结策略,在保持原有能力的基础上高效学习新技能。再次是创新的双阶段训练方法,确保模型既精通多模态任务又不忘记文本处理能力。

这项研究的意义远超技术本身。随着多模态AI在教育、医疗、自动驾驶等领域的广泛应用,如何确保AI的回答质量和安全性变得至关重要。Skywork-VL Reward提供了一个可靠的评估工具,就像为AI世界建立了一套通用的"质量标准"。

当前的研究主要关注结果导向的评估,即只评判最终回答的质量。未来的发展方向可能会转向过程导向的评估,即对推理过程中的每个步骤都进行评分和指导。这种更细粒度的评估能够帮助AI模型学习更好的思维模式,而不仅仅是正确的答案。

研究团队已经将Skywork-VL Reward开源,这意味着全世界的研究者和开发者都能使用这个工具来改进自己的AI系统。这种开放的态度将有助于推动整个行业的进步,让更多优秀的多模态AI系统涌现出来。

说到底,Skywork-VL Reward代表了AI理解人类偏好这一关键技术的重要进展。它不仅能够准确评估AI的多模态表现,更为构建更智能、更可靠的AI系统提供了重要工具。随着这项技术的不断完善和应用,我们有理由期待未来的AI助手能够更好地理解我们的需求,提供更加贴心和准确的服务。对于普通用户而言,这意味着与AI交互将变得更加自然和高效,无论是询问图片内容、寻求学习帮助,还是进行复杂的分析推理,AI都能给出更符合期望的回答。这项研究真正体现了技术为人类服务的理念,让AI变得更加智能的同时,也更加贴近人心。

Q&A

Q1:Skywork-VL Reward是什么?它能做什么? A:Skywork-VL Reward是阿里云开发的多模态AI评分系统,就像一位能同时理解图片和文字的专业评委。它能判断AI回答图文问题的质量,特别擅长评估复杂推理过程,帮助训练出更优秀的AI模型。

Q2:这个模型会不会取代人类评估? A:目前不会完全取代人类,但能大大提高评估效率。它更像是人类评估专家的得力助手,能够处理大量重复性评估工作,但复杂的创意性和伦理性判断仍需要人类参与。

Q3:普通用户能使用这个技术吗? A:研究团队已经将模型开源(网址:https://huggingface.co/Skywork/Skywork-VL-Reward-7B),技术开发者可以直接使用。对普通用户来说,这项技术会间接改善各种AI应用的回答质量,让AI助手变得更聪明更贴心。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-