微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

SynthRL：新加坡国立大学团队如何通过可验证数据合成提升视觉推理能力

视觉语言模型数据合成可验证强化学习

SynthRL：新加坡国立大学团队如何通过可验证数据合成提升视觉推理能力

作者：科技行者

2025-06-06 17:28

分享至：

新加坡国立大学研究团队开发的SynthRL是一种创新的数据合成管道，旨在提升视觉语言模型的推理能力。该方法通过三阶段流程自动生成更具挑战性的训练数据：首先基于难度选择模型已掌握的简单问题，然后生成保留原始答案的更复杂变体，最后验证问题的正确性与难度增加。应用于MMK12数据集后，研究生成了3300多个高质量问题，并在五个视觉数学推理基准上实现显著性能提升，尤其在最困难的样本上效果最为明显。这一研究证明了智能数据合成在增强AI推理能力方面的重要价值，为视觉语言模型的进一步发展开辟了新途径。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-06 17:28 • 科技行者

在人工智能研究的前沿，视觉语言模型（VLMs）的推理能力一直是研究人员追求的重要目标。2025年6月，来自新加坡国立大学的吴子健、倪金杰、刘向彦、刘子晨和香港中文大学的严航，以及新加坡国立大学的Michael Qizhe Shieh共同发表了一篇题为《SynthRL: Scaling Visual Reasoning with Verifiable Data Synthesis》的研究论文。这项研究在arXiv预印本平台（arXiv:2506.02096v1）上发表，代码已在GitHub上开源（github.com/NUS-TRAIL/SynthRL），模型和数据集也已在Hugging Face上公开（hf.co/collections/Jakumetsu/SynthRL）。这项研究为视觉推理领域带来了全新的思路：如何通过智能生成更具挑战性的训练数据来提升模型的推理能力。

想象一下，如果你是一位教师，你希望你的学生能够解决更复杂的数学问题。你可能会先给他们一些简单的题目，然后根据他们的解题情况，逐步设计更有挑战性的问题。而这正是SynthRL的核心思想——它能自动识别模型已经掌握的简单问题，然后将这些问题转化为更具挑战性的变体，同时保持原始答案不变，从而帮助模型学习更深层次的推理能力。

近年来，通过可验证奖励的强化学习（RLVR）已经在提升视觉语言模型的推理能力方面取得了显著进展。与此同时，以数据为中心的方法也被越来越多地认为是提升模型智能的关键。研究团队敏锐地发现了一个重要但尚未充分探索的问题：我们能否在保证正确性和分布保证的前提下，扩展RLVR训练数据，以实现更好的性能？

面对这一挑战，直接将其表述为标准优化问题并不容易。虽然现有的数据选择方法可能在分布方面提供部分解决方案，但它们受限于原始数据量和分布，在数据本身稀缺且有偏差的情况下效果不佳。研究团队选择了一个互补且更实用的方向——数据合成。他们的直觉是，在RLVR设置下，更具挑战性但仍然正确的训练样本可以提供更丰富的学习信号。

SynthRL是一个精心设计的三阶段流程，专门用于为视觉语言模型的推理训练生成高质量的数据。第一阶段是"基于难度的种子选择"，系统会分析目标模型对种子问题的解答情况，选择那些模型能轻松解答的问题作为合成的起点，因为这些问题提供的学习信号有限，最适合进行复杂度提升。第二阶段是"定向合成"，利用强大的视觉语言模型生成更具挑战性的问题变体，同时保持原始答案不变。这一过程通过最小化的提示实现，强调通过要求更深层次的推理来增加难度。第三阶段是"验证"，确保合成的数据既保持问题有效性和答案正确性，又确实增加了难度。通过"提出-解决"机制，这一验证过程几乎完美地保证了新合成训练样本的正确性。

研究团队将SynthRL应用于MMK12数据集，从约8000个种子样本生成了超过3300个经过验证的更具挑战性的问题。实验结果令人振奋：使用合成数据训练的模型在五个视觉数学推理基准测试（MathVerse、MathVision、MathVista、WeMath和DynaMath）上均取得了明显的性能提升。与仅使用种子数据训练的基线模型相比，他们的模型在MathVerse上提升了1.9%，WeMath上提升了2.0%，DynaMath上提升了1.3%。更值得注意的是，这种性能提升在各种数据规模下都能一致观察到，且在最具挑战性的评估样本上表现最为显著，这证实了该方法在应对复杂推理场景方面的有效性。

让我们深入了解SynthRL的具体工作原理，看看这个创新系统如何为视觉语言模型创造更有价值的训练体验。

一、SynthRL：一个可扩展的可验证数据合成管道

SynthRL的核心是一个自动化且有保证的管道，专为推理导向的强化学习训练自动扩展数据而设计。想象你是一位教练，想要训练一位运动员应对更高难度的比赛。你会先观察运动员已经掌握的简单动作，然后设计更复杂的训练，同时确保这些训练是合理且有效的。SynthRL正是这样工作的：它首先分析模型已经掌握的简单问题，然后生成更具挑战性的变体，并严格验证这些变体的有效性和难度。

SynthRL的第一阶段是基于难度的种子选择。研究团队采用蒙特卡洛随机推理法来评估问题对于目标模型的难度。具体来说，对于每一个图像-问题-答案三元组(I, Q, A)，系统会让目标模型πtarget对问题进行多次随机回答，然后计算正确回答的次数。如果模型在16次中有12次或更多次正确回答了问题，说明这个问题对模型来说相对简单，提供的学习信号有限，因此成为了提高复杂度的理想候选。

这就像是测试一个学生对某个知识点的掌握程度。如果学生在多次测试中几乎总是能正确回答，那说明这个知识点对他来说已经很简单了，是时候给他一些更具挑战性的问题了。这种方法确保了系统不会浪费资源去复杂化那些模型本就很难解决的问题，而是专注于提升模型已经相对熟悉的问题领域的复杂度。

第二阶段是数据合成器。在这一阶段，系统会利用一个强大的视觉语言模型（如Gemini-2.5-Flash-Preview）来生成更具挑战性的问题变体，同时保持原始答案不变。重要的是，在提示合成模型时，系统只提供图像和原始问题，故意不提供答案。这迫使模型专注于问题与图像之间的语义关系，而不是依赖答案来生成表面上的改写。

这就像是让一位经验丰富的教师重新设计问题，使其更具挑战性但答案保持不变。例如，从"求直角三角形的斜边长度"变成"如果一个直角三角形的两条直角边分别是3和4，那么这个三角形的周长是多少？"这两个问题可能有相同的核心答案（斜边长度5），但后者需要更多的推理步骤。

第三阶段是正确性和难度保证验证器。这一阶段确保合成的问题既保持有效性，又确实增加了难度。对于每个候选问题，系统会应用与第一阶段相同的蒙特卡洛随机推理技术来评估其难度。一个有效的候选问题必须满足两个条件：首先，它必须在至少4次随机推理中被正确回答，证明问题是有效的并保留了原始答案；其次，正确回答的次数必须比原始问题少至少2次，证明问题确实变得更加困难。

这种验证方法的关键在于：合成器被指示创建答案相同但更难的问题，而验证器通过让目标模型尝试解答来确认这一点。如果目标模型能够在合理次数内得到原始答案，这证实了问题既有效又保留了预期答案。同时，如果正确回答的次数明显减少，这表明问题确实变得更具挑战性。

最终，这个三阶段管道产生了一系列经过验证的更具挑战性的问题变体，每一个都保留了原始答案，但需要更深入的推理能力。这些问题为强化学习训练提供了更有价值的学习信号，帮助模型开发更强大的推理能力。

二、数据集分析：合成数据的特点与质量

研究团队选择了MMK12作为种子数据集，该数据集包含8099个问题-答案对。为了确保验证过程的可靠性，他们对数据集进行了预处理，将多选题转换为开放式答案格式，并移除了是/否问题，最终得到8072个开放式答案的种子数据集。此外，他们还创建了2k和4k版本的种子数据集，用于分析数据规模效应。

使用Gemini-2.5-Flash-Preview-04-17作为合成模型，研究团队从种子数据中选择了那些随机推理通过率高的问题（16次中至少有12次成功预测）进行转换。验证阶段，他们设置了可解性标准阈值Tmin=4，确保问题有效性和答案保留，以及难度标准ΔΤhard=2，确保候选问题明显比原始版本更具挑战性。通过这个过程，他们生成了3380个经过验证的更难变体，每一个都保留了原始的正确答案。研究团队将原始MMK12问题及其合成变体的组合数据集称为A-MMK12，总计11452个样本。

那么，这些合成的问题有何特点？研究团队进行了深入分析。首先，从难度分布上看，原始MMK12数据集的平均通过率为9.04，而A-MMK12的平均通过率降至8.24，表明整体难度有所增加。更显著的是，选定的种子样本通过率高达15.10，而合成的问题通过率仅为6.33，证明合成过程成功地创建了更具挑战性的变体。

最显著的差异体现在分布形状上。种子数据集在0和16通过次数处显示高度集中，这意味着大多数问题要么非常容易（总是能解决），要么非常困难（几乎无法解决）。相比之下，合成的问题在中等难度水平（4到14次通过）上展现出更为平衡的分布。这种更广泛的分布在训练过程中提供了更平滑的难度渐进，有助于模型发展更好的推理能力。

除了难度分布，研究团队还分析了推理步骤的复杂度。合成的问题平均需要34.90个推理步骤，而原始种子问题平均仅需26.16个，增加了约33%。这表明合成过程创建了需要更复杂推理链的问题。具有多步推理的问题更好地锻炼了模型分解问题和维持连贯推理的能力，这对于健壮的视觉推理能力至关重要。

这些分析结果表明，SynthRL不仅增加了训练数据的数量，更重要的是，它创建了质量更高、更具挑战性的问题，这些问题能够更有效地锻炼模型的推理能力。

三、实验设置与模型训练

研究团队采用了严格的实验设计来评估SynthRL的有效性。他们以Qwen2.5-VL-7B-Instruct为基础模型，这个模型具有强大的基础能力，适合后续的强化学习训练。值得注意的是，同一个模型同时担任了目标模型和验证器模型的角色。

对于强化学习训练，研究团队使用了基于verl的EasyR1框架，该框架专为视觉语言模型设计。所有实验在8个NVIDIA H100 80GB HBM3 GPU上进行，全局批量大小为128，随机推理批量大小为512，随机推理温度为1.0，一致的学习率为1e-6，以及8次随机推理。

根据最新研究发现，团队移除了GRPO算法中与参考模型的KL散度约束，以促进更广泛的探索。在训练过程中，模型的所有部分（包括视觉编码器）都被解锁，以最大化视觉推理任务的性能。主要实验比较了两种配置：(1)仅使用原始种子数据集训练的基线模型，和(2)使用A-MMK12训练的SynthRL模型。

为了全面评估模型性能，研究团队采用了多个基准测试来检验模型的域外泛化能力。他们选择了五个专门的视觉推理数据集：MathVerse、MathVision、MathVista、WeMath和DynaMath。为了确保跨模型的一致评估，他们开发了一个标准化的评估套件，能够评估他们训练的检查点和大多数公开可用的R1相关检查点。他们使用vLLM进行高效推理加速，并采用Gemini-2.0-Flash-001作为判断模型来解析生成的输出。

研究团队遵循了每个模型提供的系统提示和输出格式规则，尽管由于特定的判断模型和评估设置，可能与已发布结果存在小差异。他们报告了在5个基准测试上获得最佳平均性能的检查点的性能。

四、实验结果与分析

SynthRL的主要实验结果令人振奋，证明了这种方法在提升视觉推理能力方面的有效性。在8K数据规模下，使用A-MMK12数据集训练的模型在五个域外视觉推理基准上平均准确率达到58.0%，比仅使用种子MMK12数据集训练的基线模型的57.0%有所提升。在各个单独的基准测试中，研究团队观察到了显著的改进，MathVerse准确率从51.6%提高到53.5%，WeMath从70.6%提高到72.6%。这些结果表明，合成数据确实增强了模型泛化到未见过的问题分布的能力。

数据规模效应分析显示，A-MMK12和MMK12之间的性能差距在2K规模下相对适中（56.0%对55.8%），但随着更多种子数据的可用性，差距明显扩大，在4K规模下达到+0.7%，在8K规模下达到+1.0%。这一模式表明，合成方法在有更大、更多样化的种子池时变得更加有效。此外，虽然两个数据集最初导致相似的学习模式，但使用A-MMK12训练的模型在所有数据规模下都达到了更高的峰值性能。

这些发现表明，合成方法与传统数据扩展方法互补，提供了超出简单增加原始数据量所能实现的额外收益。SynthRL针对性地生成具挑战性的变体，为发展强大的视觉推理能力创造了更有效的训练分布。

为了精确测量方法在哪里提供最大价值，研究团队建立了基于Bradley-Terry模型和Elo评分系统的客观难度排名。他们为每个样本收集了多达128个两两比较，以建立统计上稳健的难度分数，然后将每个基准数据集划分为三个难度层次：简单、中等和困难。

结果表明，A-MMK12在中等和困难子集上产生了最大的改进。在完整的8K数据集上，虽然A-MMK12在简单样本上表现略低（-0.5%），但在中等（+1.7%）和困难（+1.6%）样本上显示出明显的收益。这种模式在各个数据规模上都保持一致，A-MMK12在具挑战性的问题上展示出最强的优势。

这些结果表明，合成方法成功地针对了复杂推理挑战，这些挑战在仅用种子数据训练时无法充分解决。性能从简单到困难样本的转变与研究目标一致，即提高模型在更具挑战性的推理任务上的能力。

研究团队还进行了验证器的消融研究。当使用非目标模型（Gemini-2.0-Flash-001而非Qwen2.5-VL-7B-Instruct）作为验证器时，平均准确率从57.2%下降到55.7%。这表明有效验证需要与目标模型的能力保持一致，以正确校准难度。单次验证（使用目标模型但每个问题只进行一次验证而非多次蒙特卡洛随机推理）达到56.5%的平均准确率，而完全无验证的合成仅达到55.8%。

这些结果确认了与目标模型一致且使用蒙特卡洛随机推理的验证对SynthRL的总体性能增益贡献约1.4%，突显了验证在SynthRL有效性中的重要作用。

研究团队还研究了不同的数据集成策略。他们将增强方法A-MMK12与替换策略R-MMK12进行比较，后者用合成样本替换相应的种子样本，同时保持相同的数据集大小。结果显示，A-MMK12在五个基准测试上达到最高的平均准确率57.2%，而R-MMK12的表现甚至低于原始基线（56.1%对56.5%）。这表明合成问题在补充而非替换原始分布时提供最大收益，性能差距证实了SynthRL的改进源于数据扩展和有针对性的难度增强的结合。

五、SynthRL在视觉推理研究中的地位与意义

将SynthRL与其他视觉语言模型推理方法进行比较，可以更好地理解其在当前研究格局中的位置。视觉语言模型从基础集成技术（如Alayrac等人的Flamingo）和有效的视觉指令调优（如Liu等人的工作）发展到专门的数学推理方法（如Shi等人的Math-LLaVA和Zhang等人的MAVIS）。虽然像GPT-4o和Gemini这样的先进模型展示了强大的一般视觉理解能力，但在需要复杂分析和推理的视觉推理方面仍存在差距。

强化学习正在成为解决这一问题的新兴方法，扩展了增强LLM推理的方法（如Guo等人的DeepSeek-R1和Kimi团队的工作）。对于视觉语言模型，R1型强化学习应用已在几何和物体计数等特定子领域取得成功（如Peng等人和Huang等人的工作）。值得注意的是，最近的研究（如Meng等人的MM-Eureka和Yang等人的工作）已将基于规则的强化学习应用于视觉语言模型的更广泛多模态数学推理，而无需领域内训练数据。

数据合成对视觉语言模型至关重要，提供可扩展、多样化和高质量的训练数据来增强性能。最初专注于改善指令跟随能力和通过多轮对话和反馈机制与人类偏好保持一致，最近的研究越来越多地使用数据合成来推进视觉推理。这种较新的重点包括为复杂指令生成复杂数据集，或使用逆向思维链等技术解决几何、数学和导航推理等任务，从而显著扩展视觉语言模型的推理能力。然而，利用数据合成进行视觉语言模型的强化学习训练仍然是一个很大程度上未被探索的前沿领域。

SynthRL的贡献在于它填补了这一研究空白，提供了一种自动化且有保证的方法来为视觉语言模型的强化学习生成更具挑战性的训练数据。通过结合难度评估、定向合成和严格验证，SynthRL创建了既保持答案正确性又显著增加推理复杂性的高质量训练样本。实验结果证明了这种方法在提升模型推理能力方面的有效性，尤其是在最具挑战性的问题上。

六、总结与展望

SynthRL提供了一种自动化管道，通过合成更具挑战性的训练数据来提升视觉语言模型的推理能力。通过三阶段过程——基于难度选择种子问题，生成保留答案的更难变体，以及验证正确性和难度增加——SynthRL能够创建高质量的训练样本，无需人工干预。

应用于MMK12数据集，这种方法从8072个种子样本生成了超过3380个可验证、更具挑战性的问题。使用这些数据训练的模型在五个域外视觉数学推理基准上取得了显著性能提升，尤其是在最具挑战性的样本上表现最为突出。

这项研究的意义在于它证明了针对性地增强训练数据的复杂性可以有效提升模型的推理能力，尤其是在处理复杂推理任务方面。SynthRL提供了一种可扩展、数据中心的方法来增强视觉语言模型的推理能力，无需大量人工标注或领域专家知识。

展望未来，SynthRL的方法可以应用于更多类型的推理任务和模型架构。研究团队的工作为如何通过智能数据合成来提升人工智能系统的高级推理能力开辟了新的路径，这对于发展真正能够理解和推理复杂视觉场景的AI系统具有重要意义。

总的来说，SynthRL代表了一种新的思路：不仅要训练更强大的模型，还要创建更有价值的训练数据。通过自动识别和提升训练数据中的挑战性，这种方法可以帮助模型发展更深层次的推理能力，这对于视觉AI向真正的理解力迈进至关重要。

视觉语言模型数据合成可验证强化学习

分享至