微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

当AI学会"挑剔"数据分析：浙江大学与蚂蚁集团联合研发的DataPRM如何让AI科研助手不再"睁眼说瞎话"

过程奖励模型数据分析智能体三元奖励机制

当AI学会"挑剔"数据分析：浙江大学与蚂蚁集团联合研发的DataPRM如何让AI科研助手不再"睁眼说瞎话"

作者：科技行者

2026-05-05 14:17

分享至：

浙江大学与蚂蚁集团联合研发的DataPRM，是一种专为AI数据分析助手设计的过程奖励模型。针对通用奖励模型无法识别"代码成功运行但结果错误"的沉默错误、以及将正常探索性尝试误判为严重失误两大痛点，DataPRM通过主动与数据环境交互验证和三元评分机制（0、0.5、1分）加以解决。仅40亿参数的DataPRM在ScienceAgentBench和DABStep基准上超越了参数量大数十倍的通用模型，并在强化学习训练中有效避免了熵崩塌，使AI助手保持持续探索能力。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-05 14:17 • 科技行者

这项由浙江大学与蚂蚁集团联合开展的研究，于2026年4月以预印本形式发布在arXiv平台，论文编号为arXiv:2604.24198，题为《Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis》（奖励科学过程：面向智能体数据分析的过程级奖励建模）。感兴趣的读者可通过上述编号在arXiv检索完整论文。

**研究概要：当AI"助手"开始"蒙混过关"**

假设你雇了一个助手帮你整理一份重要的财务报告。这个助手勤劳肯干，每次交给你的报告看起来都格式整齐、图文并茂，而且从来不说"我不知道"——每次都给出一个看起来完全合理的答案。问题是，你后来发现他有时候把某列数据算错了，但因为他不报告错误、照常完成工作，你根本没法发现。更糟的是，当他第一次打开文件、发现列名和自己预期的不一样时，你的监管系统却把这次"试探性的摸索"判定为一次严重失误，直接扣分。

这正是当前AI数据分析领域面临的真实困境。AI模型（也就是"大语言模型"）已经能够扮演数据分析助手的角色，自动写代码、运行程序、生成图表。但如何评判这个助手每一步做得好不好，目前业界还没有一套真正可靠的裁判机制。浙江大学与蚂蚁集团的研究团队正是为了解决这个"裁判问题"，提出了一个名为DataPRM的新型评分系统，专门负责对AI数据分析助手的每一个操作步骤进行精准打分，而不仅仅是等到最后结果出来再评判好坏。

**一、裁判为何如此重要——从"只看结果"到"盯紧过程"**

在AI领域，有一种被称为"奖励模型"的机制，它的作用就像体育比赛里的裁判，告诉AI哪些做法是对的、哪些是错的，从而引导AI不断改进。过去，大多数数据分析领域的AI系统都采用"结果奖励"的方式——只要最终答案对了，不管中间过程怎么折腾，都算成功。这种方式放在简单任务上还凑合，但在数据分析这种需要层层递进、环环相扣的复杂科研任务中，问题就暴露出来了。

与此同时，数学推理领域已经发展出了一套叫做"过程奖励模型"（Process Reward Model，简称PRM）的技术。这套机制不只看最终答案，而是对AI的每一个推理步骤都进行评分，就像老师批改解题过程一样，步步追踪，绝不放过中间的任何错误。这种方式在数学题、代码生成等领域效果显著。

然而，当研究团队把现有的数学领域PRM直接拿来用于数据分析时，却发现了令人头疼的问题。他们对三款当时最先进的PRM——Qwen2.5-Math-PRM-72B、GenPRM和ThinkPRM——在数据分析任务上进行了系统测试，测试平台选用的是DABStep基准数据集的子集，而策略模型（即执行分析任务的AI）则使用了参数量高达2350亿的Qwen3-235B-A22B-Instruct。

测试结果出乎意料。传统的"多数投票"策略——即让AI多次尝试同一个任务，最后看哪个答案出现最多次就选哪个——最终得分达到了45.33%。而这些顶级PRM引导下的"最优选择"策略，最高也只达到40%，全部败给了最简单的投票策略。换句话说，这些专门设计来当裁判的系统，在数据分析这个赛场上，表现还不如"民主投票"。这说明通用PRM对数据分析任务缺乏足够的辨别力。

**二、通用裁判的两大盲点——沉默的错误与被冤枉的探索**

深入分析之后，研究团队发现通用PRM在数据分析场景下存在两种典型的误判，而这两种误判的方向恰好相反。

第一种叫做"沉默错误"（Silent Errors）。在数据分析中，AI写的代码有时候能正常运行、不报任何异常，但最终产出的结果却是错的。举个具体的例子：AI助手声称自己已经在地图上画出了5.5公里的"危险缓冲区"，并将图像保存了下来。代码执行成功，没有任何报错信息。但实际上，那个缓冲区根本没有正确地画出来，图像中根本看不到那个区域。通用PRM读了代码，看到"执行成功"的反馈，就直接打了高分，完全没有去验证结果图像是否真的正确。

这就像一位质检员只看工人的操作流程记录，却不去实际检验产品质量一样——流程日志显示一切正常，但产品可能已经悄悄变质了。通用PRM因为只能"读文字"，无法主动去查验代码运行后的真实状态，所以对这类错误几乎完全无感。

第二种叫做"落地错误"（Grounding Errors）。数据分析任务中，AI在接触一个新数据文件时，往往不知道这个文件里的列名、数据格式是什么样的。就像你初次打开一份陌生的Excel表格，不知道哪列叫"销售额"、哪列叫"利润"，只能先猜一下，结果发现猜错了，再去看实际字段名，修改代码重新运行——这是完全正常的探索行为。

在真实的案例中，一个AI助手第一步尝试加载文件时，用了'dataset'这个键名去取数据，结果报错了，因为真实的键名是大写的'Dataset'。这一步出错，但AI接下来会从错误信息中学到正确的键名，然后修正代码继续推进。这个初始尝试本质上是一种"摸底"行为，属于可以自我纠正的探索步骤。

然而，通用PRM看到这一步报错，就直接给出低分，把它当成了一次严重失败。这就像教练看到运动员在热身时摔倒一次，就直接判定这场比赛失败一样——完全忽略了后续的成功纠正。研究团队收集了那些包含"落地错误"但最终得出正确答案的分析轨迹，将它们交给通用PRM评分，发现这些PRM大量给出了接近0分的低分，集中在0.2分附近大量堆积，完全看不出这些步骤最终导向了正确结果。

这两个盲点总结起来就是：通用PRM既会放过真正的错误（沉默错误），又会冤枉无辜的探索（落地错误）。一个合格的裁判，必须同时具备"主动核查结果"和"区分失误性质"的能力。

**三、DataPRM的设计思路——给裁判配上工具和智慧**

正是为了解决上述两个问题，研究团队设计了DataPRM。这个系统的名字中，"Data"代表它专为数据分析领域定制，"PRM"则代表过程奖励模型。DataPRM的核心理念可以用一句话概括：让裁判不只是旁观，而是主动下场验证。

DataPRM构建在一套叫做"ReAct"的框架之上。ReAct框架的基本思路是让AI交替进行"思考"和"行动"，每次行动后都会收到环境的反馈，然后再基于反馈继续思考。DataPRM把这套框架也引入到了裁判系统中——裁判不只是读一遍被评分的那一步操作，而是可以自己也动手写代码、执行代码、观察结果，通过多轮与数据环境的互动来判断那一步操作是否真的正确。

具体来说，当DataPRM拿到一个需要评分的步骤时，它首先读入整个历史操作轨迹和当前这一步的内容。然后，它开始自己的内部推理循环：生成一段验证代码，运行它，看看结果，再根据结果决定是否需要进一步验证，如此往复，直到它有足够的把握给出最终分数。这个内部验证过程是多轮的，平均下来大约进行2.57轮，每次验证约0.87次工具调用。

除了主动验证的能力，DataPRM还配备了两个专用工具。一个叫做query\_document，它能读取文档文件，回答关于文档内容的问题，由DeepSeek-V3.2模型驱动；另一个叫做query\_image，能分析图像内容，回答关于图像的问题，由Qwen3-VL-235B-A22B-Instruct这个视觉语言模型驱动。有了这两个工具，DataPRM就能真正"看"到图表是否画对了、文档中的规则是否被正确遵循了，而不只是靠读代码文字来猜测。

另一个关键设计是所谓的"三元奖励策略"（Reflection-Aware Ternary Reward Strategy）。传统PRM往往只有两档评分：对（1分）或错（0分）。DataPRM则引入了第三档：0.5分，专门对应那些"方向对但有小瑕疵，后续可以修正"的步骤，也就是前面提到的探索性落地错误。

从理论角度来看，研究团队用贝叶斯推理框架解释了这一设计的合理性。在数据分析这个"部分可观测"的环境中，AI对数据文件的真实结构是不完全了解的。通用PRM依赖训练时积累的内部先验知识来猜测环境状态，当遇到与训练数据分布不同的真实数据时，就会产生幻觉式的错误判断。DataPRM通过主动与环境交互，获得真实的观测证据，将不确定的先验更新为准确的后验，从而大幅降低奖励估计的误差。三元奖励的理论基础在于，在一个需要探索的环境中，一个步骤的奖励应当由两部分构成：对最终目标的实际推进（任务进展），以及对环境状态的信息增益（探索收获）。满分1分的步骤是两者兼得；0分步骤是两者皆无或产生了致命的错误逻辑；0.5分步骤则是虽然没有直接推进任务，但通过触发错误反馈获得了关键的环境信息。

**四、如何训练DataPRM——多样性比纯净度更重要**

一个裁判要判得准，自己首先得见过足够多的比赛。DataPRM的训练也是如此，研究团队为此设计了一套专门的数据生成流程。

数据来源上，研究团队参考了AutoSDT方法论，通过爬取GitHub上与科学数据分析相关的文件，加上人类专家的补充和修订，构建了一批真实的数据分析任务。对于每一个任务，研究团队用Qwen3-235B-A22B-Instruct作为策略模型，同时生成4条不同的分析轨迹（即4种不同的解题过程），然后用DeepSeek-V3.2判断这4条轨迹的最终答案是否一致。关键的筛选原则是：只保留那些"答案不一致"的任务，即4条轨迹中至少有一条答案不同于其他的任务。这样做的原因是，对于答案高度一致的简单任务，PRM的指导价值有限；而答案出现分歧的边界案例，才是PRM最需要发挥判断力的地方，也是最具训练价值的数据。

获得轨迹之后，研究团队将每条轨迹拆分为逐步的操作序列，交给Qwen3-235B-A22B-Instruct进行初步评分和错误归因。为了让注释更加系统化，他们借鉴了AutoManual框架，将类似的错误类型归并整合，再由人类专家核验这些错误类别的合理性，并将其整理成"少量样本示例"嵌入到最终标注的提示词中。最终的逐步标注工作由DeepSeek-V3.2完成，采用前述的三元奖励体系（0、0.5、1）打分，最终生成了超过7000条高质量的训练实例。

标注质量经过严格验证。研究团队随机抽取100条进行人工核查，模型标注的原始准确率达到86%，而衡量评分者一致性的"二次加权Cohen's κ"系数达到0.83，属于高度可信的水平。

有一个反直觉的实验发现值得重点介绍。研究团队测试了三种对训练数据进行进一步筛选的策略：元批评法（Meta-Critic）、结果一致性筛选（Outcome Consistency）和过程一致性筛选（Process Consistency）。直觉上，经过更严格筛选、更"干净"的数据应该能训练出更好的PRM。但实验结果恰恰相反——不做额外筛选、使用全量数据训练的DataPRM，在候选答案较多时（N=16）的性能反而最高，显著超过所有筛选版本。过程一致性筛选在候选较少（N=4）时有轻微优势，但在扩展候选池时迅速落败。

研究团队对此的解释是：严格筛选在提高数据纯净度的同时，也削减了数据的多样性，导致PRM接触到的步骤类型过于单一，变得过度保守，泛化能力下降。相比之下，全量数据涵盖更丰富的步骤分布，PRM从中学会了如何区分各种情形下的好步骤与坏步骤，在面对大量候选轨迹时能更有效地筛选出正确答案。这一发现对PRM领域的数据构建具有重要的启示意义：在探索空间较大的任务中，多样性的价值可能超过纯净度。

**五、实验验证——小个头裁判打败大块头选手**

DataPRM的实际表现用"以小胜大"来形容并不过分。训练好的DataPRM参数量只有40亿（4B），却在两个主要测试场景下表现出了令人印象深刻的竞争力。

第一个测试场景是"推理时扩展"（Test-Time Scaling，简称TTS），核心策略是"最优N选一"（Best-of-N）——让策略模型生成N个候选答案，由DataPRM评分后选出最优的那个。测试平台是ScienceAgentBench（涵盖科学数据分析任务）和DABStep（金融分析场景下的多步推理任务），策略模型统一使用Qwen3-235B-A22B-Instruct-2507。

在ScienceAgentBench上，DataPRM在N=16时达到25.64%的成功率，而参数量高达720亿的Qwen2.5-Math-PRM-72B在同等条件下只有20.51%，参数量为320亿的GenPRM也只有20.51%。在DABStep上，DataPRM在N=16时的平均准确率达到40.89%，同样领先于所有竞争对手，包括使用Qwen3-235B-A22B-Instruct进行"自我奖励"（Self-Rewarding，即让策略模型自己给自己打分）的策略（39.77%）。换句话说，一个40亿参数的专用裁判，打败了一个2350亿参数的通才选手用自己给自己打分的方式。参数效率大约是后者的58倍。

更值得关注的是随着N增大时各方法的表现趋势。通用PRM普遍存在"越选越差"的问题——当候选池扩大时，它们会把原本正确的答案排除掉，选中错误的答案。比如Qwen2.5-Math-PRM-72B从N=8到N=16，DABStep平均准确率从31.33%跌至29.11%。这种现象说明通用PRM没有真正学会区分数据分析中的好轨迹和坏轨迹，只是在随机波动。DataPRM则随着N增大稳步提升，从N=4的37.11%一路爬升到N=16的40.89%，展现出真实的鉴别能力。

研究团队还测试了另外两种更复杂的推理时扩展策略：束搜索（Beam Search）和多样化验证树搜索（Diverse Verifier Tree Search，DVTS）。在这两种更具挑战性的搜索方式下，DataPRM同样保持了稳定的性能提升，而其他基线方法则出现了明显的波动甚至下滑。特别是束搜索场景下，Qwen2.5-Math-PRM-72B的准确率随着搜索预算增加反而在震荡下行，这是典型的"奖励黑客"现象——搜索算法利用奖励模型的漏洞找到了评分高但实际错误的答案。DataPRM的评分更加可靠，不容易被搜索算法钻空子。

**六、强化学习中的应用——给AI助手持续成长的动力**

DataPRM不只能充当候选答案的筛选器，它还被引入到了AI助手的强化学习训练过程中，成为引导AI持续进步的信号源。

在强化学习框架下，研究团队使用Qwen2.5-Coder-7B-Instruct作为基础策略模型，对比了三种训练方式：仅用监督微调（SFT）、使用结果奖励的强化学习（RL with Outcome Reward）、使用DataPRM过程奖励的强化学习（RL with DataPRM）。测试平台选用了DABench（涵盖7类数据分析问题，来自52个CSV文件共257道题）和TableBench（覆盖18个领域的真实表格推理基准）。

结果显示，加入DataPRM过程奖励后，模型在DABench上的pass@1准确率达到78.73%，超过仅用结果奖励训练的76.0%；在TableBench上达到64.84%，同样优于结果奖励的61.5%。pass@3（即3次尝试中至少一次正确的概率）的差距则更为明显：DABench上过程奖励模型达到89.5%，远高于结果奖励的86.8%；TableBench上达到77.5%，高于结果奖励的74.5%。

训练过程中的动态变化揭示了更深层的原因。使用纯结果奖励训练时，模型在约200步后出现了"熵崩塌"现象——输出的多样性（熵）急剧下降到约0.12，奖励也随之停止增长。这说明模型陷入了一种固定模式，不再积极探索新的解法。相比之下，加入过程奖励后，模型的熵在整个训练过程中维持在约0.18的水平，奖励持续稳步上升。更高的熵意味着模型保持了更丰富的探索行为，这也正是pass@3指标持续提升的根本原因——模型不会在某一种固定的解题路径上"死磕"，而是能够在不同情况下灵活切换策略。

**七、消融实验——每个设计都有其必要性**

为了验证DataPRM各个组件的实际贡献，研究团队进行了细致的消融实验，逐步拆除各个功能模块，观察性能变化。

最基础的版本是纯链式思考（Chain-of-Thought，CoT），也就是DataPRM只用文字推理，不写代码、不与环境交互，也不使用三元奖励——这相当于一个"只能读文字、不能动手验证"的裁判。在DABStep的Hard子集上，N=16时准确率为32.01%。

接下来加入环境交互能力，但只允许单轮代码执行（Single-turn Code with Env）——裁判能写一段代码验证，看看结果，但不能基于结果继续追问。准确率提升到32.80%，说明哪怕只是"动手检查一次"也比"纯看文字"要好。

再加入多轮对话能力，但不连接真实环境（Multi-turn Code without Env）——裁判可以多轮推理，但执行的代码不能真正运行，相当于"纸上演练"。准确率提升到31.75%，相比单轮有所下降，说明多轮推理在缺乏真实反馈时效果有限。

将环境交互与多轮推理同时结合（Multi-turn Code with Env）——裁判既能多轮推理，又能真正执行代码、得到真实反馈。准确率大幅提升到32.80%，与单轮版本持平但在Easy子集上更稳定，且在更大N值下更有优势。

最后加入三元奖励策略，形成完整的DataPRM——准确率进一步提升到33.86%，在Easy子集上同样实现了提升，整体平均从39.77%跃升至40.89%。

这一层层递进的实验表明，环境交互是最关键的能力基础，多轮推理在与环境结合时才能充分发挥价值，而三元奖励策略则是在此基础上进一步精细化的关键一环。三者缺一不可，相互配合才能构成一个真正有效的过程裁判系统。

**归根结底，这项研究说明了什么**

说到底，DataPRM解决的核心问题是：如何让一个自动化的质量检验系统真正理解"数据分析"这件事的特殊性。数学题有标准答案，代码有编译结果，但数据分析既需要与真实数据文件打交道，又需要对探索性的中间步骤保持宽容，这两点使得通用裁判天然不适合这个场景。

浙江大学与蚂蚁集团的研究团队通过三个关键设计——主动与环境互动的验证机制、区分探索与失误的三元评分体系、以及以多样性为核心的数据构建策略——在只有40亿参数的小模型上实现了对参数量大数十倍的通用模型的超越。这对于整个AI数据科学领域具有实际的工程价值：不需要堆砌极大规模的模型，专门设计、精心训练的小型专用裁判同样可以成为强大的质量保证工具。

这项研究目前也留下了一些值得继续探索的方向。现有的DataPRM主要聚焦于数据推理和可视化任务，对于机器学习模型训练、预测建模等更复杂的工程性任务尚未涉及。此外，DataPRM当前采用监督微调的方式训练，对高质量标注数据的依赖较强，未来是否可以通过强化学习让裁判系统也能自我进化，将是一个值得深入研究的方向。

一个有趣的思考问题是：当AI助手越来越多地进入科研工作流，我们如何确保这些助手的"工作日志"是真实可信的，而不是表面漂亮、内里错误的？DataPRM提供了一种思路——让另一个AI扮演主动审查员的角色，但这个审查员本身的可靠性又如何保证？这或许是未来AI辅助科研领域最值得持续追问的问题之一。有兴趣深入了解DataPRM完整技术细节的读者，可以通过arXiv编号2604.24198查阅原始论文。

---

**Q&A**

Q1：DataPRM和普通数学领域的过程奖励模型有什么本质区别？

A：普通数学领域的过程奖励模型（如Qwen2.5-Math-PRM）只能静态阅读推理文本来判断步骤对错，不与外部环境互动。DataPRM的核心区别在于它能主动写代码、执行代码、调用图像和文档查询工具，像一个会自己动手验证的检查员，而不是只会读报告的审阅者。此外，DataPRM专门设计了三元评分体系（0、0.5、1），能够将"可修正的探索性错误"与"致命的逻辑错误"区分开来，避免冤枉正常的试探行为。

Q2：DataPRM的三档评分是怎么区分的，0.5分具体指什么情况？

A：DataPRM的满分1分代表步骤完全正确、直接推进任务目标；0分代表步骤存在根本性的逻辑错误或虚构信息，会将整个分析带入死胡同；0.5分则是专门留给"方向对、但有小毛病"的步骤，典型例子是：第一次打开数据文件时猜错了列名导致报错，但这次报错本身为后续修正提供了关键信息，AI能够从中学习并在下一步改正。这种情况下既不能给满分，也不应重罚，0.5分是对这种探索价值的合理承认。

Q3：DataPRM的训练数据为什么故意保留"答案不一致"的任务而不追求高质量纯净数据？

A：这是研究中的一个反直觉发现。如果所有训练任务的答案都高度一致，说明这些任务对AI来说太简单，裁判系统从中学不到太多区分好坏的经验。研究团队专门筛选出4条轨迹答案不完全一致的"边界案例"，是因为这类任务才是裁判最需要发力的地方。而且实验结果证明，不对数据做额外筛选、保留全量多样化数据，反而比各种"提纯"策略训练出来的裁判在大候选池情况下表现更好，说明多样性对裁判泛化能力的价值高于数据的绝对纯净度。

过程奖励模型数据分析智能体三元奖励机制

分享至