
这项由浙江大学与蚂蚁集团联合开展的研究,于2026年4月以预印本形式发布在arXiv平台,论文编号为arXiv:2604.24198,题为《Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis》(奖励科学过程:面向智能体数据分析的过程级奖励建模)。感兴趣的读者可通过上述编号在arXiv检索完整论文。
**研究概要:当AI"助手"开始"蒙混过关"**
假设你雇了一个助手帮你整理一份重要的财务报告。这个助手勤劳肯干,每次交给你的报告看起来都格式整齐、图文并茂,而且从来不说"我不知道"——每次都给出一个看起来完全合理的答案。问题是,你后来发现他有时候把某列数据算错了,但因为他不报告错误、照常完成工作,你根本没法发现。更糟的是,当他第一次打开文件、发现列名和自己预期的不一样时,你的监管系统却把这次"试探性的摸索"判定为一次严重失误,直接扣分。
这正是当前AI数据分析领域面临的真实困境。AI模型(也就是"大语言模型")已经能够扮演数据分析助手的角色,自动写代码、运行程序、生成图表。但如何评判这个助手每一步做得好不好,目前业界还没有一套真正可靠的裁判机制。浙江大学与蚂蚁集团的研究团队正是为了解决这个"裁判问题",提出了一个名为DataPRM的新型评分系统,专门负责对AI数据分析助手的每一个操作步骤进行精准打分,而不仅仅是等到最后结果出来再评判好坏。
**一、裁判为何如此重要——从"只看结果"到"盯紧过程"**
在AI领域,有一种被称为"奖励模型"的机制,它的作用就像体育比赛里的裁判,告诉AI哪些做法是对的、哪些是错的,从而引导AI不断改进。过去,大多数数据分析领域的AI系统都采用"结果奖励"的方式——只要最终答案对了,不管中间过程怎么折腾,都算成功。这种方式放在简单任务上还凑合,但在数据分析这种需要层层递进、环环相扣的复杂科研任务中,问题就暴露出来了。
与此同时,数学推理领域已经发展出了一套叫做"过程奖励模型"(Process Reward Model,简称PRM)的技术。这套机制不只看最终答案,而是对AI的每一个推理步骤都进行评分,就像老师批改解题过程一样,步步追踪,绝不放过中间的任何错误。这种方式在数学题、代码生成等领域效果显著。
然而,当研究团队把现有的数学领域PRM直接拿来用于数据分析时,却发现了令人头疼的问题。他们对三款当时最先进的PRM——Qwen2.5-Math-PRM-72B、GenPRM和ThinkPRM——在数据分析任务上进行了系统测试,测试平台选用的是DABStep基准数据集的子集,而策略模型(即执行分析任务的AI)则使用了参数量高达2350亿的Qwen3-235B-A22B-Instruct。
测试结果出乎意料。传统的"多数投票"策略——即让AI多次尝试同一个任务,最后看哪个答案出现最多次就选哪个——最终得分达到了45.33%。而这些顶级PRM引导下的"最优选择"策略,最高也只达到40%,全部败给了最简单的投票策略。换句话说,这些专门设计来当裁判的系统,在数据分析这个赛场上,表现还不如"民主投票"。这说明通用PRM对数据分析任务缺乏足够的辨别力。
**二、通用裁判的两大盲点——沉默的错误与被冤枉的探索**
深入分析之后,研究团队发现通用PRM在数据分析场景下存在两种典型的误判,而这两种误判的方向恰好相反。
第一种叫做"沉默错误"(Silent Errors)。在数据分析中,AI写的代码有时候能正常运行、不报任何异常,但最终产出的结果却是错的。举个具体的例子:AI助手声称自己已经在地图上画出了5.5公里的"危险缓冲区",并将图像保存了下来。代码执行成功,没有任何报错信息。但实际上,那个缓冲区根本没有正确地画出来,图像中根本看不到那个区域。通用PRM读了代码,看到"执行成功"的反馈,就直接打了高分,完全没有去验证结果图像是否真的正确。
这就像一位质检员只看工人的操作流程记录,却不去实际检验产品质量一样——流程日志显示一切正常,但产品可能已经悄悄变质了。通用PRM因为只能"读文字",无法主动去查验代码运行后的真实状态,所以对这类错误几乎完全无感。
第二种叫做"落地错误"(Grounding Errors)。数据分析任务中,AI在接触一个新数据文件时,往往不知道这个文件里的列名、数据格式是什么样的。就像你初次打开一份陌生的Excel表格,不知道哪列叫"销售额"、哪列叫"利润",只能先猜一下,结果发现猜错了,再去看实际字段名,修改代码重新运行——这是完全正常的探索行为。
在真实的案例中,一个AI助手第一步尝试加载文件时,用了'dataset'这个键名去取数据,结果报错了,因为真实的键名是大写的'Dataset'。这一步出错,但AI接下来会从错误信息中学到正确的键名,然后修正代码继续推进。这个初始尝试本质上是一种"摸底"行为,属于可以自我纠正的探索步骤。
然而,通用PRM看到这一步报错,就直接给出低分,把它当成了一次严重失败。这就像教练看到运动员在热身时摔倒一次,就直接判定这场比赛失败一样——完全忽略了后续的成功纠正。研究团队收集了那些包含"落地错误"但最终得出正确答案的分析轨迹,将它们交给通用PRM评分,发现这些PRM大量给出了接近0分的低分,集中在0.2分附近大量堆积,完全看不出这些步骤最终导向了正确结果。
这两个盲点总结起来就是:通用PRM既会放过真正的错误(沉默错误),又会冤枉无辜的探索(落地错误)。一个合格的裁判,必须同时具备"主动核查结果"和"区分失误性质"的能力。
**三、DataPRM的设计思路——给裁判配上工具和智慧**
正是为了解决上述两个问题,研究团队设计了DataPRM。这个系统的名字中,"Data"代表它专为数据分析领域定制,"PRM"则代表过程奖励模型。DataPRM的核心理念可以用一句话概括:让裁判不只是旁观,而是主动下场验证。
DataPRM构建在一套叫做"ReAct"的框架之上。ReAct框架的基本思路是让AI交替进行"思考"和"行动",每次行动后都会收到环境的反馈,然后再基于反馈继续思考。DataPRM把这套框架也引入到了裁判系统中——裁判不只是读一遍被评分的那一步操作,而是可以自己也动手写代码、执行代码、观察结果,通过多轮与数据环境的互动来判断那一步操作是否真的正确。
具体来说,当DataPRM拿到一个需要评分的步骤时,它首先读入整个历史操作轨迹和当前这一步的内容。然后,它开始自己的内部推理循环:生成一段验证代码,运行它,看看结果,再根据结果决定是否需要进一步验证,如此往复,直到它有足够的把握给出最终分数。这个内部验证过程是多轮的,平均下来大约进行2.57轮,每次验证约0.87次工具调用。
除了主动验证的能力,DataPRM还配备了两个专用工具。一个叫做query\_document,它能读取文档文件,回答关于文档内容的问题,由DeepSeek-V3.2模型驱动;另一个叫做query\_image,能分析图像内容,回答关于图像的问题,由Qwen3-VL-235B-A22B-Instruct这个视觉语言模型驱动。有了这两个工具,DataPRM就能真正"看"到图表是否画对了、文档中的规则是否被正确遵循了,而不只是靠读代码文字来猜测。
另一个关键设计是所谓的"三元奖励策略"(Reflection-Aware Ternary Reward Strategy)。传统PRM往往只有两档评分:对(1分)或错(0分)。DataPRM则引入了第三档:0.5分,专门对应那些"方向对但有小瑕疵,后续可以修正"的步骤,也就是前面提到的探索性落地错误。
从理论角度来看,研究团队用贝叶斯推理框架解释了这一设计的合理性。在数据分析这个"部分可观测"的环境中,AI对数据文件的真实结构是不完全了解的。通用PRM依赖训练时积累的内部先验知识来猜测环境状态,当遇到与训练数据分布不同的真实数据时,就会产生幻觉式的错误判断。DataPRM通过主动与环境交互,获得真实的观测证据,将不确定的先验更新为准确的后验,从而大幅降低奖励估计的误差。三元奖励的理论基础在于,在一个需要探索的环境中,一个步骤的奖励应当由两部分构成:对最终目标的实际推进(任务进展),以及对环境状态的信息增益(探索收获)。满分1分的步骤是两者兼得;0分步骤是两者皆无或产生了致命的错误逻辑;0.5分步骤则是虽然没有直接推进任务,但通过触发错误反馈获得了关键的环境信息。
**四、如何训练DataPRM——多样性比纯净度更重要**
一个裁判要判得准,自己首先得见过足够多的比赛。DataPRM的训练也是如此,研究团队为此设计了一套专门的数据生成流程。
数据来源上,研究团队参考了AutoSDT方法论,通过爬取GitHub上与科学数据分析相关的文件,加上人类专家的补充和修订,构建了一批真实的数据分析任务。对于每一个任务,研究团队用Qwen3-235B-A22B-Instruct作为策略模型,同时生成4条不同的分析轨迹(即4种不同的解题过程),然后用DeepSeek-V3.2判断这4条轨迹的最终答案是否一致。关键的筛选原则是:只保留那些"答案不一致"的任务,即4条轨迹中至少有一条答案不同于其他的任务。这样做的原因是,对于答案高度一致的简单任务,PRM的指导价值有限;而答案出现分歧的边界案例,才是PRM最需要发挥判断力的地方,也是最具训练价值的数据。
获得轨迹之后,研究团队将每条轨迹拆分为逐步的操作序列,交给Qwen3-235B-A22B-Instruct进行初步评分和错误归因。为了让注释更加系统化,他们借鉴了AutoManual框架,将类似的错误类型归并整合,再由人类专家核验这些错误类别的合理性,并将其整理成"少量样本示例"嵌入到最终标注的提示词中。最终的逐步标注工作由DeepSeek-V3.2完成,采用前述的三元奖励体系(0、0.5、1)打分,最终生成了超过7000条高质量的训练实例。
标注质量经过严格验证。研究团队随机抽取100条进行人工核查,模型标注的原始准确率达到86%,而衡量评分者一致性的"二次加权Cohen's κ"系数达到0.83,属于高度可信的水平。
有一个反直觉的实验发现值得重点介绍。研究团队测试了三种对训练数据进行进一步筛选的策略:元批评法(Meta-Critic)、结果一致性筛选(Outcome Consistency)和过程一致性筛选(Process Consistency)。直觉上,经过更严格筛选、更"干净"的数据应该能训练出更好的PRM。但实验结果恰恰相反——不做额外筛选、使用全量数据训练的DataPRM,在候选答案较多时(N=16)的性能反而最高,显著超过所有筛选版本。过程一致性筛选在候选较少(N=4)时有轻微优势,但在扩展候选池时迅速落败。
研究团队对此的解释是:严格筛选在提高数据纯净度的同时,也削减了数据的多样性,导致PRM接触到的步骤类型过于单一,变得过度保守,泛化能力下降。相比之下,全量数据涵盖更丰富的步骤分布,PRM从中学会了如何区分各种情形下的好步骤与坏步骤,在面对大量候选轨迹时能更有效地筛选出正确答案。这一发现对PRM领域的数据构建具有重要的启示意义:在探索空间较大的任务中,多样性的价值可能超过纯净度。
**五、实验验证——小个头裁判打败大块头选手**
DataPRM的实际表现用"以小胜大"来形容并不过分。训练好的DataPRM参数量只有40亿(4B),却在两个主要测试场景下表现出了令人印象深刻的竞争力。
第一个测试场景是"推理时扩展"(Test-Time Scaling,简称TTS),核心策略是"最优N选一"(Best-of-N)——让策略模型生成N个候选答案,由DataPRM评分后选出最优的那个。测试平台是ScienceAgentBench(涵盖科学数据分析任务)和DABStep(金融分析场景下的多步推理任务),策略模型统一使用Qwen3-235B-A22B-Instruct-2507。
在ScienceAgentBench上,DataPRM在N=16时达到25.64%的成功率,而参数量高达720亿的Qwen2.5-Math-PRM-72B在同等条件下只有20.51%,参数量为320亿的GenPRM也只有20.51%。在DABStep上,DataPRM在N=16时的平均准确率达到40.89%,同样领先于所有竞争对手,包括使用Qwen3-235B-A22B-Instruct进行"自我奖励"(Self-Rewarding,即让策略模型自己给自己打分)的策略(39.77%)。换句话说,一个40亿参数的专用裁判,打败了一个2350亿参数的通才选手用自己给自己打分的方式。参数效率大约是后者的58倍。
更值得关注的是随着N增大时各方法的表现趋势。通用PRM普遍存在"越选越差"的问题——当候选池扩大时,它们会把原本正确的答案排除掉,选中错误的答案。比如Qwen2.5-Math-PRM-72B从N=8到N=16,DABStep平均准确率从31.33%跌至29.11%。这种现象说明通用PRM没有真正学会区分数据分析中的好轨迹和坏轨迹,只是在随机波动。DataPRM则随着N增大稳步提升,从N=4的37.11%一路爬升到N=16的40.89%,展现出真实的鉴别能力。
研究团队还测试了另外两种更复杂的推理时扩展策略:束搜索(Beam Search)和多样化验证树搜索(Diverse Verifier Tree Search,DVTS)。在这两种更具挑战性的搜索方式下,DataPRM同样保持了稳定的性能提升,而其他基线方法则出现了明显的波动甚至下滑。特别是束搜索场景下,Qwen2.5-Math-PRM-72B的准确率随着搜索预算增加反而在震荡下行,这是典型的"奖励黑客"现象——搜索算法利用奖励模型的漏洞找到了评分高但实际错误的答案。DataPRM的评分更加可靠,不容易被搜索算法钻空子。
**六、强化学习中的应用——给AI助手持续成长的动力**
DataPRM不只能充当候选答案的筛选器,它还被引入到了AI助手的强化学习训练过程中,成为引导AI持续进步的信号源。
在强化学习框架下,研究团队使用Qwen2.5-Coder-7B-Instruct作为基础策略模型,对比了三种训练方式:仅用监督微调(SFT)、使用结果奖励的强化学习(RL with Outcome Reward)、使用DataPRM过程奖励的强化学习(RL with DataPRM)。测试平台选用了DABench(涵盖7类数据分析问题,来自52个CSV文件共257道题)和TableBench(覆盖18个领域的真实表格推理基准)。
结果显示,加入DataPRM过程奖励后,模型在DABench上的pass@1准确率达到78.73%,超过仅用结果奖励训练的76.0%;在TableBench上达到64.84%,同样优于结果奖励的61.5%。pass@3(即3次尝试中至少一次正确的概率)的差距则更为明显:DABench上过程奖励模型达到89.5%,远高于结果奖励的86.8%;TableBench上达到77.5%,高于结果奖励的74.5%。
训练过程中的动态变化揭示了更深层的原因。使用纯结果奖励训练时,模型在约200步后出现了"熵崩塌"现象——输出的多样性(熵)急剧下降到约0.12,奖励也随之停止增长。这说明模型陷入了一种固定模式,不再积极探索新的解法。相比之下,加入过程奖励后,模型的熵在整个训练过程中维持在约0.18的水平,奖励持续稳步上升。更高的熵意味着模型保持了更丰富的探索行为,这也正是pass@3指标持续提升的根本原因——模型不会在某一种固定的解题路径上"死磕",而是能够在不同情况下灵活切换策略。
**七、消融实验——每个设计都有其必要性**
为了验证DataPRM各个组件的实际贡献,研究团队进行了细致的消融实验,逐步拆除各个功能模块,观察性能变化。
最基础的版本是纯链式思考(Chain-of-Thought,CoT),也就是DataPRM只用文字推理,不写代码、不与环境交互,也不使用三元奖励——这相当于一个"只能读文字、不能动手验证"的裁判。在DABStep的Hard子集上,N=16时准确率为32.01%。
接下来加入环境交互能力,但只允许单轮代码执行(Single-turn Code with Env)——裁判能写一段代码验证,看看结果,但不能基于结果继续追问。准确率提升到32.80%,说明哪怕只是"动手检查一次"也比"纯看文字"要好。
再加入多轮对话能力,但不连接真实环境(Multi-turn Code without Env)——裁判可以多轮推理,但执行的代码不能真正运行,相当于"纸上演练"。准确率提升到31.75%,相比单轮有所下降,说明多轮推理在缺乏真实反馈时效果有限。
将环境交互与多轮推理同时结合(Multi-turn Code with Env)——裁判既能多轮推理,又能真正执行代码、得到真实反馈。准确率大幅提升到32.80%,与单轮版本持平但在Easy子集上更稳定,且在更大N值下更有优势。
最后加入三元奖励策略,形成完整的DataPRM——准确率进一步提升到33.86%,在Easy子集上同样实现了提升,整体平均从39.77%跃升至40.89%。
这一层层递进的实验表明,环境交互是最关键的能力基础,多轮推理在与环境结合时才能充分发挥价值,而三元奖励策略则是在此基础上进一步精细化的关键一环。三者缺一不可,相互配合才能构成一个真正有效的过程裁判系统。
**归根结底,这项研究说明了什么**
说到底,DataPRM解决的核心问题是:如何让一个自动化的质量检验系统真正理解"数据分析"这件事的特殊性。数学题有标准答案,代码有编译结果,但数据分析既需要与真实数据文件打交道,又需要对探索性的中间步骤保持宽容,这两点使得通用裁判天然不适合这个场景。
浙江大学与蚂蚁集团的研究团队通过三个关键设计——主动与环境互动的验证机制、区分探索与失误的三元评分体系、以及以多样性为核心的数据构建策略——在只有40亿参数的小模型上实现了对参数量大数十倍的通用模型的超越。这对于整个AI数据科学领域具有实际的工程价值:不需要堆砌极大规模的模型,专门设计、精心训练的小型专用裁判同样可以成为强大的质量保证工具。
这项研究目前也留下了一些值得继续探索的方向。现有的DataPRM主要聚焦于数据推理和可视化任务,对于机器学习模型训练、预测建模等更复杂的工程性任务尚未涉及。此外,DataPRM当前采用监督微调的方式训练,对高质量标注数据的依赖较强,未来是否可以通过强化学习让裁判系统也能自我进化,将是一个值得深入研究的方向。
一个有趣的思考问题是:当AI助手越来越多地进入科研工作流,我们如何确保这些助手的"工作日志"是真实可信的,而不是表面漂亮、内里错误的?DataPRM提供了一种思路——让另一个AI扮演主动审查员的角色,但这个审查员本身的可靠性又如何保证?这或许是未来AI辅助科研领域最值得持续追问的问题之一。有兴趣深入了解DataPRM完整技术细节的读者,可以通过arXiv编号2604.24198查阅原始论文。
---
**Q&A**
Q1:DataPRM和普通数学领域的过程奖励模型有什么本质区别?
A:普通数学领域的过程奖励模型(如Qwen2.5-Math-PRM)只能静态阅读推理文本来判断步骤对错,不与外部环境互动。DataPRM的核心区别在于它能主动写代码、执行代码、调用图像和文档查询工具,像一个会自己动手验证的检查员,而不是只会读报告的审阅者。此外,DataPRM专门设计了三元评分体系(0、0.5、1),能够将"可修正的探索性错误"与"致命的逻辑错误"区分开来,避免冤枉正常的试探行为。
Q2:DataPRM的三档评分是怎么区分的,0.5分具体指什么情况?
A:DataPRM的满分1分代表步骤完全正确、直接推进任务目标;0分代表步骤存在根本性的逻辑错误或虚构信息,会将整个分析带入死胡同;0.5分则是专门留给"方向对、但有小毛病"的步骤,典型例子是:第一次打开数据文件时猜错了列名导致报错,但这次报错本身为后续修正提供了关键信息,AI能够从中学习并在下一步改正。这种情况下既不能给满分,也不应重罚,0.5分是对这种探索价值的合理承认。
Q3:DataPRM的训练数据为什么故意保留"答案不一致"的任务而不追求高质量纯净数据?
A:这是研究中的一个反直觉发现。如果所有训练任务的答案都高度一致,说明这些任务对AI来说太简单,裁判系统从中学不到太多区分好坏的经验。研究团队专门筛选出4条轨迹答案不完全一致的"边界案例",是因为这类任务才是裁判最需要发力的地方。而且实验结果证明,不对数据做额外筛选、保留全量多样化数据,反而比各种"提纯"策略训练出来的裁判在大候选池情况下表现更好,说明多样性对裁判泛化能力的价值高于数据的绝对纯净度。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。