微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

圣路易斯华盛顿大学团队让AI"知道自己几斤几两"：给推理奖励模型装上"自信度仪表盘"

人工智能过程奖励模型不确定性估计

圣路易斯华盛顿大学团队让AI"知道自己几斤几两"：给推理奖励模型装上"自信度仪表盘"

作者：科技行者

2026-05-26 16:45

分享至：

这项研究提出BetaPRM，让过程奖励模型在输出步骤分数的同时预测该分数的置信度，从而使AI推理评判更诚实，并据此节省最多33%的推理算力。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-26 16:45 • 科技行者

这项由圣路易斯华盛顿大学与新加坡科技设计大学联合开展的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2605.15529，有兴趣深入了解的读者可通过该编号查询完整原文。

你有没有遇到过这样的情况：朋友信誓旦旦地告诉你某家餐厅很好吃，结果去了之后大失所望。事后一问，原来他也只是"听别人说的"，自己根本没去过。问题不在于他说错了，而在于他说话时的口气，让你以为他是亲身体验过的。如果当时他能补一句"不过我也不太确定，你最好再查查"，你就会多留个心眼，不至于完全押宝在他的推荐上。

现在的人工智能推理系统面临着完全相同的困境。当AI一步一步解题时，有一类叫做"过程奖励模型"的评判员在旁边打分，告诉系统哪一步走对了、哪一步走歪了。然而，这个评判员每次出分都是一个干巴巴的数字，从不说明这个分数是"十拿九稳"还是"我也没把握"。下游的决策系统只能把这个分数当成铁板钉钉的真理照单全收，哪怕评判员其实心里也在打鼓。研究团队把这个问题描述得非常形象：一个分数只能告诉你系统更喜欢哪个选项，但完全不能告诉你这个偏好值不值得信任。

这支研究团队的解决方案是：给过程奖励模型装上一块"自信度仪表盘"。他们把这个新模型命名为BetaPRM。这块仪表盘不仅会给出一个分数，还会同时告诉你这个分数背后的把握程度——是胸有成竹的高分，还是将信将疑的高分。有了这个额外信号，后续的决策系统就能区分哪些判断可以放心依赖，哪些判断需要谨慎对待，从而做出更聪明的选择。

一、AI解题时的"评判员"是怎么工作的

要理解这项研究解决了什么问题，先要了解AI是怎么一步步解数学题的，以及谁在旁边给它打分。

当一个大型语言模型解一道复杂的数学题时，它不会一口气蹦出答案，而是分步推导，就像人类在草稿纸上一行一行写解题过程一样。整个推导链条可能有五步、十步甚至更多。过程奖励模型（Process Reward Model，简称PRM）的工作，就是在每一步结束后评估：这一步走得对不对，沿着这条路继续走下去，最终能不能得出正确答案？

这个评估的本质其实是一个概率问题：从当前这个位置出发，成功的可能性有多大？为了训练PRM去估计这个概率，研究者采用了一种叫做"蒙特卡洛延续采样"的方法。操作起来并不神秘：从某一步推导结束的位置出发，让AI继续把后面的步骤自动补完，重复很多次，然后数一数有多少次最终得到了正确答案。假设补完了16次，有10次答对了，那这一步的"成功率"就估计为10/16，也就是62.5%。

问题就藏在这里。这个62.5%只是一次抽样估计，不是真实的成功概率。如果你从同一个位置再抽一次16个样本，很可能得到9/16或者11/16，结果会有些许不同。样本数量有限，噪音无可避免。然而，过去的PRM训练方法会把这个粗糙的抽样比例直接当成"精确答案"来拟合，强迫模型把这个有噪声的数字当成金科玉律死记硬背——这就像老师每次出的参考答案都有点随机偏差，学生却被要求精确背诵，自然会学出问题来。

二、分数背后的不确定性，被长期无视了

过去的方案还有另一个更根本的问题：即便训练好了，PRM输出的也只是一个孤零零的数字。假设模型给某一步打了0.8分，这意味着什么？它可能意味着"我非常确信这一步对，我的置信区间很窄"，也可能意味着"我估计大概是0.8，但其实0.5到1.0的范围内都有可能，我也不太确定"。这两种情况对于后续决策来说完全不同，但最终呈现出来的都是同一个数字0.8，让人无从区分。

研究团队用了一个很直观的比方来描述这个缺陷：你能听到一个人说"这道菜味道不错"，却听不出他是真的吃过并且每次都觉得好吃，还是只吃过一次碰巧觉得还行。前者是可靠的口碑，后者只是一次偶然的印象。

这就是BetaPRM的切入点：既然单一分数无法传达可靠性信息，那就让模型同时输出两个量——一个是"预期成功概率"（这一步走下去大概有多大把握），另一个是"置信浓度"（这个概率估计有多可靠、有多集中）。

三、贝塔分布：用概率来描述概率

研究团队解决这个问题的数学工具叫做"贝塔分布"。这个名字听起来有点吓人，但背后的直觉相当朴素，可以用一个生活化的场景来理解。

假设你在做一道菜，需要判断今天的炒锅是否足够热。你往锅里弹几滴水，观察水是否迅速蒸发。但你只能弹几滴，不能弹几百滴，所以你的判断有一定的不确定性。如果弹了5滴全部瞬间蒸发，你会比较有把握锅已经够热了——你的判断很"集中"，不确定性较小。如果弹了5滴有3滴蒸发、2滴没有，你就没那么确定了——你的判断比较"分散"，不确定性较大。

贝塔分布就是用来描述这种"对某个概率的信念"的工具。它不是一个单一的数字，而是一条曲线，描述了"真实成功概率最可能落在哪个范围内"。这条曲线有两个关键参数：中心位置（均值μ，表示你最倾向于相信的成功概率是多少）和集中程度（浓度κ，表示你对这个估计有多自信）。浓度高时，曲线像一座尖峰，说明你对成功概率的判断很集中、很确定；浓度低时，曲线平坦宽阔，说明你认为真实概率可能在很大范围内变动，你的判断比较分散、不太确定。

BetaPRM的核心思想就是：不要让模型直接预测一个固定的成功概率，而是让模型预测一个贝塔分布——告诉我们"你认为成功概率的分布长什么样"。这样，均值μ就扮演了过去那个单一分数的角色（步骤质量的估计），而浓度κ则承担了全新的使命（这个估计有多可靠）。

四、用"计数观测"替代"点标签"：更诚实的训练方式

理解了贝塔分布，就能明白BetaPRM的训练方式为什么更合理了。

传统PRM的训练是这样的：拿到某一步的蒙特卡洛结果（比如16次中成功10次），把10/16=0.625这个比例当成标准答案，让模型去拟合这个数字。这相当于老师告诉学生"这道题的标准答案就是0.625"，但这个答案本身是带噪声的，换一批样本可能就变成0.5或者0.7了。

BetaPRM的训练则换了一种思路：不要把比例当成标准答案，而是把"16次中有10次成功"这个事实本身当成观测数据。然后问：如果模型预测的贝塔分布是这样的，它给"16次中出现10次成功"这个结果打出的概率有多高？如果模型预测的分布使得这个计数结果出现的概率很高，说明模型的判断与真实情况吻合；如果概率很低，说明模型的判断与观测数据矛盾。

这就是所谓的"贝塔-二项式似然"——把成功次数当成一个随机变量，而非把成功比例当成固定的真值。这种处理方式尊重了采样的随机性：模型不再被强迫背诵有噪声的比例，而是去解释真实的计数过程。打个比方，这就像是把考试从"背诵老师给的带点错误的笔记"改成了"理解现象背后的真实规律"，后者要稳健得多。

在此基础上，研究团队还加了一个辅助的"校准惩罚项"。它的逻辑很直接：如果模型预测的成功概率（均值μ）与实际观测到的成功比例差很远，那么模型声称的高置信度（高浓度κ）就是不诚实的，应该受到惩罚。这就像一个人明明猜错了，却还声称自己超级确定，这种自大应该被纠正。这个惩罚项专门压制这种情况：在预测偏差大的时候，强制降低置信度，迫使模型更诚实地表达不确定性。值得注意的是，这个惩罚项设计上有一个精妙的细节：它只调整置信度κ，不会把均值μ拉向带噪声的观测比例，否则就又退回了点标签回归的老路。

五、模型的"硬件结构"：两个输出头，各司其职

从工程实现的角度，BetaPRM的结构调整并不复杂。原有的过程奖励模型在每个推理步骤结束后，会在语言模型的输出中查看"Yes"和"No"这两个词的分数，用它们的相对大小来计算步骤成功的概率——Yes的分数越高，就认为这步越正确。

BetaPRM保留了这个计算均值μ的方式，分毫未改。新增的只是一个轻量级的线性映射层，它读取同一位置的隐藏状态，专门输出浓度参数κ。这两条"通道"是独立的：一条告诉你这一步有多可能成功，另一条告诉你这个判断有多可信。两个参数合在一起，就能重建出完整的贝塔分布。

这个设计的好处是：对于不需要不确定性信息的场合，完全可以忽略κ，只用μ，跟原来的PRM用法一模一样，不会破坏任何既有功能。对于需要可靠性信息的场合，κ就成了额外的宝贵信号。这就像给一辆普通轿车加装了油耗显示屏——原来的驾驶功能没有任何影响，但司机现在可以获得额外的参考信息来决定什么时候加油。

六、训练过程中，置信度是怎么"学会"的

研究团队在训练过程中观测到了一个有趣的现象，进一步验证了BetaPRM的学习机制是合理的。

他们追踪了训练过程中浓度参数κ的均值和90百分位数的变化曲线。在四个不同规模的模型上，都出现了相同的规律：训练一开始，κ急剧下降，然后缓慢回升，最终稳定在一个比初始值更低但比最低点高得多的水平。

这个"先降后升"的模式其实非常符合直觉。训练初期，模型还不知道如何预测步骤成功概率，均值μ的估计到处乱飞，与观测数据差距很大。这时候如果声称高置信度，就会被校准惩罚项狠狠惩罚，所以模型迅速学会了"先保守一点，降低自信"。随着训练推进，模型逐渐学会更准确地估计μ，预测与观测的偏差减小，置信度可以安全地提高，κ就自然回升了。

更有意思的是90百分位数的行为。在回升阶段，高置信度的尾部（κ最大的那些预测）比均值恢复得更猛，与均值之间的差距越来越大。这说明模型并不是简单地对所有预测都提高置信度，而是形成了分化：对于那些有充分证据支持的预测，模型给出高浓度；对于证据不足的预测，保持低浓度。这种分化正是可靠性信号有用的前提——如果所有预测的置信度都差不多，那κ就没有区分价值了。

七、这块"仪表盘"在解题比赛中表现如何

研究团队在四个数学推理基准测试上验证了BetaPRM的效果，使用了四个不同的模型作为评估基础，候选答案池都由同一个模型（InternVL2.5-8B）生成，确保比较的公平性。

这里需要理解一个叫做"Best-of-N选择"的评估方式。原理很简单：让AI生成N个不同的解题方案，然后用PRM给每个方案打分，选出得分最高的那个作为最终答案。这个过程就像是让16个学生同时做同一道题，然后请一个专家把最好的那份答卷挑出来交给老师。专家越聪明，挑出来的答卷就越好。

在这个框架下，标准PRM的选择规则是简单地计算每个方案所有步骤得分的平均值。BetaPRM则用了一个"风险调整"得分：基础分仍然是步骤得分均值μ，但对不确定性大（σ超过阈值τ）的步骤施加额外惩罚，优先选择那些不仅得分高、而且得分可靠的方案。

实验结果显示，在所有四个骨干模型和四个基准测试的组合上，BetaPRM都优于标准PRM。具体来说，在不同骨干模型上的平均提升幅度分别为：使用InternVL3-14B时提升1.29个百分点，使用InternVL3-8B时提升1.46个百分点，使用InternVL2.5-8B时提升3.37个百分点，使用Qwen2.5-VL-7B时提升2.66个百分点。

与此同时，研究团队还验证了BetaPRM不会"顾此失彼"。他们在一个专门用于检测推理步骤错误的基准（VisualProcessBench）上评估了两种模型——这个任务要求模型判断每一步推导是否出错，类似于让专家逐行审阅学生的草稿。结果显示，BetaPRM在这个任务上的表现与标准PRM相当：在部分骨干模型上持平，在部分骨干模型上略有提升，在个别情况下略低。总体而言，换用贝塔-二项式训练目标并没有损害模型识别错误步骤的基本能力。这说明两种能力是可以共存的，增加可靠性信号并不需要牺牲判断准确性。

八、"自适应计算分配"：把省下的算力花在刀刃上

有了可靠性信号之后，研究团队还展示了一个具体的应用场景，他们称之为"自适应计算分配"（Adaptive Computation Allocation，ACA）。

回到那个16个学生答题的比方。固定预算的Best-of-N做法是：一口气让16个学生都把题做完，然后再让专家挑选。这样做有时候很浪费：如果前4个学生里就有一个明显很好、而且专家对这个判断非常有把握，那后面12个学生的时间就白费了。反过来，如果前4个学生的答案都差不多，专家也不确定选哪个好，那就值得让更多学生来做，增加出现高质量答案的机会。

ACA正是把这种直觉系统化了。它的工作流程分为几个阶段。一开始只生成一小批候选答案（比如4个）。BetaPRM对每个答案的每一步打分，同时估计每个分数的可靠性。基于这些信息，ACA构建了每个候选答案的"乐观分数上限"和"悲观分数下限"：乐观上限是分数加上不确定性缓冲，悲观下限是分数减去不确定性缓冲。

停止条件的判断很清晰：如果当前得分最高的候选答案，其悲观下限已经超过了所有其他候选答案的乐观上限，那就可以停下来了——即使最乐观地看待竞争者，也没有一个能超过当前冠军的最保守估计。这时候继续生成更多候选几乎不会改变最终选择，浪费算力没有意义。

如果停止条件不满足，ACA会继续生成新的候选答案，但不是随机生成。它会把注意力集中在"最有竞争力的非冠军候选"上——那个乐观上限最高、最可能在更多信息下翻盘的竞争者。在生成新候选时，ACA不会从头开始，而是找到这个竞争者中最薄弱的步骤（评分低且不确定性大的地方），从那个位置截断，让AI从那里重新续写后面的步骤。这样既保留了之前还不错的前半段推导，又给薄弱环节重新来过的机会，不至于把好的部分也丢掉。

这个过程会一直重复，直到停止条件满足，或者总生成量达到上限（同样是16个）为止。如果到达上限还没有明确赢家，就照常从现有候选中按分数选最高的。

九、省了多少算力，换来了多少准确率

研究团队在两个骨干模型（InternVL2.5-8B和Qwen2.5-VL-7B）上对ACA与固定预算的Best-of-16进行了系统比较，测量了最终答题准确率和消耗的总词元数量（词元是AI处理文字的基本单位，数量越多意味着计算量越大）。

结果相当亮眼。以InternVL2.5-8B为骨干的实验中，ACA在四个基准测试上的准确率均高于固定预算的Best-of-16，同时词元消耗减少了16.76%到33.57%不等。换句话说，ACA不仅省了钱，准确率还更高了。以Qwen2.5-VL-7B为骨干时，同样是四个基准全部提升，词元消耗减少了19.39%到33%。

为了理解提升来自哪里，研究团队还做了消融实验，分别测试"只有自适应生成、没有提前停止"的版本，结果发现这个版本主要减少了算力消耗，但准确率有时反而略有下降——因为它会持续生成候选答案，即使当前冠军已经可靠领先，反而引入了更多可能干扰选择的"噪声候选"。完整版ACA把自适应生成和基于置信度的提前停止结合起来，才实现了两全其美的效果。

研究团队还专门验证了BetaPRM的可靠性信号是否真的必要。他们对比了三种方案：使用BetaPRM学到的浓度κ作为不确定性；使用标准PRM，但用μ*(1-μ)的平方根作为不确定性的替代估计（这是伯努利分布的标准差，不依赖学习到的κ）；以及使用标准PRM，完全不用任何不确定性，只靠分数高低决策。结果显示，BetaPRM的学习不确定性在准确率和词元效率两个维度上都优于另外两种方案。使用替代不确定性的版本比纯分数方案更好，但仍不及BetaPRM；完全不用不确定性的版本虽然用词元最少，但准确率也最差，说明盲目节省算力会损失精度。这一系列对比说明，BetaPRM学到的置信度信号具有真实的信息价值，不能简单用数学公式推导出来的替代品代替。

归根结底，这项研究做的事情可以用一句话概括：让AI评判员学会说"我不太确定"。过去，过程奖励模型每次打完分就交卷，不管这个分数是深思熟虑还是随口一说，后续系统都无从区分。BetaPRM通过让模型预测一个贝塔分布而非单一数字，使得每个分数都附带了可靠性信息，让下游系统能够区分"这个高分我很确定"和"这个高分我也没把握"。这种区分在实践中带来了真实的收益：无论是选出更好的答案，还是把算力用在真正需要的地方，都因此受益。

这对普通人意味着什么？随着AI越来越多地被用于辅助决策——从解题到医疗建议到法律咨询——AI能够诚实表达自己的不确定性就变得越来越重要。一个过度自信的AI和一个懂得说"这个问题我不太确定，你最好再查一下"的AI，在日常使用中的可靠性是截然不同的。BetaPRM在推理评判这个具体环节上迈出了让AI更诚实的一步，这个方向本身值得关注。

当然，这项研究也坦承了一个限制：BetaPRM需要训练数据保留蒙特卡洛采样的原始计数（比如"16次中成功10次"），而不只是二值化的对错标签。目前公开可用、满足这一要求的训练数据集只有VisualPRM400K，这也是为什么实验集中在多模态推理场景。研究团队明确指出，贝塔-二项式训练框架本身并不依赖于多模态，只要有计数形式的监督数据，就可以应用到其他领域，比如纯文字的数学推理或代码生成。

有兴趣深入探究这套方法的读者，可以通过arXiv编号2605.15529查阅完整论文，研究代码也已在GitHub公开发布，地址为github.com/JinyuanLi0012/Beta-Binomial-PRM。

---

Q&A

Q1：BetaPRM和普通过程奖励模型的区别是什么？

A：普通过程奖励模型每步只输出一个分数，无法说明这个分数是否可信。BetaPRM同时输出两个参数：预期成功概率μ（相当于原来的分数）和置信浓度κ（表示这个分数有多可靠）。浓度高说明模型对判断很有把握，浓度低说明不确定性大，下游系统可以据此决定是否信任该分数。

Q2：自适应计算分配（ACA）是怎么节省算力的？

A：传统Best-of-N会一次性生成所有候选答案再选择。ACA先生成一小批，用BetaPRM评估每个候选答案的分数和可靠性。如果当前最优答案的悲观估计已经超过所有对手的乐观估计，就提前停止，不再浪费算力生成更多候选。如果还无法判断，就继续生成，但专注于修复最不确定的推导步骤，而非从头再来。

Q3：BetaPRM训练需要什么特殊数据？

A：BetaPRM需要保留蒙特卡洛采样的原始计数格式，即每个推理步骤对应"N次采样中有K次成功"的记录，而不只是成功/失败的二值标签。目前公开数据集中满足这个要求的只有VisualPRM400K，因此现有实验集中在多模态推理任务上，但该方法本身适用于任何具备计数形式监督数据的场景。

人工智能过程奖励模型不确定性估计

分享至