微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

当AI"做事"遇上功劳认定难题：独立研究者发表的大模型强化学习奖励分配全景报告

强化学习智能体训练功劳认定算法

当AI"做事"遇上功劳认定难题：独立研究者发表的大模型强化学习奖励分配全景报告

作者：科技行者

2026-04-21 13:16

分享至：

这篇由独立研究者完成的综述（arXiv: 2604.09459，2026年4月）系统梳理了大型语言模型强化学习中"功劳认定"问题的最新进展，覆盖2024至2026年初发表的47篇论文。文章从推理型AI到智能体型AI的演进出发，揭示了为何稀疏终局奖励难以训练长轨迹AI，并提出了一套按粒度与方法论组织的二维分类体系，包含蒙特卡洛、时序差分、AI自评、博弈论和信息论五大方法族，同时附带方法选择决策树、写作规范清单和基准测试协议，为该领域的研究者和工程师提供了系统性的参考框架。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-21 13:16 • 科技行者

这篇由独立研究者完成的综述论文发表于2026年4月，arXiv编号为2604.09459（v2版本于2026年4月13日更新），是目前学术界首篇系统性聚焦于大型语言模型强化学习中"功劳认定"问题的专题综述。感兴趣的读者可通过该编号在arXiv平台检索全文。

当你雇了一个团队帮你装修房子，最后装修效果很差，你会怎么追责？是骂负责设计的人、还是骂负责施工的人、还是骂负责采购材料的人？如果整个团队分工明确、每人只做了一部分，而你只知道最终结果很糟糕，那要怎么判断究竟是哪个环节出了问题、下次应该换掉谁？

这个看似日常的困境，正是当前人工智能领域最核心的技术难题之一。一个大型语言模型（也就是类似ChatGPT这样的AI）在被训练成"会做事的助手"时，会经历成千上万次尝试。每次尝试，它可能做了几十步、几百步才得到一个结果，但训练系统只告诉它"这次成功了"或"这次失败了"——根本不知道是哪一步起了关键作用。这就是所谓的"功劳认定"问题（Credit Assignment），也是本文的核心议题。

这篇综述梳理了2024年到2026年初之间发表的47篇相关论文，把这些解决方案分门别类地整理成一套完整的知识体系。它不只是一本目录，还附带了一套帮助研究者和工程师选方法的决策树、一份给未来研究者的写作规范清单，以及一个基准测试的协议规范。对于任何想在这一方向上开展研究或实际应用的人来说，这篇综述是一份难得的导航地图。

一、从"写作业"到"干活"：AI能力进化带来的新麻烦

要理解这个问题有多棘手，先得了解AI是如何一步步"进化"的。

早期的AI训练方式，有点像雇人写一篇作文然后请老师打分。系统生成一段话，人类或者评分程序打一个总分，AI据此调整自己。这个过程中，整篇作文只拿到一个分数，每个句子、每个词都获得了同等的"奖惩"。这就是所谓的"结果级别奖励"。在任务比较简单、回答比较短的情况下，这种方式勉强够用。

后来，随着DeepSeek-R1和OpenAI的o1这类模型的出现，AI开始被训练去解数学题和写代码，而且要展示完整的推理过程。这时候，一段回答可能长达一两万个词，里面包含几十个推理步骤。这就是所谓的"推理型强化学习"阶段。光靠最后一个"答对了"或"答错了"来训练，效率太低了——就像老师批改数学作业只写"错"但不指出哪一步算错了，学生根本不知道该从哪里改。

再往后发展，AI被赋予了真正"干活"的能力：它可以上网搜索、执行代码、调用工具、发送消息、与其他AI协作。一个任务可能要来回操作几十次甚至上百次，耗费的文字量可能高达几十万到上百万个词。这就是"智能体型强化学习"阶段，也是目前技术前沿所在。在这种情况下，"功劳认定"问题达到了前所未有的复杂程度。

综述提供了一组非常直观的数字对比来说明这个落差。在解简单数学题时，AI大约只需要两三百到八百个词，做出三到十个关键决策。在解竞赛数学题时，可能需要一两万个词、几十到一百个关键步骤。而在处理像SWE-bench这样的软件工程任务时，AI可能需要来回操作二三十次到一百多次，总共用掉十万到五十万个词，做出几十到上百个关键决策。当一个AI在第三步做了一个糟糕的选择，但之后的九十七步都还算正常，最终任务失败——训练系统如何知道是第三步的锅？这就是问题的本质。

二、"所有人平分奖金"为什么行不通

现在最流行的大模型训练方法叫做GRPO（群体相对策略优化），它的核心逻辑是：让AI对同一个任务做出多次尝试，然后根据每次尝试的结果好坏来给那次尝试的所有步骤打同样的分。换句话说，如果这次尝试成功了，那么这次尝试中的每一个词、每一步操作都获得同等的"功劳"；如果失败了，每一步都背同等的"黑锅"。

这就像一家公司的绩效考核制度是这样的：如果这个月业绩好，所有员工无论贡献多少都拿同样的奖金；如果业绩差，所有人无论犯没犯错都被扣同等的工资。这种制度在员工很少、每个人的工作都清晰可见的小团队中或许还能接受，但在一个有一百个部门、每个部门又有几十个人的大公司里，就完全失效了。

综述用了一个严格的数学分析来说明这个问题。在单纯的统计学上，当你对一百个不同的决策都用同一个信号来判断好坏时，平均到每个决策上的"信息量"只有单决策情况的百分之一。这不只是效率低的问题，而是会导致模型学到错误的东西。研究者们发现，在这种训练方式下，AI会逐渐倾向于做那些"安全但毫无意义"的重复动作——因为做任何新奇的尝试风险太高，不如一直重复已知的动作，反正奖惩信号那么模糊，谁也说不清楚。这个现象被研究者称为"回声陷阱"。

正因如此，四十七篇论文的核心目标只有一个：找到更好的方式，把那个模糊的最终结果奖励，精准地分配到真正值得奖励或惩罚的那一步上。

三、分类整理：解决问题的四十七种思路

这篇综述把四十七种方法整理成了一张二维地图。横轴是"方法论"——用什么技术来计算功劳；纵轴是"粒度"——把功劳分配到哪个层级。

从粒度来说，最细的是词语级别（每个词都分开算），往上是段落级别（把一段推理当一个单元），再往上是步骤或回合级别（每一次AI说话或做操作算一个单元），最顶层是多AI级别（多个AI协作时，每个AI各算各的）。不同任务适合不同粒度——就像餐厅绩效考核可以精细到每道菜（词语级），也可以粗略到每个班次（回合级），更可以整体评价前厅还是后厨团队（多智能体级）。

从方法论来说，主要有五大家族。第一类叫"蒙特卡洛法"，思路是：从中间某步开始，让AI从那里继续把任务做完，做很多次，用这多次的平均结果来估计这步的重要性。第二类叫"时序差分法"，思路是：训练一个专门负责打分的辅助模型，这个模型负责预测"从当前状态继续下去大概能得多少分"，用这个预测值来分配功劳。第三类叫"AI自评法"，思路是：直接问AI自己"你觉得这一步重要吗"，用AI自己的语言理解能力来做裁判。第四类叫"博弈论法"，主要是Shapley值——这是个来自经济学的方法，核心是问"如果去掉这一步，结果会差多少"，通过所有可能的组合排列来公平地分配贡献。第五类叫"信息论法"，思路是衡量"这一步提供了多少关于任务成功的新信息"。

在这张地图上，从左上角到右下角有一条进化路径：推理型任务的方法主要集中在词语级和段落级，用蒙特卡洛或时序差分；而智能体型任务的方法主要集中在回合级和多AI级，用事后分析、反事实推理和信息论。这条路径本身就是一个重要发现。

四、推理AI的功劳分配：已有成熟方案

在推理型任务领域，方法已经相对成熟，这里重点介绍几个有代表性的。

VinePPO这个方法的核心比喻是"在棋局中途换人接着下"。它的做法是：在AI正在生成回答的某个词的位置上，让AI从那里继续往下写，写很多个不同的版本，统计这些版本最终有多少比例能得到正确答案。这个比例就是那个词的"预期价值"，而实际的功劳就是"真实结果"减去"预期价值"。好处是完全没有偏差，不依赖任何辅助模型；坏处是计算量很大，每个词都要生成额外的很多个版本。实验证明，这个方法在数学推理上比传统PPO效果显著更好，说明功劳分配质量本身就是训练的瓶颈，而不是优化算法的问题。

SPO走了一条更实用的路：不在每个词上分配功劳，而是找到推理链条中的"分叉点"——那些推理从一个子问题跳跃到另一个子问题的地方，以这些有意义的段落作为单位。每个段落的功劳用比较"共享同一前缀的不同轨迹的结果"来估算。这样既保留了比词语级更细的信息，又避免了计算量爆炸。

SCAR走的是博弈论路线：把整段推理链条看作一个团队协作，每个段落是一个"队员"，用Shapley值来公平分配"谁的功劳最大"。Shapley值有一个很好的性质，它满足效率（所有人的功劳加起来等于总收益）、对称性（贡献相同则奖励相同）和零贡献性（对结果没影响的步骤得零分）。缺点是计算复杂，因为要考虑所有可能的组合顺序，但研究者用了抽样近似来解决。

PURE提出了一个有趣的理论洞察。传统的过程奖励模型（简单理解为"步骤打分器"）用的是"这步之后预期总得分"来衡量步骤质量，PURE认为这样会被模型钻空子——模型可能学会制造一些看起来分数不低但实际上没用的中间步骤。PURE改用"这步之后所有未来步骤中最低分"来衡量，强迫模型确保每一步都不拖后腿，而不是靠后面某些高分步骤来平摊。

HICRA发现了一个有趣的学习规律：AI在强化学习训练的过程中，先学会的是"程序性技能"（也就是固定套路和计算步骤），后学会的是"战略规划"（也就是高层次的问题分解方式）。基于此，HICRA建议把更多功劳集中在那些具有战略意义的词语和步骤上，而不是均匀分配。这个发现对智能体任务同样有重要启发价值。

五、智能体AI的功劳分配：全新挑战，全新方案

从推理型到智能体型，不只是任务变复杂了那么简单，而是有六个本质性的结构变化，这六个变化共同构成了"为什么推理型方法不能直接搬过来用"的完整解释。

第一个变化是"环境变得不可控"。当AI只是在生成文字时，环境完全可预测——下一步的状态就是已有文字加上刚生成的词。但当AI开始调用工具、执行代码、搜索网页时，同样的操作可能因为网络状态、数据库变化、执行时序而得到完全不同的结果。这让"从中间状态出发多次模拟"变得要么成本极高，要么根本不可能。

第二个变化是"只能看到部分信息"。推理型任务是全透明的，AI看到的就是完整状态。但在智能体任务中，AI只能看到它执行查询后得到的返回结果，看不到数据库的全貌；只能看到文件系统中它选择查看的文件，看不到整个代码库的结构。这意味着即便某一步看起来是个"坏"决策，也可能是因为信息不足，而非真的决策失误。

第三个变化是"时间跨度爆炸"。从做几十步推理变成了做几十到上百次来回操作，计算信号质量急剧下降。统计上，信噪比大约下降了一百倍。

第四个变化是"操作类型千差万别"。推理链条里的每一步都是"想清楚下一个论证"，相对同质。但智能体的操作中，有制定高层计划的战略性决策，有选择用哪个工具的技术性决策，有具体填写参数的执行性操作，有格式化输出的收尾性操作。这些操作的"重要程度"天差地别，但如果用统一的功劳分配方式，就会一视同仁。

第五个变化是"中间过程难以验证"。数学推理的每一步在逻辑上是可以检验的——这个代数变形对不对、这个推导步骤合不合法。但在智能体任务中，"选择搜索哪个关键词是个好选择吗"只有等看到搜索结果再说，"这段代码写得好不好"只有执行之后才知道。

第六个变化是"分叉点稀少但致命"。在智能体任务中，大多数操作都是常规动作，真正改变命运走向的"关键决策点"其实非常少，但一旦在这个节点上做错，就可能导致整个任务走入死胡同。这些点事先根本不知道是哪里，只有事后回头看才能认出来。

基于这六个挑战，研究者们发展出了一批专门针对智能体任务的新方法。

AgentPRM是把推理型的"步骤打分器"概念移植到智能体任务上，但把计算方式从"蒙特卡洛多次模拟"改成了"时序差分学习"——训练一个辅助模型，让它不断预测"从当前步骤继续下去，大概能得多少分"，通过迭代更新来学会这个预测。这样就不需要重启环境去模拟，但引入了预测误差。实验显示样本效率提升了八倍。

SWEET-RL提出了一个非常聪明的思路。训练的时候，人们可以掌握AI在推理时看不到的信息——比如正确答案是什么、整个任务最终是否成功。这叫做"特权信息"。SWEET-RL用这些特权信息训练一个专门的"裁判"模型，让它在训练期间给每一步打出高质量的功劳分；而参与实际任务的AI在执行任务时并不依赖这个裁判——它只用自己能看到的信息来做决策。这种"训练时用特权，运行时不用特权"的不对称设计，既提升了信号质量，又不影响AI在真实环境中的独立性。

CARL（关键行动强化学习）提出了一个大胆的简化思路：与其给所有操作都分配精细的功劳，不如只管那些真正关键的操作。怎么判断哪步关键？用"熵"——在某个状态下，如果AI面临很多种可能的操作选择且各有可能，说明这是个真正需要做决策的关键时刻，熵值高；如果AI几乎必然会做某个操作，说明这只是常规步骤，熵值低。CARL只对高熵操作步骤进行梯度更新，跳过其他所有步骤。结果令人意外：减少了72%的梯度更新量，但性能几乎不下降。这说明智能体轨迹中绝大多数操作根本不值得优化，只有少数关键决策真的重要。

GiGPO提出了一种"组中组"的巧妙设计。在GRPO原本的基础上，它增加了一层：不只是在多次完整尝试之间做比较，而是在同一次尝试中，找出那些"从相同出发点继续"的步骤，把它们相互比较，用组内相对表现来分配步骤级别的功劳。这样既不需要额外的辅助模型，也不需要重启环境，在计算效率和信号质量之间找到了一个不错的平衡点。实验中在网页购物和家居任务两个基准测试上分别超越GRPO达12%和9%。

最引人关注的是2026年3月同一周内冒出的三篇独立论文，它们都走向了同一个方向：事后反事实分析。

HCAPO的核心思路是"事后诸葛亮"：等整个任务做完之后，再回过头来评估每一步的贡献。它用AI来扮演裁判，让裁判用完整的事后信息去问"如果这步换成另一个操作，结果会不同吗"。这种方法的关键洞察是：事后的功劳评估天然比事前更准确，因为你已经知道结果了，可以真正区分"这步是真的好"和"这步只是恰好运气不错"。

C3（上下文反事实功劳分配）用的是"留一法"——把某一步的操作替换成一个"默认操作"，用AI来估计在这种反事实情况下任务最终会怎么发展，然后比较真实结果和反事实结果的差值作为那步的功劳。不需要重跑环境，反事实估算完全在AI的"想象中"完成。

CCPO提供了更严格的理论框架：把整个任务轨迹看作一个因果结构，每步操作是一个"干预变量"，任务结果是被影响的"效果"。每步的功劳就是这个"干预"的平均处理效应。这个框架在一定假设条件下有严格的理论保证。

三篇论文独立得出相同结论，本身就是一个强烈信号：对于智能体任务，"事后回溯式"的功劳认定思路正在成为主流范式。

六、多AI协作：最新的功劳认定前沿

当任务不是由一个AI独立完成，而是由多个AI分工协作时，问题又多了一个维度：这个成果里，有多少是你的功劳，有多少是队友的功劳？

这个问题在现实中并不陌生。电影上映后，演员、导演、摄影师、剧本作者各自贡献了多少，谁应该拿最多的奖励，一直是讨论不完的话题。多AI场景面临的是完全类似的挑战，而且还更复杂：不同AI的能力和角色完全不同（一个专门负责搜索，一个专门写代码，一个专门做总结），共同完成了一个无法单独拆开评估的整体任务。

SHARP把Shapley值从推理任务的"步骤层面"搬到了多AI任务的"智能体层面"：把整个AI团队看作一个合作游戏，每个AI的功劳是它在所有可能的团队组合中的"平均边际贡献"。实验显示，平均比单一AI高出23.7%，比没有Shapley功劳分配的多AI系统高出14.1%。

MAPPA走了另一条路：不等任务结束才算总账，而是在每个AI的每一步操作完成后，就用另一个AI来评判这一步的即时价值。这样每次训练时可以从每个轨迹里提取出更多的学习信号。实验中，在数学竞赛任务上提升幅度高达5到17个百分点，是目前多AI方向上报告的最大增益之一。

Dr. MAS发现了一个具体的失效模式：当用GRPO来训练多AI系统时，如果用全局统一的基准线来计算各AI的优势分，会出问题——因为不同AI的任务难度和奖励分布完全不同，一个统一的基准线对某些AI来说太高，对另一些来说太低。解决方案是给每个AI各自维护独立的统计基准，分别归一化。这个改动看起来简单，但却把原本发散的训练过程稳定下来，并带来了5.6%的性能提升。

七、做选择时的实用指南

这篇综述不只是盘点方法，还给出了一套决策框架，帮助实际工作者根据自己的情况选择合适的方法。

核心逻辑是一棵决策树。首先问的是任务性质：是推理型（AI生成一段文字）、智能体型（AI与环境交互多个回合），还是多AI协作？在推理型任务中，再问推理链条多长。如果短（五千词以内），用GRPO家族就够，加上PURE或SPRO来强化步骤级别信号；如果长（超过五千词），且计算资源有限，用HICRA或CAPO；如果计算资源充裕，用VinePPO或SCAR来追求更高质量的功劳分配。

在智能体型任务中，先问轨迹有多长。如果不超过三十个回合，再问有没有辅助模型资源：没有的话用GiGPO、CARL或iStar；有的话用AgentPRM或SWEET-RL。如果超过三十个回合，再问计算资源是否充裕：资源有限就用CARL或HCAPO或ArCHer的简化版；资源充裕就用C3/CCPO或HCAPO的完整版或IGPO。多AI协作场景则推荐M-GRPO、SHARP或MAPPA。

综述还整理了几个关键取舍。粒度越细的方法（词语级）提供越精确的信号，但计算成本越高；事后分析（HCAPO、C3）信息质量高但引入延迟；不需要辅助模型的方法（CARL、GiGPO、iStar）更容易部署；专门为推理型设计的方法在智能体任务上往往失效，反之则不然。

八、这个领域还缺什么

综述诚实地指出了几个尚未解决的重要问题。

在实践层面，目前评测各种功劳分配方法的基准测试严重不统一。每篇论文用的任务、基础模型、训练配置各不相同，导致无法真正比较哪个方法更好，还是说哪个方法只是恰好在某个任务上更有优势。这让整个领域的进展变得模糊。研究者呼吁建立一套共享的基准测试协议，包括已知正确功劳分配的推理任务、有控制分叉点的智能体任务，以及有设计好功劳结构的多AI任务。

在理论层面，绝大多数方法只有经验验证而没有理论保证。只有极少数方法（如VinePPO的无偏性证明、CCPO的因果假设下的保证）提供了形式化分析。在部分可观测环境下，功劳分配如何收敛、样本复杂度是多少，这些基本问题几乎没有答案。

在新兴应用层面，当AI任务跨度极长（比如持续几天的科研实验）、奖励信号本身不确定（比如"用户是否满意"这种主观评价），或者AI的操作影响到了AI自己的"记忆"（比如把某些信息存入外部数据库以备后用），功劳应该如何分配，现有方法几乎无从应对。

还有一个被忽略的机会：功劳认定和探索策略本来可以互相增益。在功劳认定最不确定的状态上，恰恰是AI最应该去探索的地方——因为那里信息最缺乏。但目前没有任何方法把这两件事真正结合在一起。

归根结底，这个领域正在经历一个快速成熟的阶段。推理型任务上的功劳分配问题，大致已有可用的工程答案；智能体任务上的功劳分配问题，思路已经清晰但工具还不完备；多AI协作的功劳分配问题，才刚刚开始被认真对待。

三年前，几乎没有人把"功劳分配"当作一个独立的研究方向来看待，它只是深藏在各种算法细节里的小问题。但随着AI从"会回答问题"进化到"会干活"，这个问题已经从背景噪音变成了舞台中央最响亮的那个声音。下一波突破，很可能就藏在"怎么让AI明白自己真正做对了什么"这个问题的答案里。

有兴趣深入了解的读者可以通过arXiv编号2604.09459检索这篇论文，或直接访问作者在GitHub上维护的相关论文列表（xxzcc/Awesome-Credit-Assignment-in-LLM-RL）以获取持续更新的研究动态。

Q&A

Q1：大模型强化学习中的功劳认定问题具体是什么？

A：功劳认定问题是指当AI完成一项多步骤任务后，训练系统只知道最终结果的好坏，但不知道是哪一步操作真正起了决定性作用。就像一场球赛赢了，但说不清楚是谁的功劳。在AI做复杂任务时，可能经历几十步到上百步，如果只靠最终奖励来训练，效率极低，甚至会让AI学到错误的行为模式。

Q2：GRPO方法在智能体任务上为什么会出现"回声陷阱"？

A：GRPO对整个任务轨迹中的每一步都给同样的奖惩信号，当任务变得复杂、步骤达到几十甚至上百步时，这个信号对每一步来说变得极其微弱且充满噪声。AI因为无法分清哪步真正有用，为了降低风险就开始不断重复已知的安全动作，变得越来越保守和重复，完全失去了探索新方法的动力，这就是所谓的"回声陷阱"。

Q3：CARL方法中用来判断关键决策点的"熵"是什么意思？

A：在CARL方法里，"熵"衡量的是AI在某个状态下面对多少种可能选择、且这些选择的可能性有多均匀。如果AI几乎肯定会做某一个操作，熵值低，说明这只是常规步骤不需要特别训练；如果AI面临很多种同样可能的选择，熵值高，说明这是真正需要做判断的关键时刻，才值得投入梯度更新资源。实验发现跳过低熵步骤可以减少72%的计算量但性能几乎不变。

强化学习智能体训练功劳认定算法

分享至