
这篇由独立研究者完成的综述论文发表于2026年4月,arXiv编号为2604.09459(v2版本于2026年4月13日更新),是目前学术界首篇系统性聚焦于大型语言模型强化学习中"功劳认定"问题的专题综述。感兴趣的读者可通过该编号在arXiv平台检索全文。
当你雇了一个团队帮你装修房子,最后装修效果很差,你会怎么追责?是骂负责设计的人、还是骂负责施工的人、还是骂负责采购材料的人?如果整个团队分工明确、每人只做了一部分,而你只知道最终结果很糟糕,那要怎么判断究竟是哪个环节出了问题、下次应该换掉谁?
这个看似日常的困境,正是当前人工智能领域最核心的技术难题之一。一个大型语言模型(也就是类似ChatGPT这样的AI)在被训练成"会做事的助手"时,会经历成千上万次尝试。每次尝试,它可能做了几十步、几百步才得到一个结果,但训练系统只告诉它"这次成功了"或"这次失败了"——根本不知道是哪一步起了关键作用。这就是所谓的"功劳认定"问题(Credit Assignment),也是本文的核心议题。
这篇综述梳理了2024年到2026年初之间发表的47篇相关论文,把这些解决方案分门别类地整理成一套完整的知识体系。它不只是一本目录,还附带了一套帮助研究者和工程师选方法的决策树、一份给未来研究者的写作规范清单,以及一个基准测试的协议规范。对于任何想在这一方向上开展研究或实际应用的人来说,这篇综述是一份难得的导航地图。
一、从"写作业"到"干活":AI能力进化带来的新麻烦
要理解这个问题有多棘手,先得了解AI是如何一步步"进化"的。
早期的AI训练方式,有点像雇人写一篇作文然后请老师打分。系统生成一段话,人类或者评分程序打一个总分,AI据此调整自己。这个过程中,整篇作文只拿到一个分数,每个句子、每个词都获得了同等的"奖惩"。这就是所谓的"结果级别奖励"。在任务比较简单、回答比较短的情况下,这种方式勉强够用。
后来,随着DeepSeek-R1和OpenAI的o1这类模型的出现,AI开始被训练去解数学题和写代码,而且要展示完整的推理过程。这时候,一段回答可能长达一两万个词,里面包含几十个推理步骤。这就是所谓的"推理型强化学习"阶段。光靠最后一个"答对了"或"答错了"来训练,效率太低了——就像老师批改数学作业只写"错"但不指出哪一步算错了,学生根本不知道该从哪里改。
再往后发展,AI被赋予了真正"干活"的能力:它可以上网搜索、执行代码、调用工具、发送消息、与其他AI协作。一个任务可能要来回操作几十次甚至上百次,耗费的文字量可能高达几十万到上百万个词。这就是"智能体型强化学习"阶段,也是目前技术前沿所在。在这种情况下,"功劳认定"问题达到了前所未有的复杂程度。
综述提供了一组非常直观的数字对比来说明这个落差。在解简单数学题时,AI大约只需要两三百到八百个词,做出三到十个关键决策。在解竞赛数学题时,可能需要一两万个词、几十到一百个关键步骤。而在处理像SWE-bench这样的软件工程任务时,AI可能需要来回操作二三十次到一百多次,总共用掉十万到五十万个词,做出几十到上百个关键决策。当一个AI在第三步做了一个糟糕的选择,但之后的九十七步都还算正常,最终任务失败——训练系统如何知道是第三步的锅?这就是问题的本质。
二、"所有人平分奖金"为什么行不通
现在最流行的大模型训练方法叫做GRPO(群体相对策略优化),它的核心逻辑是:让AI对同一个任务做出多次尝试,然后根据每次尝试的结果好坏来给那次尝试的所有步骤打同样的分。换句话说,如果这次尝试成功了,那么这次尝试中的每一个词、每一步操作都获得同等的"功劳";如果失败了,每一步都背同等的"黑锅"。
这就像一家公司的绩效考核制度是这样的:如果这个月业绩好,所有员工无论贡献多少都拿同样的奖金;如果业绩差,所有人无论犯没犯错都被扣同等的工资。这种制度在员工很少、每个人的工作都清晰可见的小团队中或许还能接受,但在一个有一百个部门、每个部门又有几十个人的大公司里,就完全失效了。
综述用了一个严格的数学分析来说明这个问题。在单纯的统计学上,当你对一百个不同的决策都用同一个信号来判断好坏时,平均到每个决策上的"信息量"只有单决策情况的百分之一。这不只是效率低的问题,而是会导致模型学到错误的东西。研究者们发现,在这种训练方式下,AI会逐渐倾向于做那些"安全但毫无意义"的重复动作——因为做任何新奇的尝试风险太高,不如一直重复已知的动作,反正奖惩信号那么模糊,谁也说不清楚。这个现象被研究者称为"回声陷阱"。
正因如此,四十七篇论文的核心目标只有一个:找到更好的方式,把那个模糊的最终结果奖励,精准地分配到真正值得奖励或惩罚的那一步上。
三、分类整理:解决问题的四十七种思路
这篇综述把四十七种方法整理成了一张二维地图。横轴是"方法论"——用什么技术来计算功劳;纵轴是"粒度"——把功劳分配到哪个层级。
从粒度来说,最细的是词语级别(每个词都分开算),往上是段落级别(把一段推理当一个单元),再往上是步骤或回合级别(每一次AI说话或做操作算一个单元),最顶层是多AI级别(多个AI协作时,每个AI各算各的)。不同任务适合不同粒度——就像餐厅绩效考核可以精细到每道菜(词语级),也可以粗略到每个班次(回合级),更可以整体评价前厅还是后厨团队(多智能体级)。
从方法论来说,主要有五大家族。第一类叫"蒙特卡洛法",思路是:从中间某步开始,让AI从那里继续把任务做完,做很多次,用这多次的平均结果来估计这步的重要性。第二类叫"时序差分法",思路是:训练一个专门负责打分的辅助模型,这个模型负责预测"从当前状态继续下去大概能得多少分",用这个预测值来分配功劳。第三类叫"AI自评法",思路是:直接问AI自己"你觉得这一步重要吗",用AI自己的语言理解能力来做裁判。第四类叫"博弈论法",主要是Shapley值——这是个来自经济学的方法,核心是问"如果去掉这一步,结果会差多少",通过所有可能的组合排列来公平地分配贡献。第五类叫"信息论法",思路是衡量"这一步提供了多少关于任务成功的新信息"。
在这张地图上,从左上角到右下角有一条进化路径:推理型任务的方法主要集中在词语级和段落级,用蒙特卡洛或时序差分;而智能体型任务的方法主要集中在回合级和多AI级,用事后分析、反事实推理和信息论。这条路径本身就是一个重要发现。
四、推理AI的功劳分配:已有成熟方案
在推理型任务领域,方法已经相对成熟,这里重点介绍几个有代表性的。
VinePPO这个方法的核心比喻是"在棋局中途换人接着下"。它的做法是:在AI正在生成回答的某个词的位置上,让AI从那里继续往下写,写很多个不同的版本,统计这些版本最终有多少比例能得到正确答案。这个比例就是那个词的"预期价值",而实际的功劳就是"真实结果"减去"预期价值"。好处是完全没有偏差,不依赖任何辅助模型;坏处是计算量很大,每个词都要生成额外的很多个版本。实验证明,这个方法在数学推理上比传统PPO效果显著更好,说明功劳分配质量本身就是训练的瓶颈,而不是优化算法的问题。
SPO走了一条更实用的路:不在每个词上分配功劳,而是找到推理链条中的"分叉点"——那些推理从一个子问题跳跃到另一个子问题的地方,以这些有意义的段落作为单位。每个段落的功劳用比较"共享同一前缀的不同轨迹的结果"来估算。这样既保留了比词语级更细的信息,又避免了计算量爆炸。
SCAR走的是博弈论路线:把整段推理链条看作一个团队协作,每个段落是一个"队员",用Shapley值来公平分配"谁的功劳最大"。Shapley值有一个很好的性质,它满足效率(所有人的功劳加起来等于总收益)、对称性(贡献相同则奖励相同)和零贡献性(对结果没影响的步骤得零分)。缺点是计算复杂,因为要考虑所有可能的组合顺序,但研究者用了抽样近似来解决。
PURE提出了一个有趣的理论洞察。传统的过程奖励模型(简单理解为"步骤打分器")用的是"这步之后预期总得分"来衡量步骤质量,PURE认为这样会被模型钻空子——模型可能学会制造一些看起来分数不低但实际上没用的中间步骤。PURE改用"这步之后所有未来步骤中最低分"来衡量,强迫模型确保每一步都不拖后腿,而不是靠后面某些高分步骤来平摊。
HICRA发现了一个有趣的学习规律:AI在强化学习训练的过程中,先学会的是"程序性技能"(也就是固定套路和计算步骤),后学会的是"战略规划"(也就是高层次的问题分解方式)。基于此,HICRA建议把更多功劳集中在那些具有战略意义的词语和步骤上,而不是均匀分配。这个发现对智能体任务同样有重要启发价值。
五、智能体AI的功劳分配:全新挑战,全新方案
从推理型到智能体型,不只是任务变复杂了那么简单,而是有六个本质性的结构变化,这六个变化共同构成了"为什么推理型方法不能直接搬过来用"的完整解释。
第一个变化是"环境变得不可控"。当AI只是在生成文字时,环境完全可预测——下一步的状态就是已有文字加上刚生成的词。但当AI开始调用工具、执行代码、搜索网页时,同样的操作可能因为网络状态、数据库变化、执行时序而得到完全不同的结果。这让"从中间状态出发多次模拟"变得要么成本极高,要么根本不可能。
第二个变化是"只能看到部分信息"。推理型任务是全透明的,AI看到的就是完整状态。但在智能体任务中,AI只能看到它执行查询后得到的返回结果,看不到数据库的全貌;只能看到文件系统中它选择查看的文件,看不到整个代码库的结构。这意味着即便某一步看起来是个"坏"决策,也可能是因为信息不足,而非真的决策失误。
第三个变化是"时间跨度爆炸"。从做几十步推理变成了做几十到上百次来回操作,计算信号质量急剧下降。统计上,信噪比大约下降了一百倍。
第四个变化是"操作类型千差万别"。推理链条里的每一步都是"想清楚下一个论证",相对同质。但智能体的操作中,有制定高层计划的战略性决策,有选择用哪个工具的技术性决策,有具体填写参数的执行性操作,有格式化输出的收尾性操作。这些操作的"重要程度"天差地别,但如果用统一的功劳分配方式,就会一视同仁。
第五个变化是"中间过程难以验证"。数学推理的每一步在逻辑上是可以检验的——这个代数变形对不对、这个推导步骤合不合法。但在智能体任务中,"选择搜索哪个关键词是个好选择吗"只有等看到搜索结果再说,"这段代码写得好不好"只有执行之后才知道。
第六个变化是"分叉点稀少但致命"。在智能体任务中,大多数操作都是常规动作,真正改变命运走向的"关键决策点"其实非常少,但一旦在这个节点上做错,就可能导致整个任务走入死胡同。这些点事先根本不知道是哪里,只有事后回头看才能认出来。
基于这六个挑战,研究者们发展出了一批专门针对智能体任务的新方法。
AgentPRM是把推理型的"步骤打分器"概念移植到智能体任务上,但把计算方式从"蒙特卡洛多次模拟"改成了"时序差分学习"——训练一个辅助模型,让它不断预测"从当前步骤继续下去,大概能得多少分",通过迭代更新来学会这个预测。这样就不需要重启环境去模拟,但引入了预测误差。实验显示样本效率提升了八倍。
SWEET-RL提出了一个非常聪明的思路。训练的时候,人们可以掌握AI在推理时看不到的信息——比如正确答案是什么、整个任务最终是否成功。这叫做"特权信息"。SWEET-RL用这些特权信息训练一个专门的"裁判"模型,让它在训练期间给每一步打出高质量的功劳分;而参与实际任务的AI在执行任务时并不依赖这个裁判——它只用自己能看到的信息来做决策。这种"训练时用特权,运行时不用特权"的不对称设计,既提升了信号质量,又不影响AI在真实环境中的独立性。
CARL(关键行动强化学习)提出了一个大胆的简化思路:与其给所有操作都分配精细的功劳,不如只管那些真正关键的操作。怎么判断哪步关键?用"熵"——在某个状态下,如果AI面临很多种可能的操作选择且各有可能,说明这是个真正需要做决策的关键时刻,熵值高;如果AI几乎必然会做某个操作,说明这只是常规步骤,熵值低。CARL只对高熵操作步骤进行梯度更新,跳过其他所有步骤。结果令人意外:减少了72%的梯度更新量,但性能几乎不下降。这说明智能体轨迹中绝大多数操作根本不值得优化,只有少数关键决策真的重要。
GiGPO提出了一种"组中组"的巧妙设计。在GRPO原本的基础上,它增加了一层:不只是在多次完整尝试之间做比较,而是在同一次尝试中,找出那些"从相同出发点继续"的步骤,把它们相互比较,用组内相对表现来分配步骤级别的功劳。这样既不需要额外的辅助模型,也不需要重启环境,在计算效率和信号质量之间找到了一个不错的平衡点。实验中在网页购物和家居任务两个基准测试上分别超越GRPO达12%和9%。
最引人关注的是2026年3月同一周内冒出的三篇独立论文,它们都走向了同一个方向:事后反事实分析。
HCAPO的核心思路是"事后诸葛亮":等整个任务做完之后,再回过头来评估每一步的贡献。它用AI来扮演裁判,让裁判用完整的事后信息去问"如果这步换成另一个操作,结果会不同吗"。这种方法的关键洞察是:事后的功劳评估天然比事前更准确,因为你已经知道结果了,可以真正区分"这步是真的好"和"这步只是恰好运气不错"。
C3(上下文反事实功劳分配)用的是"留一法"——把某一步的操作替换成一个"默认操作",用AI来估计在这种反事实情况下任务最终会怎么发展,然后比较真实结果和反事实结果的差值作为那步的功劳。不需要重跑环境,反事实估算完全在AI的"想象中"完成。
CCPO提供了更严格的理论框架:把整个任务轨迹看作一个因果结构,每步操作是一个"干预变量",任务结果是被影响的"效果"。每步的功劳就是这个"干预"的平均处理效应。这个框架在一定假设条件下有严格的理论保证。
三篇论文独立得出相同结论,本身就是一个强烈信号:对于智能体任务,"事后回溯式"的功劳认定思路正在成为主流范式。
六、多AI协作:最新的功劳认定前沿
当任务不是由一个AI独立完成,而是由多个AI分工协作时,问题又多了一个维度:这个成果里,有多少是你的功劳,有多少是队友的功劳?
这个问题在现实中并不陌生。电影上映后,演员、导演、摄影师、剧本作者各自贡献了多少,谁应该拿最多的奖励,一直是讨论不完的话题。多AI场景面临的是完全类似的挑战,而且还更复杂:不同AI的能力和角色完全不同(一个专门负责搜索,一个专门写代码,一个专门做总结),共同完成了一个无法单独拆开评估的整体任务。
SHARP把Shapley值从推理任务的"步骤层面"搬到了多AI任务的"智能体层面":把整个AI团队看作一个合作游戏,每个AI的功劳是它在所有可能的团队组合中的"平均边际贡献"。实验显示,平均比单一AI高出23.7%,比没有Shapley功劳分配的多AI系统高出14.1%。
MAPPA走了另一条路:不等任务结束才算总账,而是在每个AI的每一步操作完成后,就用另一个AI来评判这一步的即时价值。这样每次训练时可以从每个轨迹里提取出更多的学习信号。实验中,在数学竞赛任务上提升幅度高达5到17个百分点,是目前多AI方向上报告的最大增益之一。
Dr. MAS发现了一个具体的失效模式:当用GRPO来训练多AI系统时,如果用全局统一的基准线来计算各AI的优势分,会出问题——因为不同AI的任务难度和奖励分布完全不同,一个统一的基准线对某些AI来说太高,对另一些来说太低。解决方案是给每个AI各自维护独立的统计基准,分别归一化。这个改动看起来简单,但却把原本发散的训练过程稳定下来,并带来了5.6%的性能提升。
七、做选择时的实用指南
这篇综述不只是盘点方法,还给出了一套决策框架,帮助实际工作者根据自己的情况选择合适的方法。
核心逻辑是一棵决策树。首先问的是任务性质:是推理型(AI生成一段文字)、智能体型(AI与环境交互多个回合),还是多AI协作?在推理型任务中,再问推理链条多长。如果短(五千词以内),用GRPO家族就够,加上PURE或SPRO来强化步骤级别信号;如果长(超过五千词),且计算资源有限,用HICRA或CAPO;如果计算资源充裕,用VinePPO或SCAR来追求更高质量的功劳分配。
在智能体型任务中,先问轨迹有多长。如果不超过三十个回合,再问有没有辅助模型资源:没有的话用GiGPO、CARL或iStar;有的话用AgentPRM或SWEET-RL。如果超过三十个回合,再问计算资源是否充裕:资源有限就用CARL或HCAPO或ArCHer的简化版;资源充裕就用C3/CCPO或HCAPO的完整版或IGPO。多AI协作场景则推荐M-GRPO、SHARP或MAPPA。
综述还整理了几个关键取舍。粒度越细的方法(词语级)提供越精确的信号,但计算成本越高;事后分析(HCAPO、C3)信息质量高但引入延迟;不需要辅助模型的方法(CARL、GiGPO、iStar)更容易部署;专门为推理型设计的方法在智能体任务上往往失效,反之则不然。
八、这个领域还缺什么
综述诚实地指出了几个尚未解决的重要问题。
在实践层面,目前评测各种功劳分配方法的基准测试严重不统一。每篇论文用的任务、基础模型、训练配置各不相同,导致无法真正比较哪个方法更好,还是说哪个方法只是恰好在某个任务上更有优势。这让整个领域的进展变得模糊。研究者呼吁建立一套共享的基准测试协议,包括已知正确功劳分配的推理任务、有控制分叉点的智能体任务,以及有设计好功劳结构的多AI任务。
在理论层面,绝大多数方法只有经验验证而没有理论保证。只有极少数方法(如VinePPO的无偏性证明、CCPO的因果假设下的保证)提供了形式化分析。在部分可观测环境下,功劳分配如何收敛、样本复杂度是多少,这些基本问题几乎没有答案。
在新兴应用层面,当AI任务跨度极长(比如持续几天的科研实验)、奖励信号本身不确定(比如"用户是否满意"这种主观评价),或者AI的操作影响到了AI自己的"记忆"(比如把某些信息存入外部数据库以备后用),功劳应该如何分配,现有方法几乎无从应对。
还有一个被忽略的机会:功劳认定和探索策略本来可以互相增益。在功劳认定最不确定的状态上,恰恰是AI最应该去探索的地方——因为那里信息最缺乏。但目前没有任何方法把这两件事真正结合在一起。
归根结底,这个领域正在经历一个快速成熟的阶段。推理型任务上的功劳分配问题,大致已有可用的工程答案;智能体任务上的功劳分配问题,思路已经清晰但工具还不完备;多AI协作的功劳分配问题,才刚刚开始被认真对待。
三年前,几乎没有人把"功劳分配"当作一个独立的研究方向来看待,它只是深藏在各种算法细节里的小问题。但随着AI从"会回答问题"进化到"会干活",这个问题已经从背景噪音变成了舞台中央最响亮的那个声音。下一波突破,很可能就藏在"怎么让AI明白自己真正做对了什么"这个问题的答案里。
有兴趣深入了解的读者可以通过arXiv编号2604.09459检索这篇论文,或直接访问作者在GitHub上维护的相关论文列表(xxzcc/Awesome-Credit-Assignment-in-LLM-RL)以获取持续更新的研究动态。
Q&A
Q1:大模型强化学习中的功劳认定问题具体是什么?
A:功劳认定问题是指当AI完成一项多步骤任务后,训练系统只知道最终结果的好坏,但不知道是哪一步操作真正起了决定性作用。就像一场球赛赢了,但说不清楚是谁的功劳。在AI做复杂任务时,可能经历几十步到上百步,如果只靠最终奖励来训练,效率极低,甚至会让AI学到错误的行为模式。
Q2:GRPO方法在智能体任务上为什么会出现"回声陷阱"?
A:GRPO对整个任务轨迹中的每一步都给同样的奖惩信号,当任务变得复杂、步骤达到几十甚至上百步时,这个信号对每一步来说变得极其微弱且充满噪声。AI因为无法分清哪步真正有用,为了降低风险就开始不断重复已知的安全动作,变得越来越保守和重复,完全失去了探索新方法的动力,这就是所谓的"回声陷阱"。
Q3:CARL方法中用来判断关键决策点的"熵"是什么意思?
A:在CARL方法里,"熵"衡量的是AI在某个状态下面对多少种可能选择、且这些选择的可能性有多均匀。如果AI几乎肯定会做某一个操作,熵值低,说明这只是常规步骤不需要特别训练;如果AI面临很多种同样可能的选择,熵值高,说明这是真正需要做判断的关键时刻,才值得投入梯度更新资源。实验发现跳过低熵步骤可以减少72%的计算量但性能几乎不变。
好文章,需要你的鼓励
本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。
这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。
中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。
这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。