微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

复旦大学团队揭秘：为什么推荐系统总爱给你推"无聊"的长列表？这项新研究找到了根本原因

推荐系统强化学习梯度优化

复旦大学团队揭秘：为什么推荐系统总爱给你推"无聊"的长列表？这项新研究找到了根本原因

作者：科技行者

2026-06-02 13:33

分享至：

复旦大学提出ProRL框架，通过逐步奖励中心化与位置特定优势估计修复强化学习在主动推荐中的梯度估计缺陷，显著提升推荐路径的引导效果与用户接受度。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-02 13:33 • 科技行者

这项由复旦大学数据科学学院主导的研究，发表于2026年第43届国际机器学习大会（ICML 2026，Seoul, South Korea, PMLR 306），论文编号为arXiv:2605.28293，有兴趣深入了解的读者可通过该编号查询完整论文。

你有没有遇到过这样的场景：你一直在某视频平台刷科幻电影，突然有一天平台想向你推荐一部喜剧片，但你对喜剧完全没有兴趣，直接划走了。平台的运营同学急得抓耳挠腮——他们手里有一部很好的喜剧，用户却完全不买账。硬推不行，软推又不知道怎么软。

这个困境，正是这篇论文要解决的核心问题。

一支来自复旦大学数据科学学院的研究团队，构建了一个叫做"ProRL"的推荐系统，它的核心思路不是硬塞内容给用户，而是像一个耐心的导游，先陪你走一段你熟悉的路，再一步一步把你引向你未曾踏足的新地方。更重要的是，团队在研究过程中发现了一个此前被忽视的关键漏洞：用来训练这类系统的标准强化学习方法，竟然存在两个根本性的缺陷，会让整个训练过程跑偏。他们深入剖析了这两个缺陷，并给出了精准的修复方案。

一、推荐系统界的"温水煮青蛙"策略

要理解这项研究的价值，得先聊聊"主动推荐系统"是什么。

普通的推荐系统就像一面镜子，你喜欢什么，它就给你看什么。你爱看科幻，它永远给你推科幻；你爱吃川菜，它永远给你推火锅。这当然没问题，用户体验不错，但平台有时候有自己的小算盘——它新签了一批喜剧版权，或者上了一条新的美食频道，需要用户去探索新的内容领域。

直接把新内容塞到推荐位？大多数时候用户会无情地划过去，因为和自己的口味完全不搭。

"主动推荐系统"（Proactive Recommender System，简称PRS）提供了一种更温柔的解法：与其一步跨越到目标内容，不如规划一条"过渡路径"，先推一部融合了科幻和动画元素的《机器人总动员》，再推一部融合了动画和喜剧元素的《疯狂动物城》，最后才引入那部纯喜剧。每一步都在用户的接受范围之内，却在悄悄地把用户的偏好向目标方向拨动。这就是论文开头用《机器人总动员》→《疯狂动物城》→《白日梦想家》这条路径来举例说明的核心逻辑。

这种"温水煮青蛙"式的策略，需要同时满足两个要求。第一是路径上每一步的推荐都得让用户愿意点击，保持用户的持续参与；第二是整条路径走完之后，用户对目标内容的兴趣要真的有所提升。这两个目标必须同时优化，任何一个方面的妥协都会让整条路径失效。

二、强化学习本是解题妙手，却暗藏两个致命漏洞

面对"规划一条最优过渡路径"这个问题，研究团队自然想到了强化学习。这个方法的思路可以用"围棋训练"来理解：系统不断地生成推荐路径，然后根据路径的最终效果（用户是否真的对目标内容产生了兴趣）来判断这条路走得好不好，再调整下一次的策略。不断试错，不断进步。

这种方法理论上非常适合这类序列决策问题，因为每条路径的"好坏"可以用一个综合分数来量化——既考虑了每步是否被用户接受，也考虑了整体引导效果。

然而，当研究团队真正把标准的强化学习算法套到主动推荐任务上之后，他们发现了一个令人沮丧的现象：系统很快就学会了一种"投机取巧"的策略，而且在不同数据集、不同奖励设置下，这个问题几乎无一例外地出现。

具体来说，训练过程中，系统生成的推荐路径越来越长，逼近预设的最大长度上限；与此同时，生成的路径越来越雷同，多样性急剧下降。换句话说，不管是哪个用户，不管目标是什么内容，系统最终都吐出一条又长又千篇一律的推荐路径。这显然毫无意义。

研究团队没有简单地把这个现象归结为"调参问题"，而是深挖背后的数学原因，最终找到了两个根本性的缺陷。

第一个缺陷叫做"长度捷径"。原来，用于衡量路径质量的综合奖励分数，可以被拆解成每一步的小奖励之和。而每一步的小奖励，平均来说是正数。这就产生了一个微妙但致命的后果：从数学期望上看，路径越长，总得分越高。对强化学习算法来说，这相当于发现了一个"作弊方法"——不需要真正思考每步推荐什么内容，只需要让路径变得更长，分数就会自动提升。算法发现这个规律之后，当然会一头扎进去，不停地延长路径，完全放弃了对"推荐什么"的深入探索。

研究团队还为这个现象提供了严格的数学证明。他们构建了一个简化模型，理论上推导出：只要每步奖励的期望值大于零，强化学习的梯度更新就会系统性地降低"停止生成"的概率，让路径无止境地延长。而且这个下降的速度遵循O(1/s)的规律，意思是随着训练步骤的推进，停止概率以一种稳定的速率趋向于零，这是结构性的必然结果，不是偶然的训练不稳定。

第二个缺陷叫做"高梯度方差"。梯度在强化学习中扮演着"指路牌"的角色，告诉模型应该往哪个方向调整参数才能生成更好的路径。然而，标准算法用整条路径的总分来给每一步的推荐打分，这就相当于：第一步推荐了《机器人总动员》，它的好坏却被整条路径（包括第五步、第八步）的总分来评判。但第一步的选择根本不影响它之后的历史，这种"连坐"式的评分引入了大量无关的噪音，导致"指路牌"东倒西歪，模型很难从中获得清晰稳定的学习信号。

三、ProRL的两剂精准药方

正是基于对上述两个缺陷的深刻理解，研究团队提出了ProRL框架，其中包含两个量身定制的修复机制。

第一个机制叫做"逐步奖励中心化"。解决"长度捷径"的关键，就是让路径延长这件事本身不再带来额外的期望收益。做法听起来简单，却直击要害：在计算每一步的奖励时，减去该步奖励的平均值。这个操作的效果是，原本每步都有正向平均期望的奖励，变成了围绕零点波动的奖励。延长路径不再自动带来更高的期望总分，算法必须真正靠着选择好的内容来提升分数。

在实际操作中，研究团队先跑一个"热身轮次"，收集大量路径样本，统计出每一步奖励的均值和方差，然后把这些统计量固定下来，在后续所有训练中使用。这里有个技术细节值得一提：如果让均值和方差随着模型的不断改进而动态更新，就会产生"校准目标一直在移动"的不稳定问题，所以用早期样本固定下来是更稳健的做法。

针对多个奖励目标并存的情况（既要考虑点击率，又要考虑兴趣增量，还要考虑排名变化），团队进一步把"中心化"扩展为"归一化"：不仅减去每个目标的均值，还除以其标准差，让不同量级的奖励信号都缩放到可以比较的范围内。这样三个奖励目标就可以平等地参与训练，不会让某一个因为数值特别大而主导整个优化过程。

第二个机制叫做"位置特定优势估计"。要解决梯度方差高的问题，核心思路是让每一步的评分只考虑"它能影响的未来"，而不是用整条路径的总分来评判。

在强化学习领域，"从当前步到路径结束的累计奖励"被称为"奖励到去"，使用它来代替总路径奖励，本身就已经能有效减少噪音。但研究团队在此基础上又进了一步：他们发现，路径中不同位置的"奖励到去"期望值是不同的。越靠近路径末尾的步骤，未来可以积累的奖励自然越少。如果用一个统一的基线值来评判所有位置，就会产生系统性的偏差。

ProRL的做法是，针对路径中的每个位置，分别计算一个"基准值"：把同一批采样路径中，到达该位置的所有路径在该位置之后的平均累计奖励，作为评判该位置选择好坏的参照点。第一步的选择和其他第一步比，第五步的选择和其他第五步比，这样才公平。

这种位置特定的基线，无需额外训练一个专门的"评论家网络"（在传统的A2C算法中，通常需要这样一个辅助模型），完全依赖当前批次的采样统计来计算，既简单又稳定。

四、实验数据：数字背后的真实差距

研究团队在三个真实世界的数据集上对ProRL进行了全面测试，分别是电影领域的MovieLens-1M、游戏领域的Steam，以及电商领域的Amazon-Book。

评估指标有四个维度。"兴趣增量"衡量用户看完引导路径后对目标内容的兴趣是否真正提升了（数值越高越好）。"排名提升"衡量目标内容在用户个性化推荐列表中的排名提升了多少位（数值越高越好）。"点击率"衡量路径中每一步的推荐内容是否被用户接受（越高越好）。"语义连贯性"衡量路径中相邻推荐内容之间是否具有自然的关联（越高越好）。

对比的基准方法涵盖了四大类：以GRU4Rec、BERT4Rec、LightSANs、FEARec为代表的传统序列推荐方法；以IRN为代表的监督学习主动推荐方法；以IPG和ITMPRec为代表的启发式贪心方法；以及以LLM-IPP和T-PRA为代表的大语言模型方法。

ProRL在几乎所有指标上都拿到了第一名，差距尤为显著。以MovieLens-1M为例，ProRL的点击率达到0.8543，而最强的竞争对手IRN仅有0.8398；兴趣增量方面ProRL达到2.8504，而最好的竞争对手LLM-IPP和T-PRA分别只有2.4680和2.4867；排名提升方面ProRL达到728.18，而T-PRA的355.16是第二名，ProRL几乎是其两倍。在Amazon-Book数据集上，ProRL的排名提升高达1383.41，而同类方法中最好的ITMPRec仅有472.50，差距更为悬殊。

有一个现象特别值得关注：语义连贯性这个指标，完全没有被纳入训练的奖励函数中，ProRL并没有被"教导"要生成连贯的路径。但实验结果显示，ProRL在这个指标上同样大幅领先所有基准方法。在MovieLens-1M上，ProRL的语义连贯性达到0.8422，而得分最高的竞争对手LLM-IPP只有0.6288。这说明ProRL学到的是真正高质量的路径规划原则，而不仅仅是在拟合训练奖励。

五、消融实验：拆开来看，哪块是真正的功臣

为了验证ProRL中每个组件的实际贡献，研究团队做了系统的消融实验，也就是逐个去掉某个组件，看性能如何变化。

去掉"逐步奖励中心化"之后，一个有趣的现象出现了：点击率反而比完整ProRL更高！在MovieLens-1M上甚至达到了0.9731。但代价是兴趣增量和排名提升大幅下滑。这个现象恰好印证了团队的诊断：没有中心化机制，系统在训练时被点击率奖励的正向平均值所主导，一门心思优化短期的用户点击，完全忽略了更难获取但更重要的引导效果信号。系统产生了严重的目标偏移，优化了一个容易优化的目标，却牺牲了真正想要的目标。

去掉"位置特定优势估计"之后，三项指标都有所下降，其中引导效果类指标的下降幅度尤为明显。这证实了减少梯度方差对于让模型学到正确的路径策略至关重要。

研究团队还专门比较了五种不同的梯度估计方法：标准REINFORCE、奖励到去、GRPO（借鉴自大语言模型对齐领域）、A2C（使用神经网络评论家），以及ProRL自己的位置特定优势估计。实验发现，标准REINFORCE会导致路径长度在训练早期快速坍缩到只有1到2步；GRPO则相反，路径长度始终卡在最大长度10步，全程没有变化；A2C表现介于两者之间，但梯度方差在训练过程中反而越来越大（因为评论家网络无法跟上快速变化的策略）；只有ProRL的奖励到去和位置特定优势估计组合，能够让路径长度稳定在3到4步这个合理区间，梯度方差也持续保持在最低水平，约为标准REINFORCE的5%。

六、预训练与强化学习的分工协作

ProRL的训练分为两个阶段，两者缺一不可，分工明确。

第一阶段是监督预训练。研究团队首先从历史交互数据中挖掘出高质量的"平滑引导轨迹"——那些相邻内容之间具有自然关联的用户行为序列。他们用两种方式来判断"相邻内容有没有关联"：在有知识图谱的数据集中，判断两个内容是否共享至少一个属性（比如类型、导演等）；在没有结构化元数据的场景下，则用大语言模型来判断两个内容之间的过渡是否自然。这些筛选后的数据被用来预训练一个轻量级的编码器-解码器模型，让它先学会"怎么样的路径是合理的"。

研究团队发现，预训练的完成度对后续强化学习的效果有决定性影响。只用1%的预训练数据初始化的模型，在强化学习阶段几乎学不到任何有用的东西，兴趣增量接近于零；而用完整100%数据预训练的模型，强化学习阶段的效果显著优于66%和33%预训练完成度的版本。这说明预训练不只是一个热身步骤，而是为强化学习提供了一张"语义地图"，让模型在一个合理的搜索空间内探索，而不是在茫茫无际的路径空间中盲目乱撞。

第二阶段是强化学习优化。在预训练模型的基础上，用ProRL的两个修复机制来引导模型向"路径真正有效"的方向进化。这一阶段的效果在数据上体现得非常清晰：预训练结束后，模型的点击率已经相当不错（MovieLens-1M上达到0.8671），但兴趣增量只有0.8600，排名提升只有254；经过强化学习优化之后，兴趣增量跳升到2.8504，排名提升跳升到728。

一个有趣的补充实验进一步揭示了强化学习的本质作用。研究团队从预训练模型中同时采样10条路径，记录其中最好的兴趣增量和排名提升，结果发现这些"最优样本"的指标几乎和完整ProRL的最终效果相当（最优兴趣增量达到3.3585，最优排名提升达到851）。这说明强化学习并没有凭空给模型灌输新能力，而是把原本存在于预训练模型"潜力库"里的优秀路径，从低概率区域"打捞"出来，让模型在实际推理时就能更高概率地生成这类优质路径。

七、泛化能力：换个评判标准还能赢吗

有一种担忧是：推荐系统的评估依赖于一个"用户模拟器"（在这项研究中是SASRec模型），模型在训练时的优化目标和评估标准高度一致，会不会只是学会了"迎合这个特定的评判者"，换一个评判者就不行了？

为了验证这一点，研究团队用三个在训练过程中完全没有见过的推荐模型（GRU4Rec、BERT4Rec、LightSANs）作为"陌生评判者"来重新评估所有方法。结果显示，ProRL在这些陌生评判者下同样保持了全面领先的优势。例如以LightSANs为评判者时，ProRL的排名提升在MovieLens-1M上达到755.83，在Amazon-Book上达到1286.74，依然大幅超越所有竞争对手。这说明ProRL学到的是具有普遍性的引导原则，而不是针对某个特定评估模型的"刷分技巧"。

此外，研究团队还测试了ProRL在不同目标难度下的鲁棒性。他们选取了不同"用户本来就对目标内容有多少兴趣"的测试样本，从相对容易引导的（用户已经有一定兴趣）到相对困难的（用户对目标内容几乎没有兴趣），结果显示ProRL在各种难度下都保持了稳定的领先优势，没有出现"容易的情况表现好、困难的情况崩盘"的问题。

归根结底，这项研究做了一件很有价值的事：它不满足于"提出一个新方法然后看它好用"，而是深入追问"为什么旧方法不好用"，找到了两个具体的、可以用数学语言精确描述的缺陷，然后给出了针对性的修复方案，并用严格的实验来验证每个修复点的独立贡献。

从实际应用的角度看，ProRL用的基础模型非常轻量——只有大约200万参数，远比大语言模型方法便宜。它既不依赖昂贵的大模型推理，也不需要在线的真实用户反馈，所有评估都依赖预先训练好的用户模拟器离线完成。这些特性让它在实际部署中具有相当的可行性。

当然，这项研究也有其边界。用户模拟器本身的质量决定了整个系统的上限——如果模拟器对用户偏好的估计本身就不准确，强化学习优化的方向就可能跑偏。另外，现实世界中用户的偏好是动态变化的，而这套框架目前更偏向于静态的偏好建模。如何把动态偏好演变融入进来，或许是未来值得探索的方向。

这项研究还提出了一个更广泛的思考：在很多序列生成任务中，奖励的分解结构很可能导致类似的"长度捷径"问题，不只是推荐系统领域。研究团队提出的"让路径延长带来零期望收益"这一原则，或许在其他应用强化学习的序列决策场景中同样具有参考价值。

对"主动推荐"感兴趣的读者，有兴趣进一步研读原始论文的话，可以通过arXiv编号2605.28293获取全文，论文同时提供了完整的代码实现，可在GitHub上通过搜索"ProRL"找到。

---

Q&A

Q1：主动推荐系统和普通推荐系统有什么区别？

A：普通推荐系统就像一面镜子，你喜欢什么它就给你看什么，目标是精准匹配已有偏好。主动推荐系统（PRS）则更像一个导游，它有一个平台指定的"目标内容"，会规划一条由中间过渡内容组成的路径，一步步把用户的兴趣从当前偏好引导到目标内容，整个过程中每一步都要保持用户愿意点击。

Q2：ProRL中的"长度捷径"问题是怎么产生的？

A：主动推荐的路径总奖励可以拆解为每步小奖励的累加，而每步奖励的期望值通常是正数。这就造成了一个数学上的漏洞：路径越长，期望总分越高。强化学习算法发现这个规律后，会一味延长路径来提升分数，而不去认真探索每步推荐什么内容，最终导致生成又长又雷同的低质量路径。

Q3：ProRL为什么在语义连贯性这个没有被训练的指标上也表现突出？