
这项由复旦大学数据科学学院主导的研究,发表于2026年第43届国际机器学习大会(ICML 2026,Seoul, South Korea, PMLR 306),论文编号为arXiv:2605.28293,有兴趣深入了解的读者可通过该编号查询完整论文。
你有没有遇到过这样的场景:你一直在某视频平台刷科幻电影,突然有一天平台想向你推荐一部喜剧片,但你对喜剧完全没有兴趣,直接划走了。平台的运营同学急得抓耳挠腮——他们手里有一部很好的喜剧,用户却完全不买账。硬推不行,软推又不知道怎么软。
这个困境,正是这篇论文要解决的核心问题。
一支来自复旦大学数据科学学院的研究团队,构建了一个叫做"ProRL"的推荐系统,它的核心思路不是硬塞内容给用户,而是像一个耐心的导游,先陪你走一段你熟悉的路,再一步一步把你引向你未曾踏足的新地方。更重要的是,团队在研究过程中发现了一个此前被忽视的关键漏洞:用来训练这类系统的标准强化学习方法,竟然存在两个根本性的缺陷,会让整个训练过程跑偏。他们深入剖析了这两个缺陷,并给出了精准的修复方案。
一、推荐系统界的"温水煮青蛙"策略
要理解这项研究的价值,得先聊聊"主动推荐系统"是什么。
普通的推荐系统就像一面镜子,你喜欢什么,它就给你看什么。你爱看科幻,它永远给你推科幻;你爱吃川菜,它永远给你推火锅。这当然没问题,用户体验不错,但平台有时候有自己的小算盘——它新签了一批喜剧版权,或者上了一条新的美食频道,需要用户去探索新的内容领域。
直接把新内容塞到推荐位?大多数时候用户会无情地划过去,因为和自己的口味完全不搭。
"主动推荐系统"(Proactive Recommender System,简称PRS)提供了一种更温柔的解法:与其一步跨越到目标内容,不如规划一条"过渡路径",先推一部融合了科幻和动画元素的《机器人总动员》,再推一部融合了动画和喜剧元素的《疯狂动物城》,最后才引入那部纯喜剧。每一步都在用户的接受范围之内,却在悄悄地把用户的偏好向目标方向拨动。这就是论文开头用《机器人总动员》→《疯狂动物城》→《白日梦想家》这条路径来举例说明的核心逻辑。
这种"温水煮青蛙"式的策略,需要同时满足两个要求。第一是路径上每一步的推荐都得让用户愿意点击,保持用户的持续参与;第二是整条路径走完之后,用户对目标内容的兴趣要真的有所提升。这两个目标必须同时优化,任何一个方面的妥协都会让整条路径失效。
二、强化学习本是解题妙手,却暗藏两个致命漏洞
面对"规划一条最优过渡路径"这个问题,研究团队自然想到了强化学习。这个方法的思路可以用"围棋训练"来理解:系统不断地生成推荐路径,然后根据路径的最终效果(用户是否真的对目标内容产生了兴趣)来判断这条路走得好不好,再调整下一次的策略。不断试错,不断进步。
这种方法理论上非常适合这类序列决策问题,因为每条路径的"好坏"可以用一个综合分数来量化——既考虑了每步是否被用户接受,也考虑了整体引导效果。
然而,当研究团队真正把标准的强化学习算法套到主动推荐任务上之后,他们发现了一个令人沮丧的现象:系统很快就学会了一种"投机取巧"的策略,而且在不同数据集、不同奖励设置下,这个问题几乎无一例外地出现。
具体来说,训练过程中,系统生成的推荐路径越来越长,逼近预设的最大长度上限;与此同时,生成的路径越来越雷同,多样性急剧下降。换句话说,不管是哪个用户,不管目标是什么内容,系统最终都吐出一条又长又千篇一律的推荐路径。这显然毫无意义。
研究团队没有简单地把这个现象归结为"调参问题",而是深挖背后的数学原因,最终找到了两个根本性的缺陷。
第一个缺陷叫做"长度捷径"。原来,用于衡量路径质量的综合奖励分数,可以被拆解成每一步的小奖励之和。而每一步的小奖励,平均来说是正数。这就产生了一个微妙但致命的后果:从数学期望上看,路径越长,总得分越高。对强化学习算法来说,这相当于发现了一个"作弊方法"——不需要真正思考每步推荐什么内容,只需要让路径变得更长,分数就会自动提升。算法发现这个规律之后,当然会一头扎进去,不停地延长路径,完全放弃了对"推荐什么"的深入探索。
研究团队还为这个现象提供了严格的数学证明。他们构建了一个简化模型,理论上推导出:只要每步奖励的期望值大于零,强化学习的梯度更新就会系统性地降低"停止生成"的概率,让路径无止境地延长。而且这个下降的速度遵循O(1/s)的规律,意思是随着训练步骤的推进,停止概率以一种稳定的速率趋向于零,这是结构性的必然结果,不是偶然的训练不稳定。
第二个缺陷叫做"高梯度方差"。梯度在强化学习中扮演着"指路牌"的角色,告诉模型应该往哪个方向调整参数才能生成更好的路径。然而,标准算法用整条路径的总分来给每一步的推荐打分,这就相当于:第一步推荐了《机器人总动员》,它的好坏却被整条路径(包括第五步、第八步)的总分来评判。但第一步的选择根本不影响它之后的历史,这种"连坐"式的评分引入了大量无关的噪音,导致"指路牌"东倒西歪,模型很难从中获得清晰稳定的学习信号。
三、ProRL的两剂精准药方
正是基于对上述两个缺陷的深刻理解,研究团队提出了ProRL框架,其中包含两个量身定制的修复机制。
第一个机制叫做"逐步奖励中心化"。解决"长度捷径"的关键,就是让路径延长这件事本身不再带来额外的期望收益。做法听起来简单,却直击要害:在计算每一步的奖励时,减去该步奖励的平均值。这个操作的效果是,原本每步都有正向平均期望的奖励,变成了围绕零点波动的奖励。延长路径不再自动带来更高的期望总分,算法必须真正靠着选择好的内容来提升分数。
在实际操作中,研究团队先跑一个"热身轮次",收集大量路径样本,统计出每一步奖励的均值和方差,然后把这些统计量固定下来,在后续所有训练中使用。这里有个技术细节值得一提:如果让均值和方差随着模型的不断改进而动态更新,就会产生"校准目标一直在移动"的不稳定问题,所以用早期样本固定下来是更稳健的做法。
针对多个奖励目标并存的情况(既要考虑点击率,又要考虑兴趣增量,还要考虑排名变化),团队进一步把"中心化"扩展为"归一化":不仅减去每个目标的均值,还除以其标准差,让不同量级的奖励信号都缩放到可以比较的范围内。这样三个奖励目标就可以平等地参与训练,不会让某一个因为数值特别大而主导整个优化过程。
第二个机制叫做"位置特定优势估计"。要解决梯度方差高的问题,核心思路是让每一步的评分只考虑"它能影响的未来",而不是用整条路径的总分来评判。
在强化学习领域,"从当前步到路径结束的累计奖励"被称为"奖励到去",使用它来代替总路径奖励,本身就已经能有效减少噪音。但研究团队在此基础上又进了一步:他们发现,路径中不同位置的"奖励到去"期望值是不同的。越靠近路径末尾的步骤,未来可以积累的奖励自然越少。如果用一个统一的基线值来评判所有位置,就会产生系统性的偏差。
ProRL的做法是,针对路径中的每个位置,分别计算一个"基准值":把同一批采样路径中,到达该位置的所有路径在该位置之后的平均累计奖励,作为评判该位置选择好坏的参照点。第一步的选择和其他第一步比,第五步的选择和其他第五步比,这样才公平。
这种位置特定的基线,无需额外训练一个专门的"评论家网络"(在传统的A2C算法中,通常需要这样一个辅助模型),完全依赖当前批次的采样统计来计算,既简单又稳定。
四、实验数据:数字背后的真实差距
研究团队在三个真实世界的数据集上对ProRL进行了全面测试,分别是电影领域的MovieLens-1M、游戏领域的Steam,以及电商领域的Amazon-Book。
评估指标有四个维度。"兴趣增量"衡量用户看完引导路径后对目标内容的兴趣是否真正提升了(数值越高越好)。"排名提升"衡量目标内容在用户个性化推荐列表中的排名提升了多少位(数值越高越好)。"点击率"衡量路径中每一步的推荐内容是否被用户接受(越高越好)。"语义连贯性"衡量路径中相邻推荐内容之间是否具有自然的关联(越高越好)。
对比的基准方法涵盖了四大类:以GRU4Rec、BERT4Rec、LightSANs、FEARec为代表的传统序列推荐方法;以IRN为代表的监督学习主动推荐方法;以IPG和ITMPRec为代表的启发式贪心方法;以及以LLM-IPP和T-PRA为代表的大语言模型方法。
ProRL在几乎所有指标上都拿到了第一名,差距尤为显著。以MovieLens-1M为例,ProRL的点击率达到0.8543,而最强的竞争对手IRN仅有0.8398;兴趣增量方面ProRL达到2.8504,而最好的竞争对手LLM-IPP和T-PRA分别只有2.4680和2.4867;排名提升方面ProRL达到728.18,而T-PRA的355.16是第二名,ProRL几乎是其两倍。在Amazon-Book数据集上,ProRL的排名提升高达1383.41,而同类方法中最好的ITMPRec仅有472.50,差距更为悬殊。
有一个现象特别值得关注:语义连贯性这个指标,完全没有被纳入训练的奖励函数中,ProRL并没有被"教导"要生成连贯的路径。但实验结果显示,ProRL在这个指标上同样大幅领先所有基准方法。在MovieLens-1M上,ProRL的语义连贯性达到0.8422,而得分最高的竞争对手LLM-IPP只有0.6288。这说明ProRL学到的是真正高质量的路径规划原则,而不仅仅是在拟合训练奖励。
五、消融实验:拆开来看,哪块是真正的功臣
为了验证ProRL中每个组件的实际贡献,研究团队做了系统的消融实验,也就是逐个去掉某个组件,看性能如何变化。
去掉"逐步奖励中心化"之后,一个有趣的现象出现了:点击率反而比完整ProRL更高!在MovieLens-1M上甚至达到了0.9731。但代价是兴趣增量和排名提升大幅下滑。这个现象恰好印证了团队的诊断:没有中心化机制,系统在训练时被点击率奖励的正向平均值所主导,一门心思优化短期的用户点击,完全忽略了更难获取但更重要的引导效果信号。系统产生了严重的目标偏移,优化了一个容易优化的目标,却牺牲了真正想要的目标。
去掉"位置特定优势估计"之后,三项指标都有所下降,其中引导效果类指标的下降幅度尤为明显。这证实了减少梯度方差对于让模型学到正确的路径策略至关重要。
研究团队还专门比较了五种不同的梯度估计方法:标准REINFORCE、奖励到去、GRPO(借鉴自大语言模型对齐领域)、A2C(使用神经网络评论家),以及ProRL自己的位置特定优势估计。实验发现,标准REINFORCE会导致路径长度在训练早期快速坍缩到只有1到2步;GRPO则相反,路径长度始终卡在最大长度10步,全程没有变化;A2C表现介于两者之间,但梯度方差在训练过程中反而越来越大(因为评论家网络无法跟上快速变化的策略);只有ProRL的奖励到去和位置特定优势估计组合,能够让路径长度稳定在3到4步这个合理区间,梯度方差也持续保持在最低水平,约为标准REINFORCE的5%。
六、预训练与强化学习的分工协作
ProRL的训练分为两个阶段,两者缺一不可,分工明确。
第一阶段是监督预训练。研究团队首先从历史交互数据中挖掘出高质量的"平滑引导轨迹"——那些相邻内容之间具有自然关联的用户行为序列。他们用两种方式来判断"相邻内容有没有关联":在有知识图谱的数据集中,判断两个内容是否共享至少一个属性(比如类型、导演等);在没有结构化元数据的场景下,则用大语言模型来判断两个内容之间的过渡是否自然。这些筛选后的数据被用来预训练一个轻量级的编码器-解码器模型,让它先学会"怎么样的路径是合理的"。
研究团队发现,预训练的完成度对后续强化学习的效果有决定性影响。只用1%的预训练数据初始化的模型,在强化学习阶段几乎学不到任何有用的东西,兴趣增量接近于零;而用完整100%数据预训练的模型,强化学习阶段的效果显著优于66%和33%预训练完成度的版本。这说明预训练不只是一个热身步骤,而是为强化学习提供了一张"语义地图",让模型在一个合理的搜索空间内探索,而不是在茫茫无际的路径空间中盲目乱撞。
第二阶段是强化学习优化。在预训练模型的基础上,用ProRL的两个修复机制来引导模型向"路径真正有效"的方向进化。这一阶段的效果在数据上体现得非常清晰:预训练结束后,模型的点击率已经相当不错(MovieLens-1M上达到0.8671),但兴趣增量只有0.8600,排名提升只有254;经过强化学习优化之后,兴趣增量跳升到2.8504,排名提升跳升到728。
一个有趣的补充实验进一步揭示了强化学习的本质作用。研究团队从预训练模型中同时采样10条路径,记录其中最好的兴趣增量和排名提升,结果发现这些"最优样本"的指标几乎和完整ProRL的最终效果相当(最优兴趣增量达到3.3585,最优排名提升达到851)。这说明强化学习并没有凭空给模型灌输新能力,而是把原本存在于预训练模型"潜力库"里的优秀路径,从低概率区域"打捞"出来,让模型在实际推理时就能更高概率地生成这类优质路径。
七、泛化能力:换个评判标准还能赢吗
有一种担忧是:推荐系统的评估依赖于一个"用户模拟器"(在这项研究中是SASRec模型),模型在训练时的优化目标和评估标准高度一致,会不会只是学会了"迎合这个特定的评判者",换一个评判者就不行了?
为了验证这一点,研究团队用三个在训练过程中完全没有见过的推荐模型(GRU4Rec、BERT4Rec、LightSANs)作为"陌生评判者"来重新评估所有方法。结果显示,ProRL在这些陌生评判者下同样保持了全面领先的优势。例如以LightSANs为评判者时,ProRL的排名提升在MovieLens-1M上达到755.83,在Amazon-Book上达到1286.74,依然大幅超越所有竞争对手。这说明ProRL学到的是具有普遍性的引导原则,而不是针对某个特定评估模型的"刷分技巧"。
此外,研究团队还测试了ProRL在不同目标难度下的鲁棒性。他们选取了不同"用户本来就对目标内容有多少兴趣"的测试样本,从相对容易引导的(用户已经有一定兴趣)到相对困难的(用户对目标内容几乎没有兴趣),结果显示ProRL在各种难度下都保持了稳定的领先优势,没有出现"容易的情况表现好、困难的情况崩盘"的问题。
归根结底,这项研究做了一件很有价值的事:它不满足于"提出一个新方法然后看它好用",而是深入追问"为什么旧方法不好用",找到了两个具体的、可以用数学语言精确描述的缺陷,然后给出了针对性的修复方案,并用严格的实验来验证每个修复点的独立贡献。
从实际应用的角度看,ProRL用的基础模型非常轻量——只有大约200万参数,远比大语言模型方法便宜。它既不依赖昂贵的大模型推理,也不需要在线的真实用户反馈,所有评估都依赖预先训练好的用户模拟器离线完成。这些特性让它在实际部署中具有相当的可行性。
当然,这项研究也有其边界。用户模拟器本身的质量决定了整个系统的上限——如果模拟器对用户偏好的估计本身就不准确,强化学习优化的方向就可能跑偏。另外,现实世界中用户的偏好是动态变化的,而这套框架目前更偏向于静态的偏好建模。如何把动态偏好演变融入进来,或许是未来值得探索的方向。
这项研究还提出了一个更广泛的思考:在很多序列生成任务中,奖励的分解结构很可能导致类似的"长度捷径"问题,不只是推荐系统领域。研究团队提出的"让路径延长带来零期望收益"这一原则,或许在其他应用强化学习的序列决策场景中同样具有参考价值。
对"主动推荐"感兴趣的读者,有兴趣进一步研读原始论文的话,可以通过arXiv编号2605.28293获取全文,论文同时提供了完整的代码实现,可在GitHub上通过搜索"ProRL"找到。
---
Q&A
Q1:主动推荐系统和普通推荐系统有什么区别?
A:普通推荐系统就像一面镜子,你喜欢什么它就给你看什么,目标是精准匹配已有偏好。主动推荐系统(PRS)则更像一个导游,它有一个平台指定的"目标内容",会规划一条由中间过渡内容组成的路径,一步步把用户的兴趣从当前偏好引导到目标内容,整个过程中每一步都要保持用户愿意点击。
Q2:ProRL中的"长度捷径"问题是怎么产生的?
A:主动推荐的路径总奖励可以拆解为每步小奖励的累加,而每步奖励的期望值通常是正数。这就造成了一个数学上的漏洞:路径越长,期望总分越高。强化学习算法发现这个规律后,会一味延长路径来提升分数,而不去认真探索每步推荐什么内容,最终导致生成又长又雷同的低质量路径。
Q3:ProRL为什么在语义连贯性这个没有被训练的指标上也表现突出?
A:ProRL通过"逐步奖励中心化"和"位置特定优势估计"两个机制,消除了梯度估计中的噪音和偏差,让模型真正学到了高质量路径的规划原则,而不是单纯拟合训练奖励。加上预训练阶段使用了基于语义关联筛选的高质量数据,模型内化了"相邻内容应当自然衔接"的原则,因此在没有被明确奖励的连贯性指标上也表现出色。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。