微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

R?ec：思考与推荐融为一体，香港理工大学研究团队打造新一代大型推荐系统

人工智能大型推荐模型强化学习

R?ec：思考与推荐融为一体，香港理工大学研究团队打造新一代大型推荐系统

作者：科技行者

2025-06-06 14:16

分享至：

这项研究由香港理工大学和新加坡国立大学的团队共同完成，提出了R?ec，首个将推理能力内置于大型推荐模型的统一框架。与传统方法不同，R?ec在单一自回归过程中实现了推理生成和物品预测的无缝整合。研究者还设计了RecPO优化框架，无需人工标注即可同时提升模型的推理和推荐能力。实验结果显示，R?ec在三个数据集上显著超越现有方法，在Hit@5和NDCG@20指标上分别提升68.67%和45.21%。这一突破为下一代智能推荐系统开辟了新方向。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-06 14:16 • 科技行者

你是否曾好奇，AI如何知道你喜欢什么？为什么Netflix总能推荐你感兴趣的电影，亚马逊能预测你想买的商品？这背后的魔法不仅仅是记住你看过什么或买过什么，而是一个复杂的"思考"过程。今天，我们将深入探讨一项来自香港理工大学、新加坡国立大学等机构的前沿研究，由Runyang You、Yongqi Li（通讯作者）、Xinyu Lin等研究者联合完成，发表于2025年5月的arXiv预印本平台，论文编号为arXiv:2505.16994v1。

为什么推荐系统需要"思考"？

想象一下，如果你刚刚购买了一台笔记本电脑，传统的推荐系统可能会立即向你推荐鼠标、键盘或笔记本包。但是，如果系统能像人类一样先思考一下："这位用户刚买了高端游戏笔记本，根据他的浏览历史，他似乎是一位游戏爱好者，所以他可能需要游戏鼠标而非普通鼠标，可能需要机械键盘而非普通键盘..."，这样的推荐会不会更准确？

这正是R?ec（读作"R-square-ec"，代表具有推理能力的大型推荐模型）所要解决的问题。近年来，大型语言模型（LLM）展现了令人印象深刻的理解能力和生成能力，研究人员开始探索如何将LLM应用于推荐系统。已有的尝试主要将LLM用作强大的编码器来嵌入用户（及其历史交互）信息，或将物品预测重新定义为自回归生成物品标识符的任务。

然而，最新的LLM发展表明，模型的能力不仅取决于其规模，还取决于推理过程。比如，DeepSeek-R1展示了在推理过程中增加额外计算可以显著提升LLM在数学、编程和科学问题求解方面的能力。既然大型推荐模型是从预训练的LLM实例化而来，那么，推理能力是否也能提升推荐效果呢？

现有方法的局限性

当前研究已初步探索了LLM推理在推荐领域的应用，包括用户偏好分析、合成物品简介丰富、用户搜索查询重写和评分预测。这些方法通常将LLM作为外部推理模块，为常规推荐管道提供辅助思考。

这就像是请了一位顾问（LLM）来分析用户数据并给出建议，然后另一个系统（推荐模型）根据这些建议做出最终决策。虽然这种方法有效，但存在两个关键限制：

首先是资源成本高昂。两个不同的模块（大型推理模型和推荐模型）必须并行训练、存储和提供服务，这增加了内存占用和推理延迟。想象一下，你需要同时雇佣两位专家（一位分析师和一位决策者）而非一位全能型专家，显然成本会更高。

其次是联合优化次优。推理和推荐模块只能通过冻结一个模块而更新另一个模块的方式训练——先更新推理模块，然后切换到推荐模块，并继续交替进行。这种交替优化方案阻止了管道间的梯度流动，无法实现真正的端到端学习，阻碍了推理和排名目标之间的细粒度对齐，最终导致收敛效果不佳。这就像两个专家各自独立工作，而非无缝协作，自然效率不高。

R?ec：统一的推荐和推理模型

为解决上述问题，研究团队提出了R?ec（大型推荐模型与推理）。这是首个将推理能力内在整合到大型推荐模型中的统一架构。不同于将推理和推荐视为两个独立任务，R?ec将它们融合在一个自回归过程中。

### 模型设计：两个头的智慧

R?ec的核心架构基于一个解码器模型，配备两个任务特定的"头"：

1. 语言建模头（lm_head）：负责生成推理令牌。它使用的是令牌嵌入表HT，其中每行是一个令牌的嵌入向量。

2. 推荐头（rec_head）：用于给物品评分并进行推荐。它使用的是物品嵌入表HV，其中每行代表一个物品的嵌入向量，通过将物品描述输入模型并提取最终隐藏状态获得。

这种设计就像一个拥有两种专长的大脑：一方面可以产生连贯的语言来解释思考过程，另一方面可以准确评估和排序物品。更重要的是，这两个"头脑"共享同一个底层神经网络，能够相互协作和增强。

与需要硬编码令牌化的生成式推荐系统不同，R?ec支持灵活且可扩展的物品更新，只需添加、删除或替换物品嵌入表中的向量即可。这使其能够有效处理零样本泛化并适应大规模物品目录，而不会严重降低推荐质量或效率。

### 推理过程：先思考，再推荐

在实际使用时，R?ec的工作流程非常直观：

1. 首先，模型接收用户的历史交互信息（如之前购买的物品及评分）。

2. 语言建模头开始生成一系列推理令牌，这些令牌表达了对用户偏好的分析和理解。这就像是模型在"思考"，分析用户的品味和可能的需求。

3. 当推理完成后，最终的隐藏状态被传递给推荐头，用于计算每个候选物品的分数，并确定最终排名。

这种设计建立了推理和推荐之间的紧密联系，因为两个头共享相同的隐藏状态空间。推理直接重塑最终隐藏状态，从而产生更准确的推荐分数。这种对齐确保了推理优化直接贡献于更精细的推荐。

RecPO：推理与推荐的联合优化

设计统一的模型架构只是第一步。下一个挑战是：如何训练这个模型同时具备推理和推荐能力？这并不简单，主要有两个难点：

1. 如何在一个统一的模型中结合生成式推理（需要生成文本）和判别式推荐（需要给物品评分）？

2. 如何在没有推理注释的情况下（因为个性化推荐理由难以获取）激发和优化大型推荐模型的推理能力？

为解决这些问题，研究团队提出了RecPO（推荐策略优化），一种基于强化学习的训练框架，无需人工推理注释就能优化推理和推荐能力。

### 轨迹采样：探索不同的思考路径

在RecPO中，一个"轨迹"包含整个推理-然后-推荐过程：从用户输入，到生成多个推理令牌，最后推荐目标物品。

对于每个用户，模型首先使用旧策略πθold通过温度控制的top-K采样生成G个不同的推理{oi}。这些采样的推理然后通过策略πθ产生完整的推理-推荐轨迹，随后用于奖励计算和优势估计。

这就像是让模型尝试G种不同的思考方式，然后评估哪种思考路径最能引导正确的推荐。

### 奖励和优势估计：评价思考质量

在实践中，研究团队发现仅使用推荐指标作为奖励是不够的，因为许多质量各异的轨迹可能导致相同的top-K排名结果。因此，他们引入了融合奖励方案，结合离散排名奖励Rd和连续相似度奖励Rc：

- Rd是NDCG指标，直接反映推荐质量 - Rc是目标物品与所有物品的softmax相似度 - 最终奖励R = βRc + (1-β)Rd，其中β≈0.05，保持排名项占主导地位的同时，在获得相同排名的轨迹间提供足够区分度

有了奖励后，系统可以计算每个轨迹的"优势"，即该轨迹比平均水平好多少，从而指导模型优化。

### 训练目标：统一推理和推荐

RecPO的关键创新在于将整个推理-然后-推荐序列视为单个强化学习轨迹。策略优化因此在一个复合动作空间上操作，策略首先做出令牌级决策生成推理，然后在推荐阶段选择一个物品。

具体来说，模型通过标准的PPO（近端策略优化）方法更新，但有两个关键设计：

1. 所有轨迹都通过标准的裁剪目标函数贡献令牌级策略更新，确保策略从多样的推理行为中学习。

2. 对于最后的推荐动作，只有优势最高的轨迹（即最有希望的推理路径）贡献梯度进行推荐优化。

这种设计既保留了推理行为的充分探索，又确保了有效的推荐学习，就像是允许模型尝试多种思考方式，但最终只采纳最成功的那条路径来指导其推荐决策。

实验结果：思考带来更好的推荐

研究团队在三个亚马逊数据集上进行了广泛实验：CD和黑胶唱片（CDs）、电子游戏（Games）和乐器（Instruments）。实验结果令人印象深刻：

1. 整体性能：R?ec在所有数据集上一致优于所有竞争基线，在Hit@5指标上相对提升68.67%，在NDCG@20指标上相对提升45.21%。这强有力地证明了联合优化推理和推荐的价值。

2. 传统方法在Instruments数据集上表现良好，但在CDs和Games上表现较差，揭示了它们的泛化能力有限。LangPTune经常排名第二，验证了将显式推理整合到推荐管道中的好处。

3. 模型对比：使用Gemma作为骨干的模型一致优于使用更大参数的Qwen，对于D3模型甚至实现了高达2倍的提升——这表明Gemma可能普遍提供更强的推荐性能，尽管其参数量更小（2B vs 3B）。

### 消融研究：每个组件都很重要

为了理解各个组件的贡献，研究团队评估了以下变体：

1. "没有推理"：从提示中删除推理令牌，仅使用批内对比损失进行训练。

2. "没有Rc"：只保留离散排名奖励Rd，移除连续相似度奖励Rc。

3. "没有Rd"：从融合奖励中移除离散排名奖励Rd。

结果表明，R?ec比"没有推理"的变体在所有指标上平均提高约15%。这一显著提升证明了设计的优化使R?ec能够更好地利用测试时间推理来提供更强的推荐性能。

此外，"没有Rc"（仅使用Rd）始终优于"没有Rd"（仅使用Rc），这表明采用直接反映评估结果的奖励信号对训练至关重要，而连续奖励Rc尽管提供更细粒度的区分，但如果单独使用，反而会引入噪声导致次优性能。

通过融合Rd和适量的Rc，R?ec在保持任务对齐的同时从连续项获益，实现了几乎所有指标上的最佳性能。

### 深入分析：优势估计和轨迹采样

研究团队还进行了多项深入分析：

1. 优势估计方法：评估了两种估计器GRPO和RLOO在训练过程中的表现。结果显示GRPO学习速度更快，验证奖励更高，原因是其单位方差归一化将奖励放大为更大的梯度，加速早期学习。有趣的是，GRPO的推理长度随训练进展逐渐增加，这与LLM推理训练中观察到的现象一致。

2. 轨迹采样：增加温度会产生更长的推理并提升推荐性能，这是因为更高的温度引入更大的采样熵，使模型能够探索更广泛的推理轨迹。相反，增加top-K实际上会缩短推理长度并通常导致推荐性能下降，这是因为更大的top-K会扩大候选令牌集，反直觉地减轻了长度黑客行为，但过大的K会重新引入嘈杂的低质量样本。

3. 组大小：性能随组大小增加而提高，但改进速度逐渐放缓。结果表明选择6或8的组大小已足够，进一步增加组大小没有必要。两个骨干模型对组大小的敏感度存在差异：Qwen在组大小为1时的性能显著落后于Gemma，但随着组大小增加迅速提升。Gemma即使在较小组上也表现良好，这可能是因为其预训练接触了更广泛的推理场景，使其具备更强的初始推理-推荐能力。

案例研究：模型是如何"思考"的

通过案例分析，研究团队发现R?ec在不同领域展现出特定的推理行为：

1. 在CD数据集上，模型倾向于通过讨论几个潜在有趣的物品并明确列举它们的特点和流派来推理，然后提供最终推荐。这种行为突显了模型利用预训练中获得并通过RecPO强化的领域知识的能力。

2. 在电子游戏数据集上，模型转向从购买序列推断用户意图，推测下一次购买的可能类别或预期用途。这展示了从基于特征的枚举向意图驱动的推理的转变。

3. 值得注意的是，Gemma通常生成更短更简洁的推理序列，而Qwen则生成更详细的解释。这表明尽管两个模型都从显式推理中受益，但它们的生成风格和对预训练知识的依赖可能在不同领域和骨干选择下有所不同。

未来展望与局限性

尽管R?ec取得了显著的成果，研究团队也坦承其局限性：

1. 引入显式推理生成不可避免地增加了推理延迟并降低了效率，这是因为额外的自回归解码步骤。不过，研究团队的实验已经证实，与传统的两阶段方法相比，R?ec的效率提升了约10%。

2. 受计算资源限制，研究使用了参数高效微调（LoRA）而非全参数微调，这可能未能充分展示通过全面优化可能实现的更优性能。

未来，研究团队计划进一步探索更大推荐模型中的高效推理，努力在推荐中实现最佳的"思考"。

总结：推荐系统的思考革命

R?ec的创新之处在于将推理和推荐这两个原本分离的过程融为一体。就像人类在做决策前会思考一样，R?ec先"思考"用户的偏好和需求，然后再做出推荐。这种统一的方法不仅提高了推荐准确性，还增强了模型的可解释性，因为它可以告诉我们为什么做出特定推荐。