基于意图对比学习的序列推荐（ICLRec）

1. 引言

序列推荐旨在根据用户的历史行为序列预测其下一次交互。尽管深度学习模型已取得最先进的性能，但它们往往忽略了驱动用户行为的底层潜在意图（例如，“购买渔具”、“为假期做准备”）。这些意图虽不可直接观测，但对于理解用户动机、提升推荐准确性和鲁棒性至关重要，尤其是在数据稀疏或存在噪声的场景下。

本文提出了意图对比学习，这是一种新颖的范式，它将一个潜在意图变量引入序列推荐模型。其核心思想是从无标签序列中学习用户意图分布，并利用对比自监督学习优化序列推荐模型，使序列的不同视图与其对应的意图对齐。

2. 背景与相关工作

2.1 序列推荐

诸如GRU4Rec、SASRec和BERT4Rec等模型能够捕捉时序动态，但通常将行为建模为物品的直接序列，忽略了更高阶的意图信号。

2.2 意图建模

以往的意图感知模型通常依赖于显式的辅助信息（如查询、类别）。ICL的创新之处在于直接从隐式行为序列中学习意图。

2.3 对比学习

受计算机视觉（如SimCLR、MoCo）和自然语言处理领域成功的启发，对比学习旨在最大化同一数据不同增强视图之间的一致性。ICL将这一思想应用于对齐行为序列与其潜在意图。

3. 方法论：意图对比学习（ICL）

3.1 问题定义

给定用户 $u$ 及其交互序列 $S^u = [v_1^u, v_2^u, ..., v_t^u]$，目标是预测下一个物品 $v_{t+1}^u$。ICL引入了一个潜在意图变量 $z$ 来解释该序列。

3.2 潜在意图变量

意图 $z$ 被建模为一个分类变量，代表序列背后的潜在动机。模型学习一个分布 $p(z | S^u)$。

3.3 通过聚类学习意图分布

对用户序列表示进行聚类（例如使用K-means），以发现 $K$ 个潜在意图原型。每个聚类中心代表一种意图。

3.4 对比自监督学习

核心学习信号来自对比损失。对于一个序列 $S$，创建两个增强视图（$S_i$, $S_j$）。模型训练的目标是拉近序列表示与其分配的意图聚类表示之间的距离，同时推远与其他意图的距离。正样本对（序列，其意图）的对比损失基于InfoNCE损失：

$\mathcal{L}_{cont} = -\log \frac{\exp(\text{sim}(f(S), g(z)) / \tau)}{\sum_{z' \in \mathcal{Z}} \exp(\text{sim}(f(S), g(z')) / \tau)}$

其中 $f$ 是序列编码器，$g$ 是意图嵌入函数，$\text{sim}$ 是相似度函数（如余弦相似度），$\tau$ 是温度参数。

3.5 基于广义EM框架的训练

训练在广义期望最大化框架内交替进行两个步骤：

E步（意图推断）： 在给定当前模型参数的情况下，估计每个序列潜在意图 $z$ 的后验分布。
M步（模型更新）： 通过最大化期望对数似然来更新序列推荐模型参数，该期望包含标准的下一个物品预测损失和对比损失 $\mathcal{L}_{cont}$。

这个迭代过程同时优化了意图理解和推荐质量。

4. 实验与结果

4.1 数据集与基线模型

实验在四个真实世界数据集上进行：Beauty、Sports、Toys和Yelp。基线模型包括最先进的序列推荐模型（SASRec、BERT4Rec）和自监督方法（CL4SRec）。

性能摘要（NDCG@10）

SASRec： 0.0452 (Beauty)
BERT4Rec： 0.0471 (Beauty)
CL4SRec： 0.0498 (Beauty)
ICL（本文方法）： 0.0524 (Beauty)

ICL在所有数据集上均一致优于所有基线模型。

4.2 性能对比

ICL在召回率和NDCG指标上取得了显著提升（例如，在Beauty数据集上NDCG@10比最佳基线高出+5.2%），证明了潜在意图建模的有效性。

4.3 鲁棒性分析

一个关键贡献是提升了鲁棒性。ICL在数据稀疏（使用更短的序列）和存在噪声交互（随机插入无关物品）的情况下均表现出更优的性能。意图层面的对比学习提供了一个稳定的信号，对单个噪声物品不那么敏感。

4.4 消融实验

消融实验证实了两个组件的必要性：（1）移除对比损失会导致性能显著下降；（2）使用固定/随机意图而非学习到的意图也会损害性能，这验证了联合意图学习与对比对齐的设计。

5. 核心见解与分析

核心见解： 本文的根本性突破不仅仅在于又一个对比学习的技巧，而在于将潜在变量建模正式地重新引入现代深度序列推荐器。虽然像SASRec这样的模型是强大的序列学习器，但它们本质上是“黑盒”自回归模型。ICL的精妙之处在于，它迫使模型通过一个离散的、可解释的潜在意图 $z$ 来解释序列，形成了一个过滤噪声并捕捉行为背后“原因”的瓶颈。这让人联想到像变分自编码器这样的生成模型中的哲学转变，但本文将其应用于判别式的推荐任务。

逻辑流程： 方法论简洁而优雅。1) 聚类序列以获得意图原型（E步的代理）。2) 将这些原型作为对比损失的锚点。3) 对比损失约束序列编码器，使其产生的表示与这些语义锚点对齐。4) 这种对齐反过来又优化了聚类和整体的推荐目标。这是一个表示学习和聚类的良性循环，由EM框架稳定——这是一个经典思想，借助现代对比学习而变得强大。

优势与不足： 主要优势是经验证明的鲁棒性。通过在意图层面学习，模型对稀疏性和噪声的脆弱性降低——这是许多过参数化深度推荐器的关键缺陷。该框架也与基础序列推荐架构无关。然而，主要不足在于静态意图假设。模型假设每个序列只有一个潜在意图，但实际上，用户会话可能是多方面的（例如，同时浏览礼物和为自己购物）。聚类步骤也引入了超参数（意图数量K）和对初始化的潜在敏感性，论文对此一笔带过。与强化学习或探索研究中更动态的意图解耦方法相比，这是一个相对粗粒度的解决方案。

可操作的见解： 对于实践者而言，启示很明确：向你的深度学习模型中注入可解释的结构。不要只是向序列投入更大的Transformer模型。ICL范式可以推广到推荐之外——任何涉及用户轨迹的任务（例如，UI导航、教育路径）都可能受益于潜在意图对比学习。研究人员的下一步工作应是从单一、静态意图发展到层次化或序列化意图。我们能否建模用户意图在会话期间如何演变？此外，将此与因果推断框架结合，可以区分意图驱动的行为和偶然行为，从而推动实现真正可解释且鲁棒的序列模型。代码的开源发布对于复现和扩展是极大的便利。

6. 技术细节与数学公式

总体目标函数结合了标准的下一个物品预测损失（如交叉熵）和对比意图损失：

$\mathcal{L} = \mathcal{L}_{pred} + \lambda \mathcal{L}_{cont}$

其中 $\lambda$ 控制对比项的权重。预测损失 $\mathcal{L}_{pred}$ 为：

$\mathcal{L}_{pred} = -\sum_{u} \log P(v_{t+1}^u | S_{1:t}^u, z^u)$

意图变量 $z$ 被整合到序列编码器中。例如，在基于Transformer的编码器中，意图嵌入 $g(z)$ 可以作为特殊的`[INTENT]`标记添加到物品序列之前，使模型在生成预测时能够关注意图上下文。

7. 分析框架：示例案例

场景： 分析电商平台上的用户会话。

无ICL： 模型看到用户A的序列：[“登山靴”，“水壶”，“能量棒”]。它基于共现模式预测“背包”。

有ICL：

意图聚类： 模型已学习到一个“户外准备”意图聚类。用户A的序列表示被分配到此聚类。
对比学习： 在训练期间，[“登山靴”，“水壶”，“能量棒”]的表示被拉近到“户外准备”意图嵌入。
增强的预测： 在推理时，模型意识到“户外准备”意图，现在可能还会推荐“驱蚊剂”或“指南针”——这些物品与意图强相关，但不一定与确切的历史序列强相关——这展示了更好的泛化能力和对稀疏数据的鲁棒性。

8. 未来应用与方向

多领域与跨平台推荐： 潜在意图（如“健身”）可以在不同领域（体育用品、营养应用、视频内容）间共享，从而实现迁移学习。
可解释人工智能： 提供带有意图标签的推荐（“推荐此商品，因为您似乎在计划一次钓鱼之旅”）可以显著提高用户信任度和满意度。
对话式推荐系统： 意图可以作为自然语言对话与物品推荐之间的桥梁，提高对话代理的连贯性。
动态意图建模： 扩展ICL以建模单个会话内的意图转换（例如，从“研究”到“购买”），可使用时序点过程或状态空间模型。
与大语言模型集成： 使用大语言模型为学习到的意图聚类生成丰富的文本描述以提升可解释性，或使用大语言模型嵌入来初始化意图原型。

9. 参考文献

Chen, Y., Liu, Z., Li, J., McAuley, J., & Xiong, C. (2022). Intent Contrastive Learning for Sequential Recommendation. Proceedings of the ACM Web Conference 2022 (WWW '22).
Kang, W. C., & McAuley, J. (2018). Self-attentive sequential recommendation. 2018 IEEE International Conference on Data Mining (ICDM).
Sun, F., Liu, J., Wu, J., Pei, C., Lin, X., Ou, W., & Jiang, P. (2019). BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer. Proceedings of the 28th ACM International Conference on Information and Knowledge Management.
Xie, X., Sun, F., Liu, Z., Wu, S., Gao, J., Zhang, J., ... & Cui, B. (2022). Contrastive learning for sequential recommendation. 2022 IEEE 38th International Conference on Data Engineering (ICDE).
Oord, A. v. d., Li, Y., & Vinyals, O. (2018). Representation learning with contrastive predictive coding. arXiv preprint arXiv:1807.03748.
Kingma, D. P., & Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114.
Jannach, D., & Jugovac, M. (2019). Measuring the business value of recommender systems. ACM Transactions on Management Information Systems (TMIS), 10(4), 1-23.