1. 引言与概述

序列推荐旨在根据用户的历史行为序列预测其下一次交互。尽管像GRU4Rec、SASRec和BERT4Rec这样的深度学习模型已经取得了最先进的结果,但它们往往忽略了一个关键因素:驱动用户行为的底层潜在意图。用户的点击流可能是为节日礼物购物、研究某个爱好或进行日常购买的混合体。本文《面向序列推荐的意图对比学习》提出,显式地建模这些未观测到的意图可以显著提升推荐准确性,并且至关重要的是,提升模型的鲁棒性。

作者提出了意图对比学习,一种新颖的自监督学习范式。ICL的核心创新是一个两阶段的、类似EM的框架:(1) 意图发现:从用户序列推断潜在意图的分布,通常通过聚类实现。(2) 意图感知的对比学习:利用发现的意图为对比自监督学习创建正样本对,最大化序列视图与其分配意图之间的一致性。这种方法使得序列推荐模型能够学习到在同一意图簇内对噪声保持不变、且在不同意图间具有区分性的表示。

2. 方法论:意图对比学习 (ICL)

ICL将序列推荐定义为在潜在变量下的学习问题。目标是联合学习序列推荐模型的参数和潜在意图分布。

2.1 问题定义与潜在意图变量

令 $U$ 为用户集合,$V$ 为物品集合。对于用户 $u$,其交互历史是一个序列 $S_u = [v_1, v_2, ..., v_n]$。ICL为每个序列引入一个潜在意图变量 $z$,该变量从 $K$ 个可能意图的分类分布中抽取。序列和意图的联合概率建模为 $p(S_u, z) = p(z) p_\theta(S_u | z)$,其中 $\theta$ 是序列推荐模型(例如Transformer)的参数。

2.2 通过聚类进行意图表示学习

由于意图未被观测,ICL从数据中推断它们。一个初始的序列推荐模型(例如一个简单的编码器)生成序列表示 $h_u$。然后对这些表示进行聚类(例如使用K-means),为每个序列 $S_u$ 分配一个伪意图标签 $\hat{z}_u$。这个聚类步骤有效地执行了无监督意图发现,将受相似底层动机驱动的序列分组。

2.3 基于意图的对比自监督学习

这是ICL的核心。给定一个序列 $S_u$ 及其伪意图 $\hat{z}_u$,模型创建该序列的两个增强视图 $\tilde{S}_u^a$ 和 $\tilde{S}_u^b$(例如通过物品掩码、裁剪或重排序)。对比损失旨在拉近这两个视图的表示,同时将它们推离属于不同意图簇的序列。损失函数基于InfoNCE目标:

$\mathcal{L}_{cont} = -\log \frac{\exp(\text{sim}(h_u^a, h_u^b) / \tau)}{\sum_{S_k \in \mathcal{N}} \exp(\text{sim}(h_u^a, h_k) / \tau)}$

其中 $\mathcal{N}$ 是一组负样本(来自其他意图簇的序列),$\text{sim}(\cdot)$ 是相似度函数(例如余弦相似度),$\tau$ 是温度参数。

2.4 通过广义期望最大化进行训练

ICL训练在两个步骤之间交替进行,类似于期望最大化算法:

  1. E步(意图推断):固定序列推荐模型参数,使用聚类为所有序列分配/更新伪意图标签 $\hat{z}_u$。
  2. M步(模型优化):固定意图分配,使用组合损失优化序列推荐模型参数:标准的下一个物品预测损失(例如交叉熵)加上意图感知的对比损失 $\mathcal{L}_{cont}$。

这个迭代过程同时优化了对意图的理解和序列表示。

3. 技术细节与数学框架

ICL的总体目标函数是一个多任务损失:

$\mathcal{L} = \mathcal{L}_{pred} + \lambda \mathcal{L}_{cont}$

其中 $\mathcal{L}_{pred}$ 是主要的序列预测损失,$\mathcal{L}_{cont}$ 是上面定义的对比损失,$\lambda$ 是平衡超参数。模型架构通常由一个共享的物品嵌入层和一个序列编码器(例如Transformer块)组成。编码器最后一个位置的输出被用作序列表示 $h_u$,用于下一个物品预测和对比学习。

一个关键的技术细节是聚类步骤的处理。论文探讨了在线聚类(在训练期间更新质心)与离线聚类(定期重新聚类)。意图数量 $K$ 的选择也至关重要,通常被视为在验证集上调优的超参数。

4. 实验结果与分析

论文在四个真实世界数据集上验证了ICL:亚马逊(美妆、运动)YelpMovieLens-1M。评估指标包括Recall@K和NDCG@K。

4.1 数据集与基线模型

基线模型包括经典模型(FPMC、GRU4Rec)、最先进模型(SASRec、BERT4Rec)以及其他基于自监督学习的序列推荐方法(CL4SRec、CoSeRec)。这建立了一个强大的竞争环境。

4.2 性能对比

ICL在所有数据集和所有指标上始终优于所有基线模型。例如,在亚马逊美妆数据集上,ICL在Recall@20上相对于最强基线(BERT4Rec)取得了约5-8%的相对提升。在像Yelp这样更稀疏的数据集上,提升尤为显著,凸显了ICL的数据高效学习能力。

关键性能提升(示例)

数据集:亚马逊运动
指标:NDCG@10
最佳基线(SASRec):0.0521
ICL: 0.0567 (+8.8%)

4.3 鲁棒性分析:稀疏性与噪声

一个主要宣称的贡献是鲁棒性。论文进行了两个关键实验:

  1. 数据稀疏性:在越来越小的数据子集上训练模型。ICL的性能下降比基线模型更为平缓,表明其自监督学习组件有效地利用了有限数据。
  2. 噪声交互:在序列中人工注入随机点击。ICL保持了更高的准确性,因为基于意图的对比损失帮助模型区分信号(意图驱动的物品)和噪声。

图表描述(设想): 折线图将显示Recall@20与训练数据百分比的关系。ICL线起点高且下降缓慢,而SASRec和BERT4Rec的线起点较低且下降更陡峭,尤其是在数据量低于60%时。

4.4 消融研究与超参数敏感性

消融研究证实了两个组件的必要性:移除对比损失($\lambda=0$)或用随机簇替换学习到的意图都会导致性能显著下降。模型对意图簇数量 $K$ 和对比损失权重 $\lambda$ 表现出合理的敏感性,最优值因数据集而异。

5. 分析框架:一个实际案例研究

场景: 一个电子商务平台观察到用户序列:[“登山靴”、“防水夹克”、“露营炉”、“小说”]。一个标准的序列推荐模型可能会预测“帐篷”或“背包”。

ICL框架应用:

  1. 意图发现(聚类): ICL的聚类模块将此序列与其他共享潜在意图特征的序列(例如包含“鱼竿”、“露营椅”、“户外杂志”的序列)分组。它分配一个伪意图标签,例如“户外休闲准备”
  2. 对比学习: 在训练期间,该序列的增强视图(例如[“登山靴”、“[MASK]”、“露营炉”])在表示空间中被拉近。同时,它们被推离具有“休闲阅读”意图的序列(包含“小说”、“传记”、“电子阅读器”等物品)。
  3. 预测: 由于模型已经学习到与“户外休闲”意图相关联的鲁棒表示,它可以更自信地推荐像“便携式净水器”或“头灯”这样的物品,即使它们在原始数据中与“小说”不常同时出现。它理解“小说”很可能是噪声,或是主导簇内一个独立的、次要的意图。
这展示了ICL如何超越简单的共现关系,实现意图感知的推理

6. 核心见解与批判性分析

核心见解: 本文的根本突破不仅仅是另一个附加在Transformer上的对比损失。它是将潜在变量模型(意图)正式集成到现代序列推荐的自监督学习范式中。这桥接了经典概率模型的可解释性和鲁棒性与深度学习的表示能力。它直接处理了用户行为背后的“为什么”,而不仅仅是“是什么”和“何时”。

逻辑脉络: 论证是令人信服的:1) 意图存在且重要。2) 它们是潜在的。3) 聚类是一种合理、可扩展的发现代理。4) 对比学习是将这种发现的结构作为监督信号注入的理想机制。5) EM框架优雅地处理了同时学习两者的“先有鸡还是先有蛋”问题。实验逻辑上遵循以验证性能和鲁棒性主张。

优势与不足:
优势: 方法论优雅且可泛化——ICL是一个可以增强许多骨干序列推荐架构的“即插即用”范式。鲁棒性主张经过了充分测试,对于现实世界部署(数据总是混乱且稀疏的)极具价值。与经典EM的联系提供了纯深度学习论文中常常缺失的理论基础。
不足: 房间里的大象是意图定义的循环性。意图是由我们正在训练的模型学习到的序列表示聚类来定义的。这有可能强化模型现有的偏见,而不是发现真实的、有语义意义的意图。K的选择是启发式的。此外,虽然性能提升是明显的,但论文本可以更多地定性分析发现的意图。它们是人类可解释的(例如“礼物购物”、“家居装修”)还是仅仅是抽象的簇?这是一个错失的深入洞察机会,类似于研究人员分析Transformer中的注意力图或CNN中的特征可视化。

可操作的见解: 对于从业者而言,本文要求他们超越原始交互序列。将无监督意图发现作为预处理或联合训练步骤进行投入。 仅鲁棒性发现就足以证明在面对冷启动用户或噪声日志的生产系统中增加复杂性的合理性。研究界应将此视为探索自监督学习框架内更复杂的潜在变量模型(例如分层、动态)的号召。下一步是从静态的、全局的意图转向个性化和演化的意图模型,或许可以从动态主题模型等主题建模轨迹中汲取灵感。

原创分析(300-600字): ICL框架代表了推荐系统自监督学习领域的重要成熟。序列推荐中的早期自监督学习方法,如CL4SRec,主要应用受NLP和CV启发的通用增强(掩码、裁剪),将序列视为通用的时间序列数据。ICL通过引入领域特定的语义结构——意图——作为创建正样本对的指导原则,推进了这一点。这类似于计算机视觉中从使用通用增强的SimCLR,到后来在可用时使用语义类别信息指导对比学习的方法的演变。ICL的创新在于以完全无监督的方式为序列实现了这一点。

本文的鲁棒性主张是其最具商业吸引力的方面。在现实世界的平台中,正如Netflix和Spotify的研究所指出的,用户交互数据以稀疏和充满噪声而闻名。用户的历史是刻意购买、探索性点击和意外点击的混合体。传统的基于似然的模型难以区分这些。ICL的对比目标,即最大化被认为共享相同意图的序列不同视图之间的一致性,本质上教会了模型对意图簇内的噪声保持不变。这是一种强大的去噪形式。这与机器学习中更广泛的鲁棒性文献的发现一致,其中对比预训练已被证明可以提高模型对抗对抗性示例和标签噪声的稳定性。

然而,该方法并非没有哲学和实践上的挑战。依赖聚类作为意图发现的代理是其致命弱点。正如无监督表示学习的研究人员所论证的,聚类的质量完全取决于初始表示空间。差的初始表示导致差的聚类,然后差的聚类引导对比学习去强化那些差的表示——一个潜在的负反馈循环。EM框架缓解了这一点,但并未消除风险。未来的工作可以探索更贝叶斯或变分的方法来建模意图,类似于用于协同过滤的变分自编码器,但要与对比目标相结合。另一个方向是结合弱监督或辅助信息(例如产品类别、用户人口统计)来“引导”或正则化意图发现过程,使簇更具可解释性和可操作性,就像知识图谱被用来增强推荐语义一样。

最终,ICL成功地证明了将潜在语义结构注入自监督学习流水线是一个强大的方向。它将该领域从学习序列相似性推进到学习意图相似性,这是一个更高层次的抽象,可能更具可迁移性和鲁棒性。这种范式转变可能不仅影响推荐系统,还会影响任何底层目标或状态未被观测到的序列决策模型。

7. 应用前景与未来方向

短期应用:

  • 冷启动与稀疏数据平台: ICL非常适合用户交互数据有限的新平台或小众垂直领域。
  • 多领域/跨平台推荐: 学习到的意图可以作为用户兴趣在不同服务(例如从电子商务到内容流媒体)之间可迁移的表示。
  • 可解释推荐: 如果意图是可解释的,它们可以为新的解释界面提供支持(“推荐此物,因为您处于‘家庭办公室设置’模式”)。

未来研究方向:

  1. 动态与分层意图: 从每个会话的单一、静态意图转向建模意图在会话内如何演变(例如从“研究”到“购买”)或如何进行分层组织。
  2. 与辅助信息集成: 融合多模态数据(文本评论、图像),将意图发现建立在更丰富的语义基础上,超越纯粹的行为聚类。
  3. 理论分析: 为意图的可识别性或所提出的类EM算法的收敛性提供形式化保证。
  4. 意图驱动的序列生成: 使用意图变量来控制或引导生成多样化和探索性的推荐列表,而不仅仅是预测下一个单一物品。

8. 参考文献

  1. Chen, Y., Liu, Z., Li, J., McAuley, J., & Xiong, C. (2022). Intent Contrastive Learning for Sequential Recommendation. Proceedings of the ACM Web Conference 2022 (WWW '22).
  2. Kang, W., & McAuley, J. (2018). Self-attentive sequential recommendation. 2018 IEEE International Conference on Data Mining (ICDM).
  3. Sun, F., Liu, J., Wu, J., Pei, C., Lin, X., Ou, W., & Jiang, P. (2019). BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer. Proceedings of the 28th ACM International Conference on Information and Knowledge Management.
  4. Xie, X., Sun, F., Liu, Z., Wu, S., Gao, J., Zhang, J., ... & Jiang, P. (2022). Contrastive learning for sequential recommendation. 2022 IEEE 38th International Conference on Data Engineering (ICDE).
  5. Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. Advances in neural information processing systems, 27. (引用作为潜在变量模型的背景)。
  6. Kingma, D. P., & Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114. (引用作为潜在变量变分方法的背景)。
  7. Netflix Research Blog. (2020). Recommendations for a Healthy Ecosystem. [Online] Available. (引用作为现实世界数据稀疏性和噪声的背景)。