2.1 问题定义与潜在意图变量
令 $U$ 为用户集合,$V$ 为物品集合。对于用户 $u$,其交互历史是一个序列 $S_u = [v_1, v_2, ..., v_n]$。ICL为每个序列引入一个潜在意图变量 $z$,该变量从 $K$ 个可能意图的分类分布中抽取。序列和意图的联合概率建模为 $p(S_u, z) = p(z) p_\theta(S_u | z)$,其中 $\theta$ 是序列推荐模型(例如Transformer)的参数。
序列推荐旨在根据用户的历史行为序列预测其下一次交互。尽管像GRU4Rec、SASRec和BERT4Rec这样的深度学习模型已经取得了最先进的结果,但它们往往忽略了一个关键因素:驱动用户行为的底层潜在意图。用户的点击流可能是为节日礼物购物、研究某个爱好或进行日常购买的混合体。本文《面向序列推荐的意图对比学习》提出,显式地建模这些未观测到的意图可以显著提升推荐准确性,并且至关重要的是,提升模型的鲁棒性。
作者提出了意图对比学习,一种新颖的自监督学习范式。ICL的核心创新是一个两阶段的、类似EM的框架:(1) 意图发现:从用户序列推断潜在意图的分布,通常通过聚类实现。(2) 意图感知的对比学习:利用发现的意图为对比自监督学习创建正样本对,最大化序列视图与其分配意图之间的一致性。这种方法使得序列推荐模型能够学习到在同一意图簇内对噪声保持不变、且在不同意图间具有区分性的表示。
ICL将序列推荐定义为在潜在变量下的学习问题。目标是联合学习序列推荐模型的参数和潜在意图分布。
令 $U$ 为用户集合,$V$ 为物品集合。对于用户 $u$,其交互历史是一个序列 $S_u = [v_1, v_2, ..., v_n]$。ICL为每个序列引入一个潜在意图变量 $z$,该变量从 $K$ 个可能意图的分类分布中抽取。序列和意图的联合概率建模为 $p(S_u, z) = p(z) p_\theta(S_u | z)$,其中 $\theta$ 是序列推荐模型(例如Transformer)的参数。
由于意图未被观测,ICL从数据中推断它们。一个初始的序列推荐模型(例如一个简单的编码器)生成序列表示 $h_u$。然后对这些表示进行聚类(例如使用K-means),为每个序列 $S_u$ 分配一个伪意图标签 $\hat{z}_u$。这个聚类步骤有效地执行了无监督意图发现,将受相似底层动机驱动的序列分组。
这是ICL的核心。给定一个序列 $S_u$ 及其伪意图 $\hat{z}_u$,模型创建该序列的两个增强视图 $\tilde{S}_u^a$ 和 $\tilde{S}_u^b$(例如通过物品掩码、裁剪或重排序)。对比损失旨在拉近这两个视图的表示,同时将它们推离属于不同意图簇的序列。损失函数基于InfoNCE目标:
$\mathcal{L}_{cont} = -\log \frac{\exp(\text{sim}(h_u^a, h_u^b) / \tau)}{\sum_{S_k \in \mathcal{N}} \exp(\text{sim}(h_u^a, h_k) / \tau)}$
其中 $\mathcal{N}$ 是一组负样本(来自其他意图簇的序列),$\text{sim}(\cdot)$ 是相似度函数(例如余弦相似度),$\tau$ 是温度参数。
ICL训练在两个步骤之间交替进行,类似于期望最大化算法:
这个迭代过程同时优化了对意图的理解和序列表示。
ICL的总体目标函数是一个多任务损失:
$\mathcal{L} = \mathcal{L}_{pred} + \lambda \mathcal{L}_{cont}$
其中 $\mathcal{L}_{pred}$ 是主要的序列预测损失,$\mathcal{L}_{cont}$ 是上面定义的对比损失,$\lambda$ 是平衡超参数。模型架构通常由一个共享的物品嵌入层和一个序列编码器(例如Transformer块)组成。编码器最后一个位置的输出被用作序列表示 $h_u$,用于下一个物品预测和对比学习。
一个关键的技术细节是聚类步骤的处理。论文探讨了在线聚类(在训练期间更新质心)与离线聚类(定期重新聚类)。意图数量 $K$ 的选择也至关重要,通常被视为在验证集上调优的超参数。
论文在四个真实世界数据集上验证了ICL:亚马逊(美妆、运动)、Yelp 和 MovieLens-1M。评估指标包括Recall@K和NDCG@K。
基线模型包括经典模型(FPMC、GRU4Rec)、最先进模型(SASRec、BERT4Rec)以及其他基于自监督学习的序列推荐方法(CL4SRec、CoSeRec)。这建立了一个强大的竞争环境。
ICL在所有数据集和所有指标上始终优于所有基线模型。例如,在亚马逊美妆数据集上,ICL在Recall@20上相对于最强基线(BERT4Rec)取得了约5-8%的相对提升。在像Yelp这样更稀疏的数据集上,提升尤为显著,凸显了ICL的数据高效学习能力。
数据集:亚马逊运动
指标:NDCG@10
最佳基线(SASRec):0.0521
ICL: 0.0567 (+8.8%)
一个主要宣称的贡献是鲁棒性。论文进行了两个关键实验:
图表描述(设想): 折线图将显示Recall@20与训练数据百分比的关系。ICL线起点高且下降缓慢,而SASRec和BERT4Rec的线起点较低且下降更陡峭,尤其是在数据量低于60%时。
消融研究证实了两个组件的必要性:移除对比损失($\lambda=0$)或用随机簇替换学习到的意图都会导致性能显著下降。模型对意图簇数量 $K$ 和对比损失权重 $\lambda$ 表现出合理的敏感性,最优值因数据集而异。
场景: 一个电子商务平台观察到用户序列:[“登山靴”、“防水夹克”、“露营炉”、“小说”]。一个标准的序列推荐模型可能会预测“帐篷”或“背包”。
ICL框架应用:
核心见解: 本文的根本突破不仅仅是另一个附加在Transformer上的对比损失。它是将潜在变量模型(意图)正式集成到现代序列推荐的自监督学习范式中。这桥接了经典概率模型的可解释性和鲁棒性与深度学习的表示能力。它直接处理了用户行为背后的“为什么”,而不仅仅是“是什么”和“何时”。
逻辑脉络: 论证是令人信服的:1) 意图存在且重要。2) 它们是潜在的。3) 聚类是一种合理、可扩展的发现代理。4) 对比学习是将这种发现的结构作为监督信号注入的理想机制。5) EM框架优雅地处理了同时学习两者的“先有鸡还是先有蛋”问题。实验逻辑上遵循以验证性能和鲁棒性主张。
优势与不足:
优势: 方法论优雅且可泛化——ICL是一个可以增强许多骨干序列推荐架构的“即插即用”范式。鲁棒性主张经过了充分测试,对于现实世界部署(数据总是混乱且稀疏的)极具价值。与经典EM的联系提供了纯深度学习论文中常常缺失的理论基础。
不足: 房间里的大象是意图定义的循环性。意图是由我们正在训练的模型学习到的序列表示聚类来定义的。这有可能强化模型现有的偏见,而不是发现真实的、有语义意义的意图。K的选择是启发式的。此外,虽然性能提升是明显的,但论文本可以更多地定性分析发现的意图。它们是人类可解释的(例如“礼物购物”、“家居装修”)还是仅仅是抽象的簇?这是一个错失的深入洞察机会,类似于研究人员分析Transformer中的注意力图或CNN中的特征可视化。
可操作的见解: 对于从业者而言,本文要求他们超越原始交互序列。将无监督意图发现作为预处理或联合训练步骤进行投入。 仅鲁棒性发现就足以证明在面对冷启动用户或噪声日志的生产系统中增加复杂性的合理性。研究界应将此视为探索自监督学习框架内更复杂的潜在变量模型(例如分层、动态)的号召。下一步是从静态的、全局的意图转向个性化和演化的意图模型,或许可以从动态主题模型等主题建模轨迹中汲取灵感。
原创分析(300-600字): ICL框架代表了推荐系统自监督学习领域的重要成熟。序列推荐中的早期自监督学习方法,如CL4SRec,主要应用受NLP和CV启发的通用增强(掩码、裁剪),将序列视为通用的时间序列数据。ICL通过引入领域特定的语义结构——意图——作为创建正样本对的指导原则,推进了这一点。这类似于计算机视觉中从使用通用增强的SimCLR,到后来在可用时使用语义类别信息指导对比学习的方法的演变。ICL的创新在于以完全无监督的方式为序列实现了这一点。
本文的鲁棒性主张是其最具商业吸引力的方面。在现实世界的平台中,正如Netflix和Spotify的研究所指出的,用户交互数据以稀疏和充满噪声而闻名。用户的历史是刻意购买、探索性点击和意外点击的混合体。传统的基于似然的模型难以区分这些。ICL的对比目标,即最大化被认为共享相同意图的序列不同视图之间的一致性,本质上教会了模型对意图簇内的噪声保持不变。这是一种强大的去噪形式。这与机器学习中更广泛的鲁棒性文献的发现一致,其中对比预训练已被证明可以提高模型对抗对抗性示例和标签噪声的稳定性。
然而,该方法并非没有哲学和实践上的挑战。依赖聚类作为意图发现的代理是其致命弱点。正如无监督表示学习的研究人员所论证的,聚类的质量完全取决于初始表示空间。差的初始表示导致差的聚类,然后差的聚类引导对比学习去强化那些差的表示——一个潜在的负反馈循环。EM框架缓解了这一点,但并未消除风险。未来的工作可以探索更贝叶斯或变分的方法来建模意图,类似于用于协同过滤的变分自编码器,但要与对比目标相结合。另一个方向是结合弱监督或辅助信息(例如产品类别、用户人口统计)来“引导”或正则化意图发现过程,使簇更具可解释性和可操作性,就像知识图谱被用来增强推荐语义一样。
最终,ICL成功地证明了将潜在语义结构注入自监督学习流水线是一个强大的方向。它将该领域从学习序列相似性推进到学习意图相似性,这是一个更高层次的抽象,可能更具可迁移性和鲁棒性。这种范式转变可能不仅影响推荐系统,还会影响任何底层目标或状态未被观测到的序列决策模型。
短期应用:
未来研究方向: