1. 簡介與概述

序列推薦 (SR) 旨在根據用家嘅歷史行為序列來預測佢哋嘅下一次互動。雖然深度學習模型如 GRU4Rec、SASRec 同 BERT4Rec 已經取得最先進嘅成果,但佢哋經常忽略一個關鍵因素:驅動用家行為嘅底層潛在意圖。一個用家嘅點擊流可能混合咗購買節日禮物、研究興趣愛好或例行購買等意圖。本文《意圖對比學習用於序列推薦》提出,明確地對呢啲未被觀察到嘅意圖進行建模,可以顯著提升推薦準確度,並且至關重要嘅係,提升模型嘅穩健性。

作者提出意圖對比學習 (ICL),一種新穎嘅自監督學習 (SSL) 範式。ICL 嘅核心創新係一個兩階段、類似 EM 嘅框架:(1) 意圖發現:從用家序列推斷潛在意圖嘅分佈,通常通過聚類實現。(2) 意圖感知對比學習:使用發現嘅意圖為對比 SSL 創建正樣本對,最大化序列視圖與其分配意圖之間嘅一致性。呢種方法使 SR 模型能夠學習到對同一意圖簇內嘅噪聲不變、但對唔同意圖具有區分性嘅表示。

2. 方法論:意圖對比學習 (ICL)

ICL 將序列推薦視為一個潛在變量下嘅學習問題。目標係聯合學習 SR 模型嘅參數同潛在意圖分佈。

2.1 問題定義與潛在意圖變量

設 $U$ 為用家集合,$V$ 為項目集合。對於用家 $u$,佢哋嘅互動歷史係一個序列 $S_u = [v_1, v_2, ..., v_n]$。ICL 為每個序列引入一個潛在意圖變量 $z$,從 $K$ 個可能意圖嘅分類分佈中抽取。序列同意圖嘅聯合概率建模為 $p(S_u, z) = p(z) p_\theta(S_u | z)$,其中 $\theta$ 係 SR 模型(例如 Transformer)嘅參數。

2.2 通過聚類學習意圖表示

由於意圖未被觀察,ICL 從數據中推斷佢哋。一個初始 SR 模型(例如一個簡單嘅編碼器)生成序列表示 $h_u$。然後對呢啲表示進行聚類(例如使用 K-means),為每個序列 $S_u$ 分配一個偽意圖標籤 $\hat{z}_u$。呢個聚類步驟有效地執行無監督意圖發現,將由相似底層動機驅動嘅序列分組。

2.3 基於意圖嘅對比自監督學習

呢度係 ICL 嘅核心。給定一個序列 $S_u$ 同佢嘅偽意圖 $\hat{z}_u$,模型創建該序列嘅兩個增強視圖 $\tilde{S}_u^a$ 同 $\tilde{S}_u^b$(例如通過項目遮罩、裁剪或重新排序)。對比損失旨在將呢兩個視圖嘅表示拉近,同時將佢哋推離屬於唔同意圖簇嘅序列。損失函數基於 InfoNCE 目標:

$\mathcal{L}_{cont} = -\log \frac{\exp(\text{sim}(h_u^a, h_u^b) / \tau)}{\sum_{S_k \in \mathcal{N}} \exp(\text{sim}(h_u^a, h_k) / \tau)}$

其中 $\mathcal{N}$ 係一組負樣本(來自其他意圖簇嘅序列),$\text{sim}(\cdot)$ 係相似度函數(例如餘弦相似度),$\tau$ 係溫度參數。

2.4 通過廣義期望最大化進行訓練

ICL 訓練喺兩個步驟之間交替進行,類似期望最大化 (EM) 算法:

  1. E-步驟(意圖推斷):固定 SR 模型參數,使用聚類為所有序列分配/更新偽意圖標籤 $\hat{z}_u$。
  2. M-步驟(模型優化):固定意圖分配,使用組合損失優化 SR 模型參數:標準嘅下一個項目預測損失(例如交叉熵)加上意圖感知對比損失 $\mathcal{L}_{cont}$。

呢個迭代過程會同時完善意圖理解同序列表示。

3. 技術細節與數學框架

ICL 嘅總體目標函數係一個多任務損失:

$\mathcal{L} = \mathcal{L}_{pred} + \lambda \mathcal{L}_{cont}$

其中 $\mathcal{L}_{pred}$ 係主要嘅序列預測損失,$\mathcal{L}_{cont}$ 係上面定義嘅對比損失,$\lambda$ 係平衡超參數。模型架構通常包括一個共享嘅項目嵌入層,後跟一個序列編碼器(例如 Transformer 塊)。編碼器最後一個位置嘅輸出用作序列表示 $h_u$,用於下一個項目預測同對比學習。

一個關鍵嘅技術細節係聚類步驟嘅處理。本文探討咗在線聚類(訓練期間更新質心)與離線聚類(定期重新聚類)。意圖數量 $K$ 嘅選擇亦至關重要,通常被視為喺驗證集上調整嘅超參數。

4. 實驗結果與分析

本文喺四個真實世界數據集上驗證 ICL:Amazon (Beauty, Sports)YelpMovieLens-1M。評估指標包括 Recall@K 同 NDCG@K。

4.1 數據集與基線模型

基線模型包括經典模型 (FPMC, GRU4Rec)、最先進模型 (SASRec, BERT4Rec) 以及其他基於 SSL 嘅 SR 方法 (CL4SRec, CoSeRec)。呢個建立咗一個強大嘅競爭環境。

4.2 性能比較

ICL 喺所有數據集同指標上都持續優於所有基線模型。例如,喺 Amazon Beauty 上,ICL 喺 Recall@20 上比最強嘅基線 (BERT4Rec) 實現咗約 5-8% 嘅相對提升。喺 Yelp 等更稀疏嘅數據集上,增益尤其顯著,突顯咗 ICL 嘅數據高效學習能力。

關鍵性能提升(示例)

數據集: Amazon Sports
指標: NDCG@10
最佳基線 (SASRec): 0.0521
ICL: 0.0567 (+8.8%)

4.3 穩健性分析:稀疏性與噪聲

一個主要聲稱嘅貢獻係穩健性。本文進行咗兩個關鍵實驗:

  1. 數據稀疏性:喺越來越小嘅數據比例上訓練模型。ICL 嘅性能下降比基線模型更平緩,顯示其 SSL 組件有效咁利用有限數據。
  2. 噪聲互動:人為地向序列中注入隨機點擊。ICL 保持更高嘅準確度,因為基於意圖嘅對比損失幫助模型區分信號(意圖驅動嘅項目)同噪聲。

圖表描述(想像): 一個折線圖會顯示 Recall@20 對比訓練數據百分比。ICL 線會從高位開始並緩慢下降,而 SASRec 同 BERT4Rec 嘅線會從較低位開始並更急劇下降,特別係喺低於 60% 數據時。

4.4 消融研究與超參數敏感性

消融研究確認咗兩個組件嘅必要性:移除對比損失 ($\lambda=0$) 或用隨機簇替換學習到嘅意圖會導致性能顯著下降。模型對意圖簇數量 $K$ 同對比損失權重 $\lambda$ 顯示出合理嘅敏感性,最佳值因數據集而異。

5. 分析框架:一個實際案例研究

場景: 一個電商平台觀察到一個用家序列:["行山靴", "防水外套", "露營爐", "小說"]。一個標準嘅 SR 模型可能會預測 "帳篷" 或 "背囊"。

ICL 框架應用:

  1. 意圖發現(聚類): ICL 嘅聚類模塊將呢個序列與其他共享潛在意圖特徵嘅序列分組(例如包含 "魚竿"、"露營椅"、"戶外雜誌" 嘅序列)。佢分配一個偽意圖標籤,例如 "戶外休閒準備"
  2. 對比學習: 訓練期間,該序列嘅增強視圖(例如 ["行山靴", "[MASK]", "露營爐"])喺表示空間中被拉近。佢哋亦被推離具有 "休閒閱讀" 意圖嘅序列(包含 "小說"、"傳記"、"電子閱讀器" 等項目)。
  3. 預測: 因為模型已經學習到一個與 "戶外休閒" 意圖相關嘅穩健表示,佢可以更有信心地推薦像 "便攜式濾水器" 或 "頭燈" 咁樣嘅項目,即使佢哋喺原始數據中並未經常與 "小說" 共同出現。佢理解到 "小說" 很可能係噪聲,或者係主導簇內一個獨立、次要嘅意圖。
呢個演示咗 ICL 如何超越簡單嘅共現關係,實現意圖感知推理

6. 核心見解與批判性分析

核心見解: 本文嘅根本突破唔只係喺 Transformer 上加多一個對比損失。佢係將潛在變量模型(意圖)正式整合到現代 SR 嘅 SSL 範式中。呢個橋接咗經典概率模型嘅可解釋性同穩健性,以及深度學習嘅表示能力。佢直接處理用家行為背後嘅 "點解",而不只係 "係乜" 同 "幾時"。

邏輯流程: 論點令人信服:1) 意圖存在且重要。2) 佢哋係潛在嘅。3) 聚類係一個合理、可擴展嘅發現代理。4) 對比學習係注入呢個發現結構作為監督信號嘅理想機制。5) EM 框架優雅地處理咗兩者一齊學習嘅雞與蛋問題。實驗邏輯上跟進以驗證性能同穩健性聲稱。

優點與缺點:
優點: 方法論優雅且可推廣——ICL 係一個 "即插即用" 範式,可以增強許多骨幹 SR 架構。穩健性聲稱經過充分測試,對於現實世界部署(數據總是混亂同稀疏)非常有價值。與經典 EM 嘅聯繫提供咗純深度學習論文經常缺失嘅理論基礎。
缺點: 房間裡嘅大象係意圖定義嘅循環性。意圖由我哋正在訓練嘅模型學習到嘅序列表示嘅聚類來定義。呢個有風險會強化模型現有嘅偏見,而非發現真正、語義上有意義嘅意圖。K 嘅選擇係啟發式嘅。此外,雖然性能增益明顯,但本文可以做更多工作來定性分析發現嘅意圖。佢哋係人類可解釋嘅(例如 "禮物購物"、"家居改善")定只係抽象簇?呢個係一個錯失嘅深入洞察機會,類似於研究人員分析 Transformer 中嘅注意力圖或 CNN 中嘅特徵可視化。

可行見解: 對於從業者嚟講,本文係一個指令,要超越原始互動序列。投資於無監督意圖發現作為預處理或聯合訓練步驟。 單係穩健性發現就足以證明為面對冷啟動用家或噪聲日誌嘅生產系統增加複雜性係合理嘅。研究界應該將此視為一個呼籲,去探索 SSL 框架內更複雜嘅潛在變量模型(例如分層、動態)。下一步係從靜態、全局意圖轉向個性化同演化嘅意圖模型,或許可以從像動態主題模型呢類主題建模軌跡中汲取靈感。

原創分析 (300-600字): ICL 框架代表咗推薦系統自監督學習領域嘅一次重要成熟。SR 中早期嘅 SSL 方法,例如 CL4SRec,主要應用受 NLP 同 CV 啟發嘅通用增強(遮罩、裁剪),將序列視為通用時間序列數據。ICL 通過引入領域特定語義結構——意圖——作為創建正樣本對嘅指導原則,推進咗呢一點。呢個類似於電腦視覺中從使用通用增強嘅 SimCLR,演變到後來當有可用時使用語義類信息指導對比學習嘅方法。ICL 嘅創新之處在於以完全無監督嘅方式為序列做到呢一點。

本文嘅穩健性聲稱係其最具商業吸引力嘅方面。喺現實世界平台中,正如 Netflix 同 Spotify 嘅研究所指出,用家互動數據以稀疏同充滿噪聲而聞名。一個用家嘅歷史係深思熟慮嘅購買、探索性點擊同意外點擊嘅混合。傳統基於似然嘅模型難以解開呢啲。ICL 嘅對比目標,最大化被認為共享相同意圖嘅序列唔同視圖之間嘅一致性,本質上教會模型對意圖簇內嘅噪聲不變。呢個係一種強大嘅去噪形式。佢與 ML 更廣泛穩健性文獻中嘅發現一致,其中對比預訓練已被證明可以提高模型對抗對抗樣本同標籤噪聲嘅穩定性。

然而,呢種方法並非沒有哲學同實踐挑戰。依賴聚類作為意圖發現嘅代理係其阿喀琉斯之踵。正如無監督表示學習嘅研究人員所論證,聚類嘅質量完全取決於初始表示空間。差嘅初始表示導致差嘅簇,然後引導對比學習去強化呢啲差嘅表示——一個潛在嘅負反饋循環。EM 框架緩解咗呢個問題,但並未消除風險。未來工作可以探索更貝葉斯或變分嘅意圖建模方法,類似於用於協同過濾嘅變分自編碼器 (VAE),但與對比目標相結合。另一個方向係結合弱監督或側面信息(例如產品類別、用家人口統計)來 "播種" 或規範化意圖發現過程,使簇更具可解釋性同可操作性,就好似知識圖譜用於增強推薦語義一樣。

最終,ICL 成功展示咗將潛在語義結構注入 SSL 流程係一個強大嘅方向。佢將領域從學習序列相似性轉移到學習意圖相似性,一個更高層次嘅抽象,可能更具可遷移性同穩健性。呢個範式轉變可能影響唔只推薦系統,仲包括任何底層目標或狀態未被觀察到嘅順序決策模型。

7. 應用前景與未來方向

短期應用:

  • 冷啟動與稀疏數據平台: ICL 非常適合用戶互動數據有限嘅新平台或利基垂直領域。
  • 多領域/跨平台推薦: 學習到嘅意圖可以作為跨唔同服務(例如從電商到內容串流)嘅用戶興趣嘅可遷移表示。
  • 可解釋推薦: 如果意圖變得可解釋,佢哋可以驅動新嘅解釋界面("推薦因為你處於 '家庭辦公室設置' 模式")。

未來研究方向:

  1. 動態與分層意圖: 從每個會話嘅單一、靜態意圖轉向建模意圖如何喺會話內演化(例如從 "研究" 到 "購買")或如何分層組織。
  2. 與側面信息整合: 融合多模態數據(文本評論、圖像)以將意圖發現植根於更豐富嘅語義中,超越純行為聚類。
  3. 理論分析: 為意圖嘅可識別性或所提出類似 EM 算法嘅收斂性提供正式保證。
  4. 意圖驅動序列生成: 使用意圖變量來控制或指導多樣化同探索性推薦列表嘅生成,而不只係預測下一個單一項目。

8. 參考文獻

  1. Chen, Y., Liu, Z., Li, J., McAuley, J., & Xiong, C. (2022). Intent Contrastive Learning for Sequential Recommendation. Proceedings of the ACM Web Conference 2022 (WWW '22).
  2. Kang, W., & McAuley, J. (2018). Self-attentive sequential recommendation. 2018 IEEE International Conference on Data Mining (ICDM).
  3. Sun, F., Liu, J., Wu, J., Pei, C., Lin, X., Ou, W., & Jiang, P. (2019). BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer. Proceedings of the 28th ACM International Conference on Information and Knowledge Management.
  4. Xie, X., Sun, F., Liu, Z., Wu, S., Gao, J., Zhang, J., ... & Jiang, P. (2022). Contrastive learning for sequential recommendation. 2022 IEEE 38th International Conference on Data Engineering (ICDE).
  5. Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. Advances in neural information processing systems, 27. (Cited for context on latent variable models).
  6. Kingma, D. P., & Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114. (Cited for context on variational methods for latent variables).
  7. Netflix Research Blog. (2020). Recommendations for a Healthy Ecosystem. [Online] Available. (Cited for context on real-world data sparsity and noise).