Apprentissage par Contraste d'Intention pour la Recommandation Séquentielle (ICLRec)

1. Introduction

La recommandation séquentielle (RS) vise à prédire la prochaine interaction d'un utilisateur en fonction de sa séquence historique de comportements. Bien que les modèles d'apprentissage profond aient atteint des performances de pointe, ils négligent souvent les intentions latentes sous-jacentes qui motivent le comportement de l'utilisateur (par exemple, "faire des achats pour la pêche", "préparer des vacances"). Ces intentions ne sont pas observées mais sont cruciales pour comprendre la motivation de l'utilisateur et améliorer la précision et la robustesse des recommandations, en particulier dans des scénarios de données rares ou bruitées.

Cet article présente l'Apprentissage par Contraste d'Intention (ICL), un nouveau paradigme qui injecte une variable d'intention latente dans les modèles de RS. L'idée centrale est d'apprendre les distributions d'intention des utilisateurs à partir de séquences non étiquetées et d'optimiser le modèle de RS en utilisant un apprentissage auto-supervisé par contraste, alignant ainsi les vues des séquences avec leurs intentions correspondantes.

2. Contexte et travaux connexes

2.1 Recommandation séquentielle

Des modèles comme GRU4Rec, SASRec et BERT4Rec capturent la dynamique temporelle mais modélisent généralement le comportement comme une séquence directe d'articles, manquant ainsi les signaux d'intention d'ordre supérieur.

2.2 Modélisation de l'intention

Les modèles précédents sensibles à l'intention reposent souvent sur des informations latérales explicites (par exemple, requêtes, catégories). ICL innove en apprenant les intentions directement à partir de séquences de comportements implicites.

2.3 Apprentissage par contraste

Inspiré par les succès en vision par ordinateur (par exemple, SimCLR, MoCo) et en TAL, l'apprentissage par contraste maximise l'accord entre différentes vues augmentées des mêmes données. ICL adapte cela pour aligner les séquences comportementales avec leurs intentions latentes.

3. Méthodologie : Apprentissage par Contraste d'Intention (ICL)

3.1 Formulation du problème

Étant donné un utilisateur $u$ avec une séquence d'interaction $S^u = [v_1^u, v_2^u, ..., v_t^u]$, l'objectif est de prédire le prochain article $v_{t+1}^u$. ICL introduit une variable d'intention latente $z$ pour expliquer la séquence.

3.2 Variable d'intention latente

L'intention $z$ est modélisée comme une variable catégorielle représentant la motivation sous-jacente de la séquence. Le modèle apprend une distribution $p(z | S^u)$.

3.3 Apprentissage de la distribution d'intention par clustering

Les représentations des séquences utilisateur sont regroupées (par exemple, en utilisant K-means) pour découvrir $K$ prototypes d'intention latente. Chaque centroïde de cluster représente une intention.

3.4 Apprentissage auto-supervisé par contraste

Le signal d'apprentissage principal provient d'une fonction de perte par contraste. Pour une séquence $S$, deux vues augmentées ($S_i$, $S_j$) sont créées. Le modèle est entraîné à rapprocher la représentation d'une séquence et la représentation de son cluster d'intention assigné, tout en l'éloignant des autres intentions. La perte par contraste pour une paire positive (séquence, son intention) est basée sur la perte InfoNCE :

$\mathcal{L}_{cont} = -\log \frac{\exp(\text{sim}(f(S), g(z)) / \tau)}{\sum_{z' \in \mathcal{Z}} \exp(\text{sim}(f(S), g(z')) / \tau)}$

où $f$ est l'encodeur de séquence, $g$ est la fonction d'embedding d'intention, $\text{sim}$ est une fonction de similarité (par exemple, cosinus), et $\tau$ est un paramètre de température.

3.5 Entraînement via un cadre EM généralisé

L'entraînement alterne entre deux étapes dans un cadre d'Espérance-Maximisation (EM) généralisé :

Étape E (Inférence d'intention) : Estimer la distribution a posteriori de l'intention latente $z$ pour chaque séquence étant donné les paramètres actuels du modèle.
Étape M (Mise à jour du modèle) : Mettre à jour les paramètres du modèle de RS en maximisant la log-vraisemblance attendue, qui inclut la perte de prédiction standard du prochain article et la perte par contraste $\mathcal{L}_{cont}$.

Ce processus itératif affine à la fois la compréhension de l'intention et la qualité des recommandations.

4. Expériences et résultats

4.1 Jeux de données et modèles de référence

Les expériences ont été menées sur quatre jeux de données réels : Beauty, Sports, Toys et Yelp. Les modèles de référence incluaient des modèles de RS de pointe (SASRec, BERT4Rec) et des méthodes auto-supervisées (CL4SRec).

Résumé des performances (NDCG@10)

SASRec : 0,0452 (Beauty)
BERT4Rec : 0,0471 (Beauty)
CL4SRec : 0,0498 (Beauty)
ICL (Notre modèle) : 0,0524 (Beauty)

ICL a systématiquement surpassé tous les modèles de référence sur tous les jeux de données.

4.2 Comparaison des performances

ICL a obtenu des améliorations significatives des métriques Recall et NDCG (par exemple, +5,2 % NDCG@10 sur Beauty par rapport au meilleur modèle de référence), démontrant l'efficacité de la modélisation d'intention latente.

4.3 Analyse de robustesse

Une contribution clé est l'amélioration de la robustesse. ICL a montré des performances supérieures dans des conditions de rareté des données (utilisation de séquences plus courtes) et en présence d'interactions bruitées (insertion aléatoire d'articles non pertinents). L'apprentissage par contraste au niveau de l'intention fournit un signal stabilisateur moins sensible aux articles bruités individuels.

4.4 Études d'ablation

Les études d'ablation ont confirmé la nécessité des deux composantes : (1) la suppression de la perte par contraste a entraîné une baisse significative, et (2) l'utilisation d'intentions fixes/aléatoires au lieu d'intentions apprises a également nui aux performances, validant ainsi la conception de l'apprentissage conjoint de l'intention et de l'alignement par contraste.

5. Principales idées et analyse

Idée centrale : La percée fondamentale de cet article n'est pas simplement une autre astuce de contraste ; c'est la réintroduction formelle de la modélisation par variable latente dans les recommandateurs séquentiels profonds modernes. Bien que des modèles comme SASRec soient des apprenants de séquence puissants, ils sont essentiellement des autorégresseurs « boîte noire ». Le génie d'ICL réside dans le fait de forcer le modèle à expliquer la séquence via une intention latente discrète et interprétable $z$, créant un goulot d'étranglement qui filtre le bruit et capture le « pourquoi » derrière le « quoi ». Cela rappelle le changement philosophique dans les modèles génératifs comme les VAE, mais appliqué de manière discriminative pour la recommandation.

Flux logique : La méthodologie est élégamment simple. 1) Regrouper les séquences pour obtenir des prototypes d'intention (proxy de l'étape E). 2) Utiliser ces prototypes comme ancres pour une perte par contraste. 3) La perte par contraste discipliné l'encodeur de séquence pour produire des représentations alignées avec ces ancres sémantiques. 4) Cet alignement, à son tour, affine les clusters et l'objectif global de recommandation. C'est un cercle vertueux d'apprentissage de représentation et de clustering, stabilisé par le cadre EM — une idée classique rendue puissante par l'apprentissage par contraste moderne.

Forces et faiblesses : La principale force est la robustesse démontrée empiriquement. En apprenant au niveau de l'intention, le modèle devient moins fragile face à la rareté et au bruit — une faiblesse critique dans de nombreux recommandateurs profonds sur-paramétrés. Le cadre est également agnostique vis-à-vis de l'architecture de RS de base. Cependant, la principale faiblesse est l'hypothèse d'intention statique. Le modèle suppose une seule intention latente par séquence, mais en réalité, les sessions utilisateur peuvent être multifacettes (par exemple, naviguer pour un cadeau et pour soi-même). L'étape de clustering introduit également des hyperparamètres (nombre d'intentions K) et une sensibilité potentielle à l'initialisation, que l'article passe sous silence. Comparé aux approches plus dynamiques de désentrelacement d'intention dans la recherche en RL ou en exploration, il s'agit d'une solution relativement grossière.

Idées exploitables : Pour les praticiens, la conclusion est claire : Injectez une structure interprétable dans vos modèles d'apprentissage profond. Ne vous contentez pas d'utiliser des transformers plus gros sur la séquence. Le paradigme ICL peut être adapté au-delà de la recommandation — toute tâche impliquant des trajectoires utilisateur (par exemple, navigation dans l'interface utilisateur, parcours éducatifs) pourrait bénéficier de l'apprentissage par contraste d'intention latente. La prochaine étape immédiate pour les chercheurs devrait être de faire évoluer cela d'intentions uniques et statiques vers des intentions hiérarchiques ou séquentielles. Pouvons-nous modéliser comment l'intention d'un utilisateur évolue pendant une session ? De plus, l'intégration de cela avec des cadres d'inférence causale pourrait séparer les actions motivées par l'intention des actions fortuites, ouvrant la voie à des modèles séquentiels véritablement explicables et robustes. La publication du code est un atout majeur pour la réplication et l'extension.

6. Détails techniques et formulation mathématique

La fonction objectif globale combine la perte de prédiction standard du prochain article (par exemple, entropie croisée) avec la perte d'intention par contraste :

$\mathcal{L} = \mathcal{L}_{pred} + \lambda \mathcal{L}_{cont}$

Où $\lambda$ contrôle le poids du terme de contraste. La perte de prédiction $\mathcal{L}_{pred}$ est :

$\mathcal{L}_{pred} = -\sum_{u} \log P(v_{t+1}^u | S_{1:t}^u, z^u)$

La variable d'intention $z$ est intégrée à l'encodeur de séquence. Par exemple, dans un encodeur basé sur un transformer, l'embedding d'intention $g(z)$ peut être ajouté en préfixe comme un jeton spécial `[INTENTION]` à la séquence d'articles, permettant au modèle de prendre en compte le contexte d'intention lors de la génération des prédictions.

7. Cadre d'analyse : Exemple de cas

Scénario : Analyse des sessions utilisateur sur une plateforme de commerce électronique.

Sans ICL : Un modèle voit la séquence de l'Utilisateur A : ["bottes de randonnée", "gourde", "barre énergétique"]. Il prédit "sac à dos" en se basant sur des modèles de co-occurrence.

Avec ICL :

Clustering d'intention : Le modèle a appris un cluster d'intention pour "Préparation d'activités en plein air". La représentation de la séquence de l'Utilisateur A est assignée à ce cluster.
Apprentissage par contraste : Pendant l'entraînement, la représentation de ["bottes de randonnée", "gourde", "barre énergétique"] est rapprochée de l'embedding d'intention "Préparation d'activités en plein air".
Prédiction améliorée : Lors de l'inférence, le modèle, conscient de l'intention "Préparation d'activités en plein air", pourrait maintenant également recommander "répulsif anti-moustiques" ou une "boussole" — des articles fortement associés à l'intention mais pas nécessairement à la séquence historique exacte — démontrant ainsi une meilleure généralisation et une meilleure robustesse aux données rares.

8. Applications futures et orientations

Recommandation multi-domaines et cross-plateforme : Les intentions latentes (par exemple, "fitness") pourraient être partagées entre différents domaines (articles de sport, applications de nutrition, contenu vidéo), permettant l'apprentissage par transfert.
IA explicable (XAI) : Fournir des recommandations avec des étiquettes d'intention ("Recommandé car vous semblez planifier un voyage de pêche") pourrait augmenter significativement la confiance et la satisfaction des utilisateurs.
Systèmes de recommandation conversationnels : Les intentions pourraient servir de pont entre le dialogue en langage naturel et la recommandation d'articles, améliorant la cohérence des agents conversationnels.
Modélisation d'intention dynamique : Étendre ICL pour modéliser les transitions d'intention au sein d'une même session (par exemple, de "recherche" à "achat") en utilisant des processus ponctuels temporels ou des modèles à espace d'états.
Intégration avec les grands modèles de langage (LLM) : Utiliser les LLM pour générer des descriptions textuelles riches des clusters d'intention appris pour une meilleure interprétabilité, ou utiliser les embeddings de LLM pour initialiser les prototypes d'intention.

9. Références

Chen, Y., Liu, Z., Li, J., McAuley, J., & Xiong, C. (2022). Intent Contrastive Learning for Sequential Recommendation. Proceedings of the ACM Web Conference 2022 (WWW '22).
Kang, W. C., & McAuley, J. (2018). Self-attentive sequential recommendation. 2018 IEEE International Conference on Data Mining (ICDM).
Sun, F., Liu, J., Wu, J., Pei, C., Lin, X., Ou, W., & Jiang, P. (2019). BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer. Proceedings of the 28th ACM International Conference on Information and Knowledge Management.
Xie, X., Sun, F., Liu, Z., Wu, S., Gao, J., Zhang, J., ... & Cui, B. (2022). Contrastive learning for sequential recommendation. 2022 IEEE 38th International Conference on Data Engineering (ICDE).
Oord, A. v. d., Li, Y., & Vinyals, O. (2018). Representation learning with contrastive predictive coding. arXiv preprint arXiv:1807.03748.
Kingma, D. P., & Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114.
Jannach, D., & Jugovac, M. (2019). Measuring the business value of recommender systems. ACM Transactions on Management Information Systems (TMIS), 10(4), 1-23.