1. Introduzione
La Raccomandazione Sequenziale (SR) mira a prevedere la prossima interazione di un utente basandosi sulla sua sequenza storica di comportamenti. Sebbene i modelli di deep learning abbiano raggiunto prestazioni all'avanguardia, spesso trascurano le intenzioni latenti sottostanti che guidano il comportamento dell'utente (ad esempio, "fare acquisti per l'attrezzatura da pesca", "prepararsi per una vacanza"). Queste intenzioni non sono osservate ma sono cruciali per comprendere la motivazione dell'utente e migliorare l'accuratezza e la robustezza della raccomandazione, specialmente in scenari di dati sparsi o rumorosi.
Questo articolo introduce l'Apprendimento Contrastivo delle Intenzioni (ICL), un nuovo paradigma che inietta una variabile di intenzione latente nei modelli SR. L'idea centrale è apprendere le distribuzioni delle intenzioni degli utenti da sequenze non etichettate e ottimizzare il modello SR utilizzando l'apprendimento auto-supervisionato contrastivo, allineando le viste delle sequenze con le loro corrispondenti intenzioni.
2. Contesto & Lavori Correlati
2.1 Raccomandazione Sequenziale
Modelli come GRU4Rec, SASRec e BERT4Rec catturano le dinamiche temporali ma tipicamente modellano il comportamento come una sequenza diretta di item, perdendo i segnali di intenzione di ordine superiore.
2.2 Modellazione delle Intenzioni
I precedenti modelli consapevoli delle intenzioni spesso si basano su informazioni laterali esplicite (ad esempio, query, categorie). ICL innova apprendendo le intenzioni direttamente da sequenze comportamentali implicite.
2.3 Apprendimento Contrastivo
Ispirato dai successi in computer vision (ad esempio, SimCLR, MoCo) e NLP, l'apprendimento contrastivo massimizza l'accordo tra viste diversamente aumentate degli stessi dati. ICL adatta questo concetto per allineare le sequenze comportamentali con le loro intenzioni latenti.
3. Metodologia: Apprendimento Contrastivo delle Intenzioni (ICL)
3.1 Formulazione del Problema
Dato un utente $u$ con una sequenza di interazione $S^u = [v_1^u, v_2^u, ..., v_t^u]$, l'obiettivo è prevedere il prossimo item $v_{t+1}^u$. ICL introduce una variabile di intenzione latente $z$ per spiegare la sequenza.
3.2 Variabile di Intenzione Latente
L'intenzione $z$ è modellata come una variabile categorica che rappresenta la motivazione sottostante per la sequenza. Il modello apprende una distribuzione $p(z | S^u)$.
3.3 Apprendimento della Distribuzione delle Intenzioni tramite Clustering
Le rappresentazioni delle sequenze degli utenti vengono raggruppate (ad esempio, utilizzando K-means) per scoprire $K$ prototipi di intenzione latente. Il centroide di ogni cluster rappresenta un'intenzione.
3.4 Apprendimento Auto-Supervisionato Contrastivo
Il segnale di apprendimento principale proviene da una loss contrastiva. Per una sequenza $S$, vengono create due viste aumentate ($S_i$, $S_j$). Il modello viene addestrato per avvicinare la rappresentazione di una sequenza e la rappresentazione del suo cluster di intenzione assegnato, mentre la allontana dalle altre intenzioni. La loss contrastiva per una coppia positiva (sequenza, sua intenzione) si basa sulla loss InfoNCE:
$\mathcal{L}_{cont} = -\log \frac{\exp(\text{sim}(f(S), g(z)) / \tau)}{\sum_{z' \in \mathcal{Z}} \exp(\text{sim}(f(S), g(z')) / \tau)}$
dove $f$ è l'encoder di sequenza, $g$ è la funzione di embedding dell'intenzione, $\text{sim}$ è una funzione di similarità (ad esempio, coseno) e $\tau$ è un parametro di temperatura.
3.5 Addestramento tramite il Framework EM Generalizzato
L'addestramento alterna due passaggi all'interno di un framework di Expectation-Maximization (EM) Generalizzato:
- E-step (Inferenza dell'Intenzione): Stima la distribuzione a posteriori dell'intenzione latente $z$ per ogni sequenza dati i parametri correnti del modello.
- M-step (Aggiornamento del Modello): Aggiorna i parametri del modello SR massimizzando la log-verosimiglianza attesa, che include la loss standard di previsione del prossimo item e la loss contrastiva $\mathcal{L}_{cont}$.
Questo processo iterativo affina sia la comprensione dell'intenzione che la qualità della raccomandazione.
4. Esperimenti & Risultati
4.1 Dataset & Baseline
Gli esperimenti sono stati condotti su quattro dataset del mondo reale: Beauty, Sports, Toys e Yelp. Le baseline includevano modelli SR all'avanguardia (SASRec, BERT4Rec) e metodi auto-supervisionati (CL4SRec).
Sommario delle Prestazioni (NDCG@10)
- SASRec: 0.0452 (Beauty)
- BERT4Rec: 0.0471 (Beauty)
- CL4SRec: 0.0498 (Beauty)
- ICL (Nostro): 0.0524 (Beauty)
ICL ha costantemente superato tutte le baseline su tutti i dataset.
4.2 Confronto delle Prestazioni
ICL ha ottenuto miglioramenti significativi nelle metriche Recall e NDCG (ad esempio, +5.2% NDCG@10 su Beauty rispetto alla migliore baseline), dimostrando l'efficacia della modellazione delle intenzioni latenti.
4.3 Analisi della Robustezza
Un contributo chiave è il miglioramento della robustezza. ICL ha mostrato prestazioni superiori in condizioni di sparsità dei dati (utilizzando sequenze più corte) e in presenza di interazioni rumorose (item irrilevanti inseriti casualmente). L'apprendimento contrastivo a livello di intenzione fornisce un segnale stabilizzante che è meno sensibile ai singoli item rumorosi.
4.4 Studi di Ablazione
Le ablazioni hanno confermato la necessità di entrambi i componenti: (1) rimuovere la loss contrastiva ha portato a un calo significativo, e (2) utilizzare intenzioni fisse/casuali invece di quelle apprese ha anche danneggiato le prestazioni, validando la progettazione dell'apprendimento congiunto delle intenzioni e dell'allineamento contrastivo.
5. Approfondimenti & Analisi Chiave
Approfondimento Principale: La svolta fondamentale dell'articolo non è solo un altro "trucco" contrastivo; è la reintroduzione formale della modellazione a variabili latenti nei moderni raccomandatori sequenziali deep. Mentre modelli come SASRec sono potenti apprenditori di sequenze, sono essenzialmente autoregressori a "scatola nera". Il genio di ICL sta nel forzare il modello a spiegare la sequenza attraverso un'intenzione latente discreta e interpretabile $z$, creando un collo di bottiglia che filtra il rumore e cattura il "perché" dietro il "cosa". Questo ricorda il cambiamento filosofico nei modelli generativi come le VAE, ma applicato in modo discriminativo per la raccomandazione.
Flusso Logico: La metodologia è elegantemente semplice. 1) Raggruppa le sequenze per ottenere prototipi di intenzione (proxy dell'E-step). 2) Usa questi prototipi come ancore per una loss contrastiva. 3) La loss contrastiva disciplina l'encoder di sequenza a produrre rappresentazioni allineate con queste ancore semantiche. 4) Questo allineamento, a sua volta, affina i cluster e l'obiettivo complessivo di raccomandazione. È un circolo virtuoso di apprendimento delle rappresentazioni e clustering, stabilizzato dal framework EM—un'idea classica resa potente con il moderno apprendimento contrastivo.
Punti di Forza & Debolezze: Il punto di forza principale è la robustezza dimostrata empiricamente. Apprendendo a livello di intenzione, il modello diventa meno fragile alla sparsità e al rumore—un difetto critico in molti raccomandatori deep sovra-parametrizzati. Il framework è anche agnostico rispetto all'architettura SR di base. Tuttavia, la principale debolezza è l'assunzione di intenzione statica. Il modello assume una singola intenzione latente per sequenza, ma in realtà le sessioni utente possono essere multifaccettate (ad esempio, navigare per un regalo e per sé stessi). Il passo di clustering introduce anche iperparametri (numero di intenzioni K) e una potenziale sensibilità all'inizializzazione, che l'articolo sorvola. Rispetto ad approcci più dinamici di separazione delle intenzioni nella ricerca RL o di esplorazione, questa è una soluzione relativamente a grana grossa.
Approfondimenti Pratici: Per i professionisti, il messaggio è chiaro: Iniettate struttura interpretabile nei vostri modelli di deep learning. Non limitatevi a lanciare transformer più grandi sulla sequenza. Il paradigma ICL può essere adattato oltre la raccomandazione—qualsiasi task con traiettorie utente (ad esempio, navigazione UI, percorsi educativi) potrebbe beneficiare dell'apprendimento contrastivo delle intenzioni latenti. Il prossimo passo immediato per i ricercatori dovrebbe essere evolvere questo concetto da intenzioni singole e statiche a intenzioni gerarchiche o sequenziali. Possiamo modellare come l'intenzione di un utente evolve durante una sessione? Inoltre, integrare questo con framework di inferenza causale potrebbe separare le azioni guidate dall'intenzione da quelle incidentali, spingendo verso modelli sequenziali veramente spiegabili e robusti. Il rilascio del codice è un vantaggio significativo per la replicazione e l'estensione.
6. Dettagli Tecnici & Formulazione Matematica
La funzione obiettivo complessiva combina la loss standard di previsione del prossimo item (ad esempio, entropia incrociata) con la loss contrastiva delle intenzioni:
$\mathcal{L} = \mathcal{L}_{pred} + \lambda \mathcal{L}_{cont}$
Dove $\lambda$ controlla il peso del termine contrastivo. La loss di previsione $\mathcal{L}_{pred}$ è:
$\mathcal{L}_{pred} = -\sum_{u} \log P(v_{t+1}^u | S_{1:t}^u, z^u)$
La variabile di intenzione $z$ è integrata nell'encoder di sequenza. Ad esempio, in un encoder basato su transformer, l'embedding dell'intenzione $g(z)$ può essere preposto come un token speciale `[INTENT]` alla sequenza di item, permettendo al modello di prestare attenzione al contesto dell'intenzione quando genera le previsioni.
7. Framework di Analisi: Caso Esempio
Scenario: Analisi delle sessioni utente su una piattaforma e-commerce.
Senza ICL: Un modello vede la sequenza dell'Utente A: ["scarponi da trekking", "borraccia", "barretta energetica"]. Prevede "zaino" basandosi su pattern di co-occorrenza.
Con ICL:
- Clustering delle Intenzioni: Il modello ha appreso un cluster di intenzione per "Preparazione Outdoor". La rappresentazione della sequenza dell'Utente A è assegnata a questo cluster.
- Apprendimento Contrastivo: Durante l'addestramento, la rappresentazione per ["scarponi da trekking", "borraccia", "barretta energetica"] viene avvicinata all'embedding dell'intenzione "Preparazione Outdoor".
- Previsione Migliorata: Al momento dell'inferenza, il modello, consapevole dell'intenzione "Preparazione Outdoor", potrebbe ora raccomandare anche "repellente per zanzare" o una "bussola"—item fortemente associati all'intenzione ma non necessariamente con l'esatta sequenza storica—dimostrando una migliore generalizzazione e robustezza ai dati sparsi.
8. Applicazioni Future & Direzioni
- Raccomandazione Multi-Dominio & Cross-Platform: Le intenzioni latenti (ad esempio, "fitness") potrebbero essere condivise tra domini (articoli sportivi, app nutrizionali, contenuti video), abilitando il transfer learning.
- AI Spiegabile (XAI): Fornire raccomandazioni con etichette di intenzione ("Consigliato perché sembri stia pianificando una gita di pesca") potrebbe aumentare significativamente la fiducia e la soddisfazione dell'utente.
- Sistemi di Raccomandazione Conversazionale: Le intenzioni potrebbero servire da ponte tra il dialogo in linguaggio naturale e la raccomandazione di item, migliorando la coerenza degli agenti conversazionali.
- Modellazione Dinamica delle Intenzioni: Estendere ICL per modellare le transizioni di intenzione all'interno di una singola sessione (ad esempio, da "ricerca" a "acquisto") utilizzando processi puntuali temporali o modelli spazio-stato.
- Integrazione con Large Language Models (LLM): Utilizzare LLM per generare descrizioni testuali ricche dei cluster di intenzione appresi per una migliore interpretabilità, o utilizzare embedding LLM per inizializzare i prototipi di intenzione.
9. Riferimenti
- Chen, Y., Liu, Z., Li, J., McAuley, J., & Xiong, C. (2022). Intent Contrastive Learning for Sequential Recommendation. Proceedings of the ACM Web Conference 2022 (WWW '22).
- Kang, W. C., & McAuley, J. (2018). Self-attentive sequential recommendation. 2018 IEEE International Conference on Data Mining (ICDM).
- Sun, F., Liu, J., Wu, J., Pei, C., Lin, X., Ou, W., & Jiang, P. (2019). BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer. Proceedings of the 28th ACM International Conference on Information and Knowledge Management.
- Xie, X., Sun, F., Liu, Z., Wu, S., Gao, J., Zhang, J., ... & Cui, B. (2022). Contrastive learning for sequential recommendation. 2022 IEEE 38th International Conference on Data Engineering (ICDE).
- Oord, A. v. d., Li, Y., & Vinyals, O. (2018). Representation learning with contrastive predictive coding. arXiv preprint arXiv:1807.03748.
- Kingma, D. P., & Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114.
- Jannach, D., & Jugovac, M. (2019). Measuring the business value of recommender systems. ACM Transactions on Management Information Systems (TMIS), 10(4), 1-23.