1. Introducción
La Recomendación Secuencial (RS) tiene como objetivo predecir la siguiente interacción de un usuario basándose en su secuencia histórica de comportamiento. Si bien los modelos de aprendizaje profundo han logrado un rendimiento de vanguardia, a menudo pasan por alto las intenciones latentes subyacentes que impulsan el comportamiento del usuario (por ejemplo, "comprar equipo de pesca", "prepararse para unas vacaciones"). Estas intenciones no son observables pero son cruciales para comprender la motivación del usuario y mejorar la precisión y robustez de las recomendaciones, especialmente en escenarios de datos escasos o ruidosos.
Este artículo presenta el Aprendizaje Contrastivo de Intenciones (ICL), un paradigma novedoso que inyecta una variable de intención latente en los modelos de RS. La idea central es aprender distribuciones de intención del usuario a partir de secuencias no etiquetadas y optimizar el modelo de RS utilizando aprendizaje autosupervisado contrastivo, alineando las vistas de la secuencia con sus intenciones correspondientes.
2. Antecedentes y Trabajos Relacionados
2.1 Recomendación Secuencial
Modelos como GRU4Rec, SASRec y BERT4Rec capturan dinámicas temporales, pero típicamente modelan el comportamiento como una secuencia directa de ítems, perdiendo señales de intención de orden superior.
2.2 Modelado de Intenciones
Los modelos anteriores conscientes de la intención a menudo dependen de información lateral explícita (por ejemplo, consultas, categorías). ICL innova al aprender intenciones directamente de secuencias de comportamiento implícitas.
2.3 Aprendizaje Contrastivo
Inspirado por los éxitos en visión por computadora (por ejemplo, SimCLR, MoCo) y PLN, el aprendizaje contrastivo maximiza el acuerdo entre vistas aumentadas de manera diferente de los mismos datos. ICL adapta esto para alinear secuencias de comportamiento con sus intenciones latentes.
3. Metodología: Aprendizaje Contrastivo de Intenciones (ICL)
3.1 Formulación del Problema
Dado un usuario $u$ con una secuencia de interacción $S^u = [v_1^u, v_2^u, ..., v_t^u]$, el objetivo es predecir el siguiente ítem $v_{t+1}^u$. ICL introduce una variable de intención latente $z$ para explicar la secuencia.
3.2 Variable de Intención Latente
La intención $z$ se modela como una variable categórica que representa la motivación subyacente de la secuencia. El modelo aprende una distribución $p(z | S^u)$.
3.3 Aprendizaje de la Distribución de Intenciones mediante Agrupación
Las representaciones de las secuencias de usuario se agrupan (por ejemplo, usando K-means) para descubrir $K$ prototipos de intención latente. Cada centroide de grupo representa una intención.
3.4 Aprendizaje Autosupervisado Contrastivo
La señal de aprendizaje central proviene de una pérdida contrastiva. Para una secuencia $S$, se crean dos vistas aumentadas ($S_i$, $S_j$). El modelo se entrena para acercar la representación de una secuencia y la representación de su grupo de intención asignado, mientras la aleja de otras intenciones. La pérdida contrastiva para un par positivo (secuencia, su intención) se basa en la pérdida InfoNCE:
$\mathcal{L}_{cont} = -\log \frac{\exp(\text{sim}(f(S), g(z)) / \tau)}{\sum_{z' \in \mathcal{Z}} \exp(\text{sim}(f(S), g(z')) / \tau)}$
donde $f$ es el codificador de secuencias, $g$ es la función de incrustación de intenciones, $\text{sim}$ es una función de similitud (por ejemplo, coseno) y $\tau$ es un parámetro de temperatura.
3.5 Entrenamiento mediante el Marco EM Generalizado
El entrenamiento alterna entre dos pasos dentro de un marco de Expectativa-Maximización (EM) Generalizado:
- Paso-E (Inferencia de Intención): Estimar la distribución posterior de la intención latente $z$ para cada secuencia dados los parámetros actuales del modelo.
- Paso-M (Actualización del Modelo): Actualizar los parámetros del modelo de RS maximizando la log-verosimilitud esperada, que incluye la pérdida estándar de predicción del siguiente ítem y la pérdida contrastiva $\mathcal{L}_{cont}$.
Este proceso iterativo refina tanto la comprensión de la intención como la calidad de la recomendación.
4. Experimentos y Resultados
4.1 Conjuntos de Datos y Líneas de Base
Los experimentos se realizaron en cuatro conjuntos de datos del mundo real: Beauty, Sports, Toys y Yelp. Las líneas de base incluyeron modelos de RS de vanguardia (SASRec, BERT4Rec) y métodos autosupervisados (CL4SRec).
Resumen de Rendimiento (NDCG@10)
- SASRec: 0.0452 (Beauty)
- BERT4Rec: 0.0471 (Beauty)
- CL4SRec: 0.0498 (Beauty)
- ICL (Nuestro): 0.0524 (Beauty)
ICL superó consistentemente a todas las líneas de base en todos los conjuntos de datos.
4.2 Comparación de Rendimiento
ICL logró mejoras significativas en las métricas de Recuerdo y NDCG (por ejemplo, +5.2% NDCG@10 en Beauty sobre la mejor línea de base), demostrando la efectividad del modelado de intenciones latentes.
4.3 Análisis de Robustez
Una contribución clave es la mejora de la robustez. ICL mostró un rendimiento superior bajo escasez de datos (usando secuencias más cortas) y en presencia de interacciones ruidosas (ítems irrelevantes insertados aleatoriamente). El aprendizaje contrastivo a nivel de intención proporciona una señal estabilizadora que es menos sensible a ítems ruidosos individuales.
4.4 Estudios de Ablación
Las ablaciones confirmaron la necesidad de ambos componentes: (1) eliminar la pérdida contrastiva condujo a una caída significativa, y (2) usar intenciones fijas/aleatorias en lugar de aprendidas también perjudicó el rendimiento, validando el diseño del aprendizaje conjunto de intenciones y la alineación contrastiva.
5. Ideas Clave y Análisis
Idea Central: El avance fundamental del artículo no es solo otro truco contrastivo; es la reintroducción formal del modelado de variables latentes en los recomendadores secuenciales profundos modernos. Si bien modelos como SASRec son poderosos aprendices de secuencias, son esencialmente autoregresores de "caja negra". La genialidad de ICL radica en obligar al modelo a explicar la secuencia a través de una intención latente discreta e interpretable $z$, creando un cuello de botella que filtra el ruido y captura el "por qué" detrás del "qué". Esto recuerda al cambio filosófico en modelos generativos como los VAE, pero aplicado de manera discriminativa para la recomendación.
Flujo Lógico: La metodología es elegantemente simple. 1) Agrupar secuencias para obtener prototipos de intención (proxy del Paso-E). 2) Usar estos prototipos como anclas para una pérdida contrastiva. 3) La pérdida contrastiva disciplina al codificador de secuencias para producir representaciones alineadas con estas anclas semánticas. 4) Esta alineación, a su vez, refina los grupos y el objetivo general de recomendación. Es un ciclo virtuoso de aprendizaje de representaciones y agrupación, estabilizado por el marco EM: una idea clásica potenciada con el aprendizaje contrastivo moderno.
Fortalezas y Debilidades: La fortaleza principal es la robustez demostrada empíricamente. Al aprender a nivel de intención, el modelo se vuelve menos frágil ante la escasez y el ruido, una falla crítica en muchos recomendadores profundos sobreparametrizados. El marco también es agnóstico a la arquitectura base de RS. Sin embargo, la debilidad principal es la suposición de intención estática. El modelo asume una única intención latente por secuencia, pero en realidad, las sesiones de usuario pueden ser multifacéticas (por ejemplo, navegar para un regalo y para uno mismo). El paso de agrupación también introduce hiperparámetros (número de intenciones K) y una posible sensibilidad a la inicialización, que el artículo pasa por alto. En comparación con enfoques más dinámicos de desentrelazamiento de intenciones en investigación de RL o exploración, esta es una solución relativamente de grano grueso.
Ideas Accionables: Para los profesionales, la conclusión es clara: Inyecten estructura interpretable en sus modelos de aprendizaje profundo. No se limiten a usar transformadores más grandes en la secuencia. El paradigma ICL puede adaptarse más allá de la recomendación: cualquier tarea con trayectorias de usuario (por ejemplo, navegación de UI, rutas educativas) podría beneficiarse del aprendizaje contrastivo de intenciones latentes. El siguiente paso inmediato para los investigadores debería ser evolucionar esto de intenciones únicas y estáticas a intenciones jerárquicas o secuenciales. ¿Podemos modelar cómo evoluciona la intención de un usuario durante una sesión? Además, integrar esto con marcos de inferencia causal podría separar acciones impulsadas por intención de las incidentales, avanzando hacia modelos secuenciales verdaderamente explicables y robustos. La publicación del código es un beneficio significativo para la replicación y extensión.
6. Detalles Técnicos y Formulación Matemática
La función objetivo general combina la pérdida estándar de predicción del siguiente ítem (por ejemplo, entropía cruzada) con la pérdida contrastiva de intención:
$\mathcal{L} = \mathcal{L}_{pred} + \lambda \mathcal{L}_{cont}$
Donde $\lambda$ controla el peso del término contrastivo. La pérdida de predicción $\mathcal{L}_{pred}$ es:
$\mathcal{L}_{pred} = -\sum_{u} \log P(v_{t+1}^u | S_{1:t}^u, z^u)$
La variable de intención $z$ se integra en el codificador de secuencias. Por ejemplo, en un codificador basado en transformadores, la incrustación de intención $g(z)$ puede anteponerse como un token especial `[INTENCIÓN]` a la secuencia de ítems, permitiendo que el modelo atienda al contexto de intención al generar predicciones.
7. Marco de Análisis: Caso de Ejemplo
Escenario: Analizando sesiones de usuario en una plataforma de comercio electrónico.
Sin ICL: Un modelo ve la secuencia del Usuario A: ["botas de senderismo", "botella de agua", "barra energética"]. Predice "mochila" basándose en patrones de co-ocurrencia.
Con ICL:
- Agrupación de Intenciones: El modelo ha aprendido un grupo de intención para "Preparación al Aire Libre". La representación de la secuencia del Usuario A se asigna a este grupo.
- Aprendizaje Contrastivo: Durante el entrenamiento, la representación para ["botas de senderismo", "botella de agua", "barra energética"] se acerca más a la incrustación de intención "Preparación al Aire Libre".
- Predicción Mejorada: En la inferencia, el modelo, consciente de la intención "Preparación al Aire Libre", ahora también podría recomendar "repelente de mosquitos" o una "brújula": ítems fuertemente asociados con la intención pero no necesariamente con la secuencia histórica exacta, demostrando una mejor generalización y robustez ante datos escasos.
8. Aplicaciones Futuras y Direcciones
- Recomendación Multi-Dominio y Multiplataforma: Las intenciones latentes (por ejemplo, "fitness") podrían compartirse entre dominios (artículos deportivos, apps de nutrición, contenido de video), permitiendo el aprendizaje por transferencia.
- IA Explicable (XAI): Proporcionar recomendaciones con etiquetas de intención ("Recomendado porque parece que está planeando un viaje de pesca") podría aumentar significativamente la confianza y satisfacción del usuario.
- Sistemas de Recomendación Conversacionales: Las intenciones podrían servir como puente entre el diálogo en lenguaje natural y la recomendación de ítems, mejorando la coherencia de los agentes conversacionales.
- Modelado Dinámico de Intenciones: Extender ICL para modelar transiciones de intención dentro de una sola sesión (por ejemplo, de "investigación" a "compra") utilizando procesos puntuales temporales o modelos de espacio de estados.
- Integración con Modelos de Lenguaje Grandes (LLMs): Usar LLMs para generar descripciones textuales ricas de los grupos de intención aprendidos para una mejor interpretabilidad, o usar incrustaciones de LLM para inicializar prototipos de intención.
9. Referencias
- Chen, Y., Liu, Z., Li, J., McAuley, J., & Xiong, C. (2022). Intent Contrastive Learning for Sequential Recommendation. Proceedings of the ACM Web Conference 2022 (WWW '22).
- Kang, W. C., & McAuley, J. (2018). Self-attentive sequential recommendation. 2018 IEEE International Conference on Data Mining (ICDM).
- Sun, F., Liu, J., Wu, J., Pei, C., Lin, X., Ou, W., & Jiang, P. (2019). BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer. Proceedings of the 28th ACM International Conference on Information and Knowledge Management.
- Xie, X., Sun, F., Liu, Z., Wu, S., Gao, J., Zhang, J., ... & Cui, B. (2022). Contrastive learning for sequential recommendation. 2022 IEEE 38th International Conference on Data Engineering (ICDE).
- Oord, A. v. d., Li, Y., & Vinyals, O. (2018). Representation learning with contrastive predictive coding. arXiv preprint arXiv:1807.03748.
- Kingma, D. P., & Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114.
- Jannach, D., & Jugovac, M. (2019). Measuring the business value of recommender systems. ACM Transactions on Management Information Systems (TMIS), 10(4), 1-23.