1. Introdução
A Recomendação Sequencial (SR) visa prever a próxima interação de um usuário com base na sua sequência histórica de comportamento. Embora os modelos de aprendizagem profunda tenham alcançado desempenho de ponta, eles frequentemente ignoram as intenções latentes subjacentes que impulsionam o comportamento do usuário (por exemplo, "comprar equipamento de pesca", "preparar-se para as férias"). Essas intenções não são observadas, mas são cruciais para compreender a motivação do usuário e melhorar a precisão e robustez da recomendação, especialmente em cenários de dados esparsos ou ruidosos.
Este artigo introduz a Aprendizagem por Contraste de Intenção (ICL), um novo paradigma que injeta uma variável de intenção latente em modelos de SR. A ideia central é aprender distribuições de intenção do usuário a partir de sequências não rotuladas e otimizar o modelo SR usando aprendizagem auto-supervisionada por contraste, alinhando visões da sequência com suas intenções correspondentes.
2. Contexto & Trabalhos Relacionados
2.1 Recomendação Sequencial
Modelos como GRU4Rec, SASRec e BERT4Rec capturam dinâmicas temporais, mas tipicamente modelam o comportamento como uma sequência direta de itens, perdendo sinais de intenção de ordem superior.
2.2 Modelagem de Intenção
Modelos anteriores conscientes da intenção frequentemente dependem de informações laterais explícitas (por exemplo, consultas, categorias). A ICL inova ao aprender intenções diretamente a partir de sequências de comportamento implícitas.
2.3 Aprendizagem por Contraste
Inspirada pelos sucessos na visão computacional (por exemplo, SimCLR, MoCo) e no PLN, a aprendizagem por contraste maximiza o acordo entre visões diferentemente aumentadas dos mesmos dados. A ICL adapta isso para alinhar sequências comportamentais com suas intenções latentes.
3. Metodologia: Aprendizagem por Contraste de Intenção (ICL)
3.1 Formulação do Problema
Dado um usuário $u$ com uma sequência de interação $S^u = [v_1^u, v_2^u, ..., v_t^u]$, o objetivo é prever o próximo item $v_{t+1}^u$. A ICL introduz uma variável de intenção latente $z$ para explicar a sequência.
3.2 Variável de Intenção Latente
A intenção $z$ é modelada como uma variável categórica representando a motivação subjacente para a sequência. O modelo aprende uma distribuição $p(z | S^u)$.
3.3 Aprendizagem da Distribuição de Intenção via Agrupamento
As representações das sequências do usuário são agrupadas (por exemplo, usando K-means) para descobrir $K$ protótipos de intenção latente. O centróide de cada agrupamento representa uma intenção.
3.4 Aprendizagem Auto-Supervisionada por Contraste
O sinal de aprendizagem central vem de uma perda de contraste. Para uma sequência $S$, duas visões aumentadas ($S_i$, $S_j$) são criadas. O modelo é treinado para aproximar a representação de uma sequência e a representação do seu agrupamento de intenção atribuído, enquanto a afasta de outras intenções. A perda de contraste para um par positivo (sequência, sua intenção) é baseada na perda InfoNCE:
$\mathcal{L}_{cont} = -\log \frac{\exp(\text{sim}(f(S), g(z)) / \tau)}{\sum_{z' \in \mathcal{Z}} \exp(\text{sim}(f(S), g(z')) / \tau)}$
onde $f$ é o codificador de sequência, $g$ é a função de incorporação de intenção, $\text{sim}$ é uma função de similaridade (por exemplo, cosseno) e $\tau$ é um parâmetro de temperatura.
3.5 Treinamento via Framework EM Generalizado
O treinamento alterna entre duas etapas dentro de um framework de Expectativa-Maximização (EM) Generalizado:
- E-step (Inferência de Intenção): Estima a distribuição posterior da intenção latente $z$ para cada sequência, dados os parâmetros atuais do modelo.
- M-step (Atualização do Modelo): Atualiza os parâmetros do modelo SR maximizando a log-verossimilhança esperada, que inclui a perda padrão de previsão do próximo item e a perda de contraste $\mathcal{L}_{cont}$.
Este processo iterativo refina tanto a compreensão da intenção quanto a qualidade da recomendação.
4. Experimentos & Resultados
4.1 Conjuntos de Dados & Linhas de Base
Os experimentos foram conduzidos em quatro conjuntos de dados do mundo real: Beauty, Sports, Toys e Yelp. As linhas de base incluíram modelos de SR de ponta (SASRec, BERT4Rec) e métodos auto-supervisionados (CL4SRec).
Resumo de Desempenho (NDCG@10)
- SASRec: 0.0452 (Beauty)
- BERT4Rec: 0.0471 (Beauty)
- CL4SRec: 0.0498 (Beauty)
- ICL (Nosso): 0.0524 (Beauty)
A ICL superou consistentemente todas as linhas de base em todos os conjuntos de dados.
4.2 Comparação de Desempenho
A ICL alcançou melhorias significativas nas métricas de Recall e NDCG (por exemplo, +5.2% NDCG@10 no Beauty em relação à melhor linha de base), demonstrando a eficácia da modelagem de intenção latente.
4.3 Análise de Robustez
Uma contribuição chave é a robustez aprimorada. A ICL mostrou desempenho superior sob esparsidade de dados (usando sequências mais curtas) e na presença de interações ruidosas (itens irrelevantes inseridos aleatoriamente). A aprendizagem por contraste no nível da intenção fornece um sinal estabilizador que é menos sensível a itens ruidosos individuais.
4.4 Estudos de Ablação
As ablações confirmaram a necessidade de ambos os componentes: (1) remover a perda de contraste levou a uma queda significativa, e (2) usar intenções fixas/aleatórias em vez das aprendidas também prejudicou o desempenho, validando o design da aprendizagem conjunta de intenção e alinhamento por contraste.
5. Principais Conclusões & Análise
Conclusão Central: O avanço fundamental do artigo não é apenas mais um truque de contraste; é a reintrodução formal da modelagem de variável latente nos recomendadores sequenciais profundos modernos. Embora modelos como o SASRec sejam poderosos aprendizes de sequência, eles são essencialmente autoregressores de "caixa preta". A genialidade da ICL está em forçar o modelo a explicar a sequência através de uma intenção latente discreta e interpretável $z$, criando um gargalo que filtra o ruído e captura o "porquê" por trás do "quê". Isso lembra a mudança filosófica em modelos generativos como VAEs, mas aplicada de forma discriminativa para recomendação.
Fluxo Lógico: A metodologia é elegantemente simples. 1) Agrupa sequências para obter protótipos de intenção (proxy do E-step). 2) Usa esses protótipos como âncoras para uma perda de contraste. 3) A perda de contraste disciplina o codificador de sequência para produzir representações alinhadas com essas âncoras semânticas. 4) Esse alinhamento, por sua vez, refina os agrupamentos e o objetivo geral de recomendação. É um ciclo virtuoso de aprendizagem de representação e agrupamento, estabilizado pelo framework EM—uma ideia clássica tornada potente com a aprendizagem por contraste moderna.
Pontos Fortes & Fracos: O principal ponto forte é a robustez demonstrada empiricamente. Ao aprender no nível da intenção, o modelo torna-se menos frágil à esparsidade e ao ruído—uma falha crítica em muitos recomendadores profundos superparametrizados. O framework também é agnóstico à arquitetura SR base. No entanto, a principal falha é a suposição de intenção estática. O modelo assume uma única intenção latente por sequência, mas na realidade, as sessões do usuário podem ser multifacetadas (por exemplo, navegar para um presente e para si mesmo). A etapa de agrupamento também introduz hiperparâmetros (número de intenções K) e potencial sensibilidade à inicialização, que o artigo passa por cima. Comparada a abordagens mais dinâmicas de desembaraço de intenção em pesquisa de RL ou exploração, esta é uma solução relativamente de grão grosso.
Conclusões Acionáveis: Para os profissionais, a lição é clara: Injete estrutura interpretável nos seus modelos de aprendizagem profunda. Não apenas use transformers maiores na sequência. O paradigma ICL pode ser adaptado além da recomendação—qualquer tarefa com trajetórias de usuário (por exemplo, navegação em UI, percursos educacionais) poderia se beneficiar da aprendizagem por contraste de intenção latente. O próximo passo imediato para os pesquisadores deve ser evoluir isso de intenções únicas e estáticas para intenções hierárquicas ou sequenciais. Podemos modelar como a intenção de um usuário evolui durante uma sessão? Além disso, integrar isso com frameworks de inferência causal poderia separar ações impulsionadas por intenção das incidentais, avançando para modelos sequenciais verdadeiramente explicáveis e robustos. O lançamento do código é um benefício significativo para replicação e extensão.
6. Detalhes Técnicos & Formulação Matemática
A função objetivo geral combina a perda padrão de previsão do próximo item (por exemplo, entropia cruzada) com a perda de contraste de intenção:
$\mathcal{L} = \mathcal{L}_{pred} + \lambda \mathcal{L}_{cont}$
Onde $\lambda$ controla o peso do termo de contraste. A perda de previsão $\mathcal{L}_{pred}$ é:
$\mathcal{L}_{pred} = -\sum_{u} \log P(v_{t+1}^u | S_{1:t}^u, z^u)$
A variável de intenção $z$ é integrada ao codificador de sequência. Por exemplo, em um codificador baseado em transformer, a incorporação de intenção $g(z)$ pode ser pré-adicionada como um token especial `[INTENÇÃO]` à sequência de itens, permitindo que o modelo atente ao contexto da intenção ao gerar previsões.
7. Framework de Análise: Caso de Exemplo
Cenário: Analisando sessões de usuário em uma plataforma de e-commerce.
Sem ICL: Um modelo vê a sequência do Usuário A: ["botas de caminhada", "garrafa de água", "barra energética"]. Ele prevê "mochila" com base em padrões de co-ocorrência.
Com ICL:
- Agrupamento de Intenção: O modelo aprendeu um agrupamento de intenção para "Preparação ao Ar Livre". A representação da sequência do Usuário A é atribuída a este agrupamento.
- Aprendizagem por Contraste: Durante o treinamento, a representação para ["botas de caminhada", "garrafa de água", "barra energética"] é aproximada da incorporação da intenção "Preparação ao Ar Livre".
- Previsão Aprimorada: Na inferência, o modelo, ciente da intenção "Preparação ao Ar Livre", pode agora também recomendar "repelente de mosquitos" ou uma "bússola"—itens fortemente associados à intenção, mas não necessariamente com a sequência histórica exata—demonstrando melhor generalização e robustez a dados esparsos.
8. Aplicações Futuras & Direções
- Recomendação Multi-Domínio & Entre Plataformas: Intenções latentes (por exemplo, "fitness") poderiam ser compartilhadas entre domínios (artigos esportivos, apps de nutrição, conteúdo de vídeo), permitindo aprendizagem por transferência.
- IA Explicável (XAI): Fornecer recomendações com rótulos de intenção ("Recomendado porque parece estar planejando uma viagem de pesca") poderia aumentar significativamente a confiança e satisfação do usuário.
- Sistemas de Recomendação Conversacionais: Intenções poderiam servir como uma ponte entre o diálogo em linguagem natural e a recomendação de itens, melhorando a coerência dos agentes conversacionais.
- Modelagem Dinâmica de Intenção: Estender a ICL para modelar transições de intenção dentro de uma única sessão (por exemplo, de "pesquisa" para "compra") usando processos pontuais temporais ou modelos de espaço de estados.
- Integração com Modelos de Linguagem de Grande Escala (LLMs): Usar LLMs para gerar descrições textuais ricas dos agrupamentos de intenção aprendidos para melhor interpretabilidade, ou usar incorporações de LLM para inicializar protótipos de intenção.
9. Referências
- Chen, Y., Liu, Z., Li, J., McAuley, J., & Xiong, C. (2022). Intent Contrastive Learning for Sequential Recommendation. Proceedings of the ACM Web Conference 2022 (WWW '22).
- Kang, W. C., & McAuley, J. (2018). Self-attentive sequential recommendation. 2018 IEEE International Conference on Data Mining (ICDM).
- Sun, F., Liu, J., Wu, J., Pei, C., Lin, X., Ou, W., & Jiang, P. (2019). BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer. Proceedings of the 28th ACM International Conference on Information and Knowledge Management.
- Xie, X., Sun, F., Liu, Z., Wu, S., Gao, J., Zhang, J., ... & Cui, B. (2022). Contrastive learning for sequential recommendation. 2022 IEEE 38th International Conference on Data Engineering (ICDE).
- Oord, A. v. d., Li, Y., & Vinyals, O. (2018). Representation learning with contrastive predictive coding. arXiv preprint arXiv:1807.03748.
- Kingma, D. P., & Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114.
- Jannach, D., & Jugovac, M. (2019). Measuring the business value of recommender systems. ACM Transactions on Management Information Systems (TMIS), 10(4), 1-23.