Контрастное обучение на основе интентов для последовательных рекомендаций (ICLRec)

1. Введение

Задача последовательных рекомендаций (Sequential Recommendation, SR) заключается в предсказании следующего взаимодействия пользователя на основе его истории поведения. Хотя модели глубокого обучения достигли наилучших результатов, они часто упускают из виду лежащие в основе скрытые интенты, движущие поведением пользователя (например, «покупка снаряжения для рыбалки», «подготовка к празднику»). Эти интенты ненаблюдаемы, но критически важны для понимания мотивации пользователя и повышения точности и устойчивости рекомендаций, особенно в сценариях с разреженными или зашумлёнными данными.

В данной работе представлена парадигма Контрастного обучения на основе интентов (Intent Contrastive Learning, ICL), которая вводит скрытую переменную интента в модели SR. Основная идея заключается в изучении распределений интентов пользователей из неразмеченных последовательностей и оптимизации модели SR с использованием контрастного самообучения, согласовывая представления последовательностей с соответствующими им интентами.

2. Предпосылки и связанные работы

2.1 Последовательные рекомендации

Модели, такие как GRU4Rec, SASRec и BERT4Rec, учитывают временную динамику, но обычно моделируют поведение как прямую последовательность элементов, упуская сигналы интентов более высокого порядка.

2.2 Моделирование интентов

Предыдущие модели, учитывающие интенты, часто полагались на явную дополнительную информацию (например, запросы, категории). ICL предлагает инновационный подход, изучая интенты напрямую из неявных последовательностей поведения.

2.3 Контрастное обучение

Вдохновлённое успехами в компьютерном зрении (например, SimCLR, MoCo) и NLP, контрастное обучение максимизирует согласованность между по-разному аугментированными представлениями одних и тех же данных. ICL адаптирует этот подход для согласования поведенческих последовательностей с их скрытыми интентами.

3. Методология: Контрастное обучение на основе интентов (ICL)

3.1 Постановка задачи

Для пользователя $u$ с последовательностью взаимодействий $S^u = [v_1^u, v_2^u, ..., v_t^u]$ цель состоит в предсказании следующего элемента $v_{t+1}^u$. ICL вводит скрытую переменную интента $z$ для объяснения последовательности.

3.2 Скрытая переменная интента

Интент $z$ моделируется как категориальная переменная, представляющая собой основную мотивацию для последовательности. Модель изучает распределение $p(z | S^u)$.

3.3 Обучение распределению интентов через кластеризацию

Представления пользовательских последовательностей кластеризуются (например, с помощью K-means) для обнаружения $K$ скрытых прототипов интентов. Центроид каждого кластера представляет собой интент.

3.4 Контрастное самообучение

Основной обучающий сигнал исходит от контрастной функции потерь. Для последовательности $S$ создаются два аугментированных представления ($S_i$, $S_j$). Модель обучается сближать представление последовательности и представление назначенного ей кластера интентов, одновременно отдаляя его от других интентов. Контрастная функция потерь для положительной пары (последовательность, её интент) основана на InfoNCE loss:

$\mathcal{L}_{cont} = -\log \frac{\exp(\text{sim}(f(S), g(z)) / \tau)}{\sum_{z' \in \mathcal{Z}} \exp(\text{sim}(f(S), g(z')) / \tau)}$

где $f$ — энкодер последовательности, $g$ — функция эмбеддинга интента, $\text{sim}$ — функция схожести (например, косинусная), а $\tau$ — температурный параметр.

3.5 Обучение в рамках обобщённого EM-алгоритма

Обучение чередует два шага в рамках обобщённого алгоритма максимизации ожидания (Expectation-Maximization, EM):

E-шаг (Вывод интента): Оценка апостериорного распределения скрытого интента $z$ для каждой последовательности при текущих параметрах модели.
M-шаг (Обновление модели): Обновление параметров модели SR путём максимизации ожидаемого логарифма правдоподобия, который включает стандартную функцию потерь для предсказания следующего элемента и контрастную функцию потерь $\mathcal{L}_{cont}$.

Этот итеративный процесс улучшает как понимание интентов, так и качество рекомендаций.

4. Эксперименты и результаты

4.1 Наборы данных и базовые модели

Эксперименты проводились на четырёх реальных наборах данных: Beauty, Sports, Toys и Yelp. В качестве базовых моделей использовались современные модели SR (SASRec, BERT4Rec) и методы самообучения (CL4SRec).

Сводка производительности (NDCG@10)

SASRec: 0.0452 (Beauty)
BERT4Rec: 0.0471 (Beauty)
CL4SRec: 0.0498 (Beauty)
ICL (Наша): 0.0524 (Beauty)

ICL стабильно превосходила все базовые модели на всех наборах данных.

4.2 Сравнение производительности

ICL достигла значительного улучшения по метрикам Recall и NDCG (например, +5.2% NDCG@10 на Beauty по сравнению с лучшей базовой моделью), что демонстрирует эффективность моделирования скрытых интентов.

4.3 Анализ устойчивости

Ключевым вкладом является повышенная устойчивость. ICL показала превосходную производительность в условиях разреженности данных (использование более коротких последовательностей) и при наличии зашумлённых взаимодействий (случайно вставленные нерелевантные элементы). Контрастное обучение на уровне интентов обеспечивает стабилизирующий сигнал, менее чувствительный к отдельным зашумлённым элементам.

4.4 Абляционные исследования

Абляционные исследования подтвердили необходимость обоих компонентов: (1) удаление контрастной функции потерь привело к значительному падению производительности, и (2) использование фиксированных/случайных интентов вместо изучаемых также ухудшило результаты, что подтверждает правильность совместного обучения интентам и контрастного согласования.

5. Ключевые идеи и анализ

Основная идея: Фунментальный прорыв данной работы заключается не просто в очередном контрастном трюке, а в формальном возвращении моделирования скрытых переменных в современные глубокие последовательные рекомендательные системы. Хотя модели, такие как SASRec, являются мощными учениками последовательностей, они по сути являются «чёрными ящиками»-авторегрессорами. Гениальность ICL заключается в том, что она заставляет модель объяснять последовательность через дискретную, интерпретируемую скрытую переменную интента $z$, создавая узкое место, которое отфильтровывает шум и улавливает «почему» за «что». Это напоминает философский сдвиг в генеративных моделях, таких как VAE, но применяемый дискриминативно для рекомендаций.

Логический поток: Методология элегантно проста. 1) Кластеризация последовательностей для получения прототипов интентов (аппроксимация E-шага). 2) Использование этих прототипов в качестве якорей для контрастной функции потерь. 3) Контрастная функция потерь дисциплинирует энкодер последовательности, заставляя его создавать представления, согласованные с этими семантическими якорями. 4) Это согласование, в свою очередь, уточняет кластеры и общую цель рекомендаций. Это замкнутый цикл обучения представлений и кластеризации, стабилизированный EM-фреймворком — классическая идея, усиленная современным контрастным обучением.

Сильные и слабые стороны: Основная сила — это эмпирически продемонстрированная устойчивость. Обучаясь на уровне интентов, модель становится менее хрупкой к разреженности и шуму — критическому недостатку многих перепараметризованных глубоких рекомендательных систем. Фреймворк также не зависит от базовой архитектуры SR. Однако главный недостаток — это предположение о статичном интенте. Модель предполагает один скрытый интент на последовательность, но в реальности пользовательские сессии могут быть многогранными (например, просмотр подарка и для себя). Шаг кластеризации также вводит гиперпараметры (число интентов K) и потенциальную чувствительность к инициализации, что в работе упоминается вскользь. По сравнению с более динамичными подходами к разделению интентов в исследованиях RL или исследованиях разведки, это относительно грубое решение.

Практические выводы: Для практиков вывод ясен: Внедряйте интерпретируемую структуру в ваши модели глубокого обучения. Не просто применяйте более крупные трансформеры к последовательности. Парадигма ICL может быть адаптирована за пределами рекомендаций — любая задача с пользовательскими траекториями (например, навигация в UI, образовательные траектории) может выиграть от контрастного обучения скрытых интентов. Следующим непосредственным шагом для исследователей должно стать развитие этой идеи от единичных, статичных интентов к иерархическим или последовательным интентам. Можем ли мы смоделировать, как интент пользователя меняется в течение сессии? Более того, интеграция этого с фреймворками причинного вывода могла бы отделить действия, обусловленные интентом, от случайных, продвигаясь к действительно объяснимым и устойчивым последовательным моделям. Публикация кода является значительным подспорьем для воспроизведения и расширения.

6. Технические детали и математическая формулировка

Общая целевая функция объединяет стандартную функцию потерь для предсказания следующего элемента (например, перекрёстную энтропию) с контрастной функцией потерь для интентов:

$\mathcal{L} = \mathcal{L}_{pred} + \lambda \mathcal{L}_{cont}$

где $\lambda$ контролирует вес контрастного члена. Функция потерь для предсказания $\mathcal{L}_{pred}$:

$\mathcal{L}_{pred} = -\sum_{u} \log P(v_{t+1}^u | S_{1:t}^u, z^u)$

Переменная интента $z$ интегрирована в энкодер последовательности. Например, в энкодере на основе трансформера, эмбеддинг интента $g(z)$ может быть добавлен в начало последовательности элементов как специальный токен `[INTENT]`, позволяя модели учитывать контекст интента при генерации предсказаний.

7. Пример применения аналитического фреймворка

Сценарий: Анализ пользовательских сессий на платформе электронной коммерции.

Без ICL: Модель видит последовательность Пользователя A: [«туристические ботинки», «бутылка для воды», «энергетический батончик»]. Она предсказывает «рюкзак» на основе паттернов совместного появления.

С ICL:

Кластеризация интентов: Модель изучила кластер интентов для «Подготовка к отдыху на природе». Представление последовательности Пользователя A назначено этому кластеру.
Контрастное обучение: Во время обучения представление для [«туристические ботинки», «бутылка для воды», «энергетический батончик»] сближается с эмбеддингом интента «Подготовка к отдыху на природе».
Улучшенное предсказание: На этапе вывода, модель, осведомлённая об интенте «Подготовка к отдыху на природе», теперь может также рекомендовать «репеллент от комаров» или «компас» — элементы, тесно связанные с интентом, но не обязательно с точной исторической последовательностью, — демонстрируя лучшую обобщающую способность и устойчивость к разреженным данным.

8. Будущие применения и направления

Мультидоменные и кроссплатформенные рекомендации: Скрытые интенты (например, «фитнес») могут быть общими для разных доменов (спортивные товары, приложения по питанию, видео-контент), что позволяет использовать transfer learning.
Объяснимый ИИ (XAI): Предоставление рекомендаций с метками интентов («Рекомендуем, потому что вы, кажется, планируете рыбалку») может значительно повысить доверие и удовлетворённость пользователей.
Диалоговые рекомендательные системы: Интенты могут служить мостом между диалогом на естественном языке и рекомендацией элементов, улучшая связность диалоговых агентов.
Динамическое моделирование интентов: Расширение ICL для моделирования переходов интентов в рамках одной сессии (например, от «исследования» к «покупке») с использованием темпоральных точечных процессов или моделей пространства состояний.
Интеграция с большими языковыми моделями (LLM): Использование LLM для генерации богатых текстовых описаний изученных кластеров интентов для лучшей интерпретируемости или использование эмбеддингов LLM для инициализации прототипов интентов.

9. Ссылки

Chen, Y., Liu, Z., Li, J., McAuley, J., & Xiong, C. (2022). Intent Contrastive Learning for Sequential Recommendation. Proceedings of the ACM Web Conference 2022 (WWW '22).
Kang, W. C., & McAuley, J. (2018). Self-attentive sequential recommendation. 2018 IEEE International Conference on Data Mining (ICDM).
Sun, F., Liu, J., Wu, J., Pei, C., Lin, X., Ou, W., & Jiang, P. (2019). BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer. Proceedings of the 28th ACM International Conference on Information and Knowledge Management.
Xie, X., Sun, F., Liu, Z., Wu, S., Gao, J., Zhang, J., ... & Cui, B. (2022). Contrastive learning for sequential recommendation. 2022 IEEE 38th International Conference on Data Engineering (ICDE).
Oord, A. v. d., Li, Y., & Vinyals, O. (2018). Representation learning with contrastive predictive coding. arXiv preprint arXiv:1807.03748.
Kingma, D. P., & Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114.
Jannach, D., & Jugovac, M. (2019). Measuring the business value of recommender systems. ACM Transactions on Management Information Systems (TMIS), 10(4), 1-23.