1. Введение и обзор

Задача последовательных рекомендаций (Sequential Recommendation, SR) заключается в предсказании следующего взаимодействия пользователя на основе его истории поведения. Хотя модели глубокого обучения, такие как GRU4Rec, SASRec и BERT4Rec, достигли передовых результатов, они часто упускают из виду критический фактор: латентные интенты, лежащие в основе поведения пользователя. Кликстрим пользователя может представлять собой смесь покупки подарка к празднику, изучения хобби или совершения рутинной покупки. В данной статье «Контрастное обучение на основе интентов для последовательных рекомендаций» утверждается, что явное моделирование этих ненаблюдаемых интентов может значительно повысить точность рекомендаций и, что особенно важно, устойчивость модели.

Авторы предлагают Контрастное обучение на основе интентов (Intent Contrastive Learning, ICL) — новую парадигму самообучения (Self-Supervised Learning, SSL). Ключевая инновация ICL — это двухэтапный фреймворк, напоминающий EM-алгоритм: (1) Обнаружение интентов: вывод распределения по латентным интентам из пользовательских последовательностей, обычно с помощью кластеризации. (2) Контрастное обучение с учётом интентов: использование обнаруженных интентов для создания позитивных пар для контрастного SSL, максимизируя согласованность между представлением последовательности и назначенным ей интентом. Этот подход позволяет модели SR изучать представления, инвариантные к шуму внутри одного кластера интентов и дискриминативные для разных интентов.

2. Методология: Контрастное обучение на основе интентов (ICL)

ICL формулирует задачу последовательных рекомендаций как проблему обучения с латентными переменными. Цель — совместно обучить параметры модели SR и распределение латентных интентов.

2.1 Постановка задачи и латентная переменная интента

Пусть $U$ — множество пользователей, а $V$ — множество товаров. Для пользователя $u$ его история взаимодействий представляет собой последовательность $S_u = [v_1, v_2, ..., v_n]$. ICL вводит латентную переменную интента $z$ для каждой последовательности, взятую из категориального распределения по $K$ возможным интентам. Совместная вероятность последовательности и интента моделируется как $p(S_u, z) = p(z) p_\theta(S_u | z)$, где $\theta$ — параметры модели SR (например, Transformer).

2.2 Обучение представлений интентов через кластеризацию

Поскольку интенты ненаблюдаемы, ICL выводит их из данных. Исходная модель SR (например, простой энкодер) генерирует представления последовательностей $h_u$. Затем эти представления кластеризуются (например, с помощью K-means), чтобы назначить каждой последовательности $S_u$ псевдо-метку интента $\hat{z}_u$. Этот шаг кластеризации эффективно выполняет неконтролируемое обнаружение интентов, группируя последовательности, обусловленные схожими скрытыми мотивациями.

2.3 Контрастное самообучение с использованием интентов

Это ядро ICL. Для последовательности $S_u$ и её псевдо-интента $\hat{z}_u$ модель создаёт два аугментированных представления последовательности, $\tilde{S}_u^a$ и $\tilde{S}_u^b$ (например, путём маскирования, обрезки или перестановки товаров). Контрастная функция потерь стремится сблизить представления этих двух вариантов, одновременно отдаляя их от последовательностей, принадлежащих кластерам других интентов. Функция потерь основана на цели InfoNCE:

$\mathcal{L}_{cont} = -\log \frac{\exp(\text{sim}(h_u^a, h_u^b) / \tau)}{\sum_{S_k \in \mathcal{N}} \exp(\text{sim}(h_u^a, h_k) / \tau)}$

где $\mathcal{N}$ — набор негативных примеров (последовательностей из других кластеров интентов), $\text{sim}(\cdot)$ — функция сходства (например, косинусная), а $\tau$ — параметр температуры.

2.4 Обучение с помощью обобщённого алгоритма максимизации ожидания

Обучение ICL чередует два шага, напоминая алгоритм максимизации ожидания (EM):

  1. E-шаг (Вывод интентов): Фиксируются параметры модели SR, используется кластеризация для назначения/обновления псевдо-меток интентов $\hat{z}_u$ для всех последовательностей.
  2. M-шаг (Оптимизация модели): Фиксируются назначения интентов, оптимизируются параметры модели SR с использованием комбинированной функции потерь: стандартной функции потерь для предсказания следующего товара (например, перекрёстной энтропии) плюс контрастная функция потерь с учётом интентов $\mathcal{L}_{cont}$.

Этот итеративный процесс уточняет как понимание интентов, так и представления последовательностей.

3. Технические детали и математический аппарат

Общая целевая функция для ICL представляет собой многозадачную функцию потерь:

$\mathcal{L} = \mathcal{L}_{pred} + \lambda \mathcal{L}_{cont}$

где $\mathcal{L}_{pred}$ — основная функция потерь для последовательного предсказания, $\mathcal{L}_{cont}$ — контрастная функция потерь, определённая выше, а $\lambda$ — балансирующий гиперпараметр. Архитектура модели обычно состоит из общего слоя эмбеддингов товаров, за которым следует энкодер последовательности (например, блоки Transformer). Выход энкодера для последней позиции используется как представление последовательности $h_u$ как для предсказания следующего товара, так и для контрастного обучения.

Ключевой технический нюанс — обработка шага кластеризации. В статье исследуется онлайн-кластеризация (обновление центроидов во время обучения) в сравнении с офлайн-кластеризацией (периодическая перекластеризация). Выбор $K$, количества интентов, также критичен и часто рассматривается как гиперпараметр, настраиваемый на валидационной выборке.

4. Результаты экспериментов и анализ

Статья валидирует ICL на четырёх реальных наборах данных: Amazon (Beauty, Sports), Yelp и MovieLens-1M. Метрики оценки включают Recall@K и NDCG@K.

4.1 Наборы данных и базовые модели

Базовые модели включают классические (FPMC, GRU4Rec), современные (SASRec, BERT4Rec) и другие SR-методы на основе SSL (CL4SRec, CoSeRec). Это создаёт сильное конкурентное поле.

4.2 Сравнение производительности

ICL стабильно превосходит все базовые модели на всех наборах данных и по всем метрикам. Например, на Amazon Beauty ICL демонстрирует относительное улучшение Recall@20 примерно на 5-8% по сравнению с сильнейшей базовой моделью (BERT4Rec). Улучшения особенно заметны на более разреженных наборах данных, таких как Yelp, что подчёркивает эффективность обучения ICL при малом объёме данных.

Ключевой прирост производительности (Пример)

Набор данных: Amazon Sports
Метрика: NDCG@10
Лучшая базовая модель (SASRec): 0.0521
ICL: 0.0567 (+8.8%)

4.3 Анализ устойчивости: разреженность и шум

Основным заявленным вкладом является устойчивость. В статье проводятся два критических эксперимента:

  1. Разреженность данных: Обучение моделей на всё меньших долях данных. Производительность ICL снижается более плавно, чем у базовых моделей, что показывает, что компонент SSL эффективно использует ограниченные данные.
  2. Шумные взаимодействия: Искусственное добавление случайных кликов в последовательности. ICL сохраняет более высокую точность, поскольку контрастная функция потерь на основе интентов помогает модели отличать сигнал (товары, обусловленные интентом) от шума.

Описание графика (представлено мысленно): Линейный график показал бы зависимость Recall@20 от процента обучающих данных. Линия ICL начиналась бы высоко и снижалась медленно, в то время как линии для SASRec и BERT4Rec начинались бы ниже и падали бы резче, особенно при менее 60% данных.

4.4 Абляционные исследования и чувствительность к гиперпараметрам

Абляционные исследования подтверждают необходимость обоих компонентов: удаление контрастной функции потерь ($\lambda=0$) или замена обученных интентов случайными кластерами приводит к значительному падению производительности. Модель демонстрирует разумную чувствительность к количеству кластеров интентов $K$ и весу контрастной функции потерь $\lambda$, причём оптимальные значения различаются для каждого набора данных.

5. Аналитический фреймворк: Практический пример

Сценарий: Платформа электронной коммерции наблюдает последовательность пользователя: [«Треккинговые ботинки», «Водонепроницаемая куртка», «Походная плитка», «Роман»]. Стандартная модель SR может предсказать «Палатка» или «Рюкзак».

Применение фреймворка ICL:

  1. Обнаружение интентов (Кластеризация): Модуль кластеризации ICL группирует эту последовательность с другими, имеющими схожие признаки латентных интентов (например, последовательности, содержащие «Удочка», «Походный стул», «Журнал об активном отдыхе»). Он назначает псевдо-метку интента, например, «Подготовка к отдыху на природе».
  2. Контрастное обучение: Во время обучения аугментированные представления этой последовательности (например, [«Треккинговые ботинки», «[MASK]», «Походная плитка»]) сближаются в пространстве представлений. Они также отдаляются от последовательностей с интентом «Досуговое чтение» (содержащих товары типа «Роман», «Биография», «Электронная книга»).
  3. Предсказание: Поскольку модель изучила устойчивое представление, связанное с интентом «Отдых на природе», она может с большей уверенностью рекомендовать товары типа «Портативный фильтр для воды» или «Налобный фонарь», даже если они редко встречались вместе с «Романом» в исходных данных. Модель понимает, что «Роман», вероятно, является шумом или отдельным, второстепенным интентом внутри доминирующего кластера.
Это демонстрирует, как ICL выходит за рамки простого совместного появления к рассуждению с учётом интентов.

6. Ключевая идея и критический анализ

Ключевая идея: Фундаментальный прорыв статьи заключается не просто в добавлении очередной контрастной функции потерь к Transformer. Это формальная интеграция модели с латентными переменными (интент) в современную парадигму SSL для SR. Это связывает интерпретируемость и устойчивость классических вероятностных моделей с представительной силой глубокого обучения. Метод напрямую решает вопрос «почему» за действиями пользователя, а не только «что» и «когда».

Логическая последовательность: Аргументация убедительна: 1) Интенты существуют и важны. 2) Они латентны. 3) Кластеризация — правдоподобный, масштабируемый прокси для их обнаружения. 4) Контрастное обучение — идеальный механизм для внедрения этой обнаруженной структуры в качестве обучающего сигнала. 5) EM-фреймворк элегантно решает проблему «курицы и яйца» совместного обучения. Эксперименты логически следуют для валидации производительности и утверждения об устойчивости.

Сильные стороны и недостатки:
Сильные стороны: Методология элегантна и обобщаема — ICL представляет собой «подключаемую» парадигму, которая может улучшить многие базовые архитектуры SR. Утверждения об устойчивости хорошо проверены и чрезвычайно ценны для реального развёртывания, где данные всегда неупорядочены и разрежены. Связь с классическим EM обеспечивает теоретическое обоснование, часто отсутствующее в статьях по чистому глубокому обучению.
Недостатки: Главная проблема — цикличность в определении интентов. Интенты определяются кластеризацией представлений последовательностей, изученных той самой моделью, которую мы обучаем. Это рискует усилить существующие смещения модели, а не обнаружить истинные, семантически значимые интенты. Выбор K эвристичен. Кроме того, хотя прирост производительности очевиден, статья могла бы больше сделать для качественного анализа обнаруженных интентов. Являются ли они интерпретируемыми человеком (например, «покупка подарка», «ремонт дома») или просто абстрактными кластерами? Это упущенная возможность для более глубокого понимания, аналогичного анализу карт внимания в Transformers или визуализации признаков в CNN.

Практические выводы: Для практиков эта статья является руководством к тому, чтобы выйти за рамки сырых последовательностей взаимодействий. Инвестируйте в неконтролируемое обнаружение интентов как этап предобработки или совместного обучения. Только результаты по устойчивости оправдывают добавленную сложность для промышленных систем, работающих с пользователями на холодном старте или зашумлёнными логами. Исследовательскому сообществу следует рассматривать это как призыв к изучению более сложных моделей с латентными переменными (например, иерархических, динамических) в рамках SSL-фреймворков. Следующий шаг — переход от статических, глобальных интентов к персонализированным и эволюционирующим моделям интентов, возможно, черпая вдохновение из траекторий тематического моделирования, таких как Dynamic Topic Models.

Оригинальный анализ (300-600 слов): Фреймворк ICL представляет собой значительное развитие в области самообучения для рекомендательных систем. Ранние SSL-методы в SR, такие как CL4SRec, в основном применяли общие аугментации (маскирование, обрезка), вдохновлённые NLP и CV, рассматривая последовательности как общие временные ряды. ICL продвигает это дальше, вводя предметно-ориентированную семантическую структуру — интент — в качестве руководящего принципа для создания позитивных пар. Это аналогично эволюции от SimCLR в компьютерном зрении, который использовал общие аугментации, к более поздним методам, использовавшим информацию о семантических классах для направления контрастного обучения, когда она была доступна. Инновация ICL заключается в выполнении этого полностью неконтролируемым образом для последовательностей.

Утверждения статьи об устойчивости являются наиболее коммерчески привлекательным аспектом. В реальных платформах, как отмечается в исследованиях Netflix и Spotify, данные о взаимодействиях пользователей печально известны своей разреженностью и зашумлённостью. История пользователя — это смесь целенаправленных покупок, исследовательских кликов и случайных нажатий. Традиционные модели, основанные на правдоподобии, с трудом разделяют это. Контрастная цель ICL, которая максимизирует согласованность между разными представлениями последовательности, считающимися имеющими один и тот же интент, по своей сути учит модель быть инвариантной к шуму внутри кластера интентов. Это мощная форма подавления шума. Это согласуется с выводами более широкой литературы по устойчивости в ML, где контрастное предобучение показало улучшение стабильности модели против состязательных примеров и шума в метках.

Однако подход не лишён философских и практических проблем. Зависимость от кластеризации как прокси для обнаружения интентов — его ахиллесова пята. Как утверждают исследователи в области неконтролируемого обучения представлений, качество кластеризации полностью зависит от исходного пространства представлений. Плохие начальные представления приводят к плохим кластерам, которые затем направляют контрастное обучение на закрепление этих плохих представлений — потенциальный цикл отрицательной обратной связи. EM-фреймворк смягчает это, но не устраняет риск. Будущая работа могла бы исследовать более байесовские или вариационные подходы к моделированию интентов, аналогичные Вариационным автоэнкодерам (VAE), используемым для коллаборативной фильтрации, но интегрированным с контрастными целями. Другое направление — включение слабого контроля или дополнительной информации (например, категории товаров, демография пользователей) для «затравки» или регуляризации процесса обнаружения интентов, делая кластеры более интерпретируемыми и практичными, подобно тому, как графы знаний используются для улучшения семантики рекомендаций.

В конечном счёте, ICL успешно демонстрирует, что внедрение латентной семантической структуры в конвейер SSL является мощным направлением. Это перемещает область от изучения сходства последовательностей к изучению сходства интентов, абстракции более высокого уровня, которая, вероятно, более переносима и устойчива. Этот сдвиг парадигмы может повлиять не только на рекомендательные системы, но и на любую модель последовательного принятия решений, где лежащие в основе цели или состояния ненаблюдаемы.

7. Перспективы применения и направления будущих исследований

Краткосрочные применения:

  • Платформы с холодным стартом и разреженными данными: ICL идеально подходит для новых платформ или нишевых вертикалей с ограниченными данными о взаимодействиях пользователей.
  • Многодоменные/кросс-платформенные рекомендации: Изучённые интенты могут служить переносимым представлением интересов пользователя в разных сервисах (например, от электронной коммерции к стримингу контента).
  • Объяснимые рекомендации: Если интенты сделать интерпретируемыми, они могут стать основой для новых интерфейсов объяснений («Рекомендуется, потому что вы находитесь в режиме „Настройка домашнего офиса“»).

Направления будущих исследований:

  1. Динамические и иерархические интенты: Переход от единого статического интента за сессию к моделированию того, как интенты развиваются внутри сессии (например, от «исследования» к «покупке») или организованы иерархически.
  2. Интеграция с дополнительной информацией: Объединение мультимодальных данных (текстовые отзывы, изображения) для привязки обнаружения интентов к более богатой семантике, выход за рамки чисто поведенческой кластеризации.
  3. Теоретический анализ: Предоставление формальных гарантий идентифицируемости интентов или свойств сходимости предложенного EM-подобного алгоритма.
  4. Генерация последовательностей на основе интентов: Использование переменной интента для управления или направления генерации разнообразных и исследовательских списков рекомендаций, а не только предсказания следующего отдельного товара.

8. Список литературы

  1. Chen, Y., Liu, Z., Li, J., McAuley, J., & Xiong, C. (2022). Intent Contrastive Learning for Sequential Recommendation. Proceedings of the ACM Web Conference 2022 (WWW '22).
  2. Kang, W., & McAuley, J. (2018). Self-attentive sequential recommendation. 2018 IEEE International Conference on Data Mining (ICDM).
  3. Sun, F., Liu, J., Wu, J., Pei, C., Lin, X., Ou, W., & Jiang, P. (2019). BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer. Proceedings of the 28th ACM International Conference on Information and Knowledge Management.
  4. Xie, X., Sun, F., Liu, Z., Wu, S., Gao, J., Zhang, J., ... & Jiang, P. (2022). Contrastive learning for sequential recommendation. 2022 IEEE 38th International Conference on Data Engineering (ICDE).
  5. Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. Advances in neural information processing systems, 27. (Цитируется для контекста моделей с латентными переменными).
  6. Kingma, D. P., & Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114. (Цитируется для контекста вариационных методов для латентных переменных).
  7. Netflix Research Blog. (2020). Recommendations for a Healthy Ecosystem. [Online] Available. (Цитируется для контекста разреженности и шума реальных данных).