순차 추천을 위한 의도 대조 학습 (ICLRec)

1. 서론

순차 추천은 사용자의 과거 행동 시퀀스를 기반으로 다음 상호작용을 예측하는 것을 목표로 합니다. 딥러닝 모델이 최첨단 성능을 달성했지만, 종종 사용자 행동을 이끄는 근본적인 잠재 의도(예: "낚시 장비 쇼핑", "휴가 준비")를 간과합니다. 이러한 의도는 관찰되지 않지만, 특히 데이터가 희소하거나 노이즈가 많은 시나리오에서 사용자 동기를 이해하고 추천 정확도와 견고성을 향상시키는 데 중요합니다.

본 논문은 SR 모델에 잠재 의도 변수를 도입하는 새로운 패러다임인 의도 대조 학습을 소개합니다. 핵심 아이디어는 레이블이 없는 시퀀스로부터 사용자 의도 분포를 학습하고, 시퀀스 뷰를 해당 의도와 정렬시키는 대조적 자기지도 학습을 사용하여 SR 모델을 최적화하는 것입니다.

2. 배경 및 관련 연구

2.1 순차 추천

GRU4Rec, SASRec, BERT4Rec과 같은 모델은 시간적 역학을 포착하지만, 일반적으로 행동을 아이템의 직접적인 시퀀스로 모델링하여 고차원 의도 신호를 놓칩니다.

2.2 의도 모델링

이전의 의도 인식 모델들은 종종 명시적 부가 정보(예: 쿼리, 카테고리)에 의존했습니다. ICL은 암묵적 행동 시퀀스로부터 의도를 직접 학습함으로써 혁신을 이루었습니다.

2.3 대조 학습

컴퓨터 비전(예: SimCLR, MoCo)과 NLP 분야의 성공에서 영감을 받은 대조 학습은 동일한 데이터의 서로 다른 증강 뷰 간의 일치를 극대화합니다. ICL은 이를 행동 시퀀스와 그 잠재 의도를 정렬하도록 적용합니다.

3. 방법론: 의도 대조 학습 (ICL)

3.1 문제 정의

상호작용 시퀀스 $S^u = [v_1^u, v_2^u, ..., v_t^u]$를 가진 사용자 $u$가 주어졌을 때, 목표는 다음 아이템 $v_{t+1}^u$를 예측하는 것입니다. ICL은 시퀀스를 설명하기 위해 잠재 의도 변수 $z$를 도입합니다.

3.2 잠재 의도 변수

의도 $z$는 시퀀스의 근본적인 동기를 나타내는 범주형 변수로 모델링됩니다. 모델은 분포 $p(z | S^u)$를 학습합니다.

3.3 클러스터링을 통한 의도 분포 학습

사용자 시퀀스 표현은 $K$개의 잠재 의도 프로토타입을 발견하기 위해 클러스터링됩니다(예: K-평균 사용). 각 클러스터 중심은 하나의 의도를 나타냅니다.

3.4 대조적 자기지도 학습

핵심 학습 신호는 대조 손실에서 나옵니다. 시퀀스 $S$에 대해 두 개의 증강 뷰($S_i$, $S_j$)가 생성됩니다. 모델은 시퀀스의 표현과 할당된 의도 클러스터의 표현을 가깝게 끌어당기면서, 다른 의도들과는 멀어지도록 학습됩니다. 양성 쌍(시퀀스, 그 의도)에 대한 대조 손실은 InfoNCE 손실을 기반으로 합니다:

$\mathcal{L}_{cont} = -\log \frac{\exp(\text{sim}(f(S), g(z)) / \tau)}{\sum_{z' \in \mathcal{Z}} \exp(\text{sim}(f(S), g(z')) / \tau)}$

여기서 $f$는 시퀀스 인코더, $g$는 의도 임베딩 함수, $\text{sim}$은 유사도 함수(예: 코사인), $\tau$는 온도 매개변수입니다.

3.5 일반화된 EM 프레임워크를 통한 학습

학습은 일반화된 기대값 최대화 프레임워크 내에서 두 단계를 번갈아 수행합니다:

E-단계 (의도 추론): 현재 모델 매개변수가 주어졌을 때 각 시퀀스에 대한 잠재 의도 $z$의 사후 분포를 추정합니다.
M-단계 (모델 업데이트): 표준 다음 아이템 예측 손실과 대조 손실 $\mathcal{L}_{cont}$을 포함하는 기대 로그 가능도를 최대화하여 SR 모델 매개변수를 업데이트합니다.

이 반복적 과정은 의도 이해와 추천 품질을 모두 개선합니다.

4. 실험 및 결과

4.1 데이터셋 및 베이스라인

네 개의 실제 데이터셋(Beauty, Sports, Toys, Yelp)에서 실험이 수행되었습니다. 베이스라인에는 최첨단 SR 모델(SASRec, BERT4Rec)과 자기지도 방법(CL4SRec)이 포함되었습니다.

성능 요약 (NDCG@10)

SASRec: 0.0452 (Beauty)
BERT4Rec: 0.0471 (Beauty)
CL4SRec: 0.0498 (Beauty)
ICL (본 연구): 0.0524 (Beauty)

ICL은 모든 데이터셋에서 모든 베이스라인을 일관되게 능가했습니다.

4.2 성능 비교

ICL은 Recall 및 NDCG 지표에서 상당한 향상을 달성했습니다(예: Beauty 데이터셋에서 최고 베이스라인 대비 NDCG@10 +5.2%), 이는 잠재 의도 모델링의 효과성을 입증합니다.

4.3 견고성 분석

핵심 기여는 향상된 견고성입니다. ICL은 데이터 희소성(더 짧은 시퀀스 사용)과 노이즈 상호작용(무작위로 삽입된 관련 없는 아이템)이 존재하는 조건에서도 우수한 성능을 보였습니다. 의도 수준의 대조 학습은 개별 노이즈 아이템에 덜 민감한 안정화 신호를 제공합니다.

4.4 제거 실험

제거 실험은 두 구성 요소의 필요성을 확인했습니다: (1) 대조 손실을 제거하면 성능이 크게 하락했고, (2) 학습된 의도 대신 고정/무작위 의도를 사용하면 성능이 저하되어, 공동 의도 학습과 대조 정렬 설계의 타당성을 검증했습니다.

5. 핵심 통찰 및 분석

핵심 통찰: 본 논문의 근본적인 돌파구는 단순히 또 다른 대조적 기교가 아니라, 현대 딥 순차 추천기에 잠재 변수 모델링을 공식적으로 재도입한 것입니다. SASRec과 같은 모델은 강력한 시퀀스 학습기이지만, 본질적으로 "블랙박스" 자기회귀 모델입니다. ICL의 장점은 모델이 이산적이고 해석 가능한 잠재 의도 $z$를 통해 시퀀스를 설명하도록 강제하여, 노이즈를 걸러내고 "무엇" 뒤에 있는 "왜"를 포착하는 병목 현상을 만들어내는 데 있습니다. 이는 VAE와 같은 생성 모델의 철학적 전환을 연상시키지만, 추천을 위해 판별적으로 적용된 것입니다.

논리적 흐름: 방법론은 우아하게 단순합니다. 1) 시퀀스를 클러스터링하여 의도 프로토타입을 얻습니다(E-단계 대리). 2) 이러한 프로토타입을 대조 손실의 앵커로 사용합니다. 3) 대조 손실은 시퀀스 인코더가 이러한 의미론적 앵커와 정렬된 표현을 생성하도록 규율을 부여합니다. 4) 이 정렬은 차례로 클러스터와 전체 추천 목표를 정제합니다. 이는 표현 학습과 클러스터링의 선순환 구조로, EM 프레임워크에 의해 안정화된 현대적 대조 학습으로 강력해진 고전적인 아이디어입니다.

강점과 한계: 주요 강점은 경험적으로 입증된 견고성입니다. 의도 수준에서 학습함으로써, 모델은 희소성과 노이즈에 대해 덜 취약해지며, 이는 많은 과매개변수화된 딥 추천기의 치명적인 결함입니다. 또한 이 프레임워크는 기본 SR 아키텍처에 대해 불가지론적입니다. 그러나 주요 한계는 정적 의도 가정입니다. 모델은 시퀀스당 단일 잠재 의도를 가정하지만, 실제로 사용자 세션은 다면적일 수 있습니다(예: 선물용과 개인용으로 둘러보기). 또한 클러스터링 단계는 하이퍼파라미터(의도 수 K)와 초기화에 대한 잠재적 민감도를 도입하는데, 논문에서는 이를 간략히 다룹니다. RL이나 탐색 연구의 더 동적인 의도 분리 접근법과 비교할 때, 이는 상대적으로 거친 해결책입니다.

실행 가능한 통찰: 실무자에게 명확한 교훈은 다음과 같습니다: 딥러닝 모델에 해석 가능한 구조를 주입하십시오. 단순히 더 큰 트랜스포머를 시퀀스에 적용하지 마십시오. ICL 패러다임은 추천을 넘어서 사용자 궤적이 있는 모든 작업(예: UI 네비게이션, 교육 경로)에 적용되어 잠재 의도 대조 학습의 혜택을 받을 수 있습니다. 연구자들의 다음 단계는 이를 단일, 정적 의도에서 계층적 또는 순차적 의도로 발전시키는 것입니다. 사용자의 의도가 세션 동안 어떻게 진화하는지 모델링할 수 있을까요? 더 나아가, 이를 인과 추론 프레임워크와 통합하면 의도 기반 행동과 우발적 행동을 분리하여 진정으로 설명 가능하고 견고한 순차 모델로 나아갈 수 있습니다. 코드 공개는 재현과 확장에 큰 도움이 될 것입니다.

6. 기술적 세부사항 및 수학적 공식화

전체 목적 함수는 표준 다음 아이템 예측 손실(예: 교차 엔트로피)과 대조 의도 손실을 결합합니다:

$\mathcal{L} = \mathcal{L}_{pred} + \lambda \mathcal{L}_{cont}$

여기서 $\lambda$는 대조 항의 가중치를 제어합니다. 예측 손실 $\mathcal{L}_{pred}$은 다음과 같습니다:

$\mathcal{L}_{pred} = -\sum_{u} \log P(v_{t+1}^u | S_{1:t}^u, z^u)$

의도 변수 $z$는 시퀀스 인코더에 통합됩니다. 예를 들어, 트랜스포머 기반 인코더에서 의도 임베딩 $g(z)$는 특별한 `[INTENT]` 토큰으로 아이템 시퀀스 앞에 추가되어, 모델이 예측을 생성할 때 의도 문맥에 주의를 기울일 수 있게 합니다.

7. 분석 프레임워크: 예시 사례

시나리오: 전자상거래 플랫폼의 사용자 세션 분석.

ICL 없이: 모델은 사용자 A의 시퀀스: ["등산화", "물병", "에너지 바"]를 봅니다. 동시 발생 패턴을 기반으로 "배낭"을 예측합니다.

ICL과 함께:

의도 클러스터링: 모델은 "야외 활동 준비"에 대한 의도 클러스터를 학습했습니다. 사용자 A의 시퀀스 표현은 이 클러스터에 할당됩니다.
대조 학습: 학습 중에 ["등산화", "물병", "에너지 바"]의 표현은 "야외 활동 준비" 의도 임베딩에 가깝게 끌어당겨집니다.
향상된 예측: 추론 시, "야외 활동 준비" 의도를 인식한 모델은 이제 "모기 기피제"나 "나침반"과 같이 의도와 강하게 연관되어 있지만 정확한 과거 시퀀스와는 반드시 연관되지 않은 아이템도 추천할 수 있어, 희소 데이터에 대한 더 나은 일반화와 견고성을 보여줍니다.

8. 향후 응용 및 방향

다중 도메인 및 크로스 플랫폼 추천: 잠재 의도(예: "피트니스")는 도메인(스포츠 용품, 영양 앱, 비디오 콘텐츠) 간에 공유되어 전이 학습을 가능하게 할 수 있습니다.
설명 가능한 AI: 의도 레이블과 함께 추천 제공("낚시 여행을 계획 중인 것으로 보여 추천합니다")은 사용자 신뢰와 만족도를 크게 높일 수 있습니다.
대화형 추천 시스템: 의도는 자연어 대화와 아이템 추천 사이의 다리 역할을 하여 대화형 에이전트의 일관성을 향상시킬 수 있습니다.
동적 의도 모델링: 시간적 포인트 프로세스나 상태 공간 모델을 사용하여 단일 세션 내 의도 전환(예: "조사"에서 "구매"로)을 모델링하도록 ICL을 확장.
대규모 언어 모델과의 통합: 학습된 의도 클러스터에 대한 풍부한 텍스트 설명을 생성하기 위해 LLM을 사용하거나, 의도 프로토타입을 초기화하기 위해 LLM 임베딩을 사용.

9. 참고문헌

Chen, Y., Liu, Z., Li, J., McAuley, J., & Xiong, C. (2022). Intent Contrastive Learning for Sequential Recommendation. Proceedings of the ACM Web Conference 2022 (WWW '22).
Kang, W. C., & McAuley, J. (2018). Self-attentive sequential recommendation. 2018 IEEE International Conference on Data Mining (ICDM).
Sun, F., Liu, J., Wu, J., Pei, C., Lin, X., Ou, W., & Jiang, P. (2019). BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer. Proceedings of the 28th ACM International Conference on Information and Knowledge Management.
Xie, X., Sun, F., Liu, Z., Wu, S., Gao, J., Zhang, J., ... & Cui, B. (2022). Contrastive learning for sequential recommendation. 2022 IEEE 38th International Conference on Data Engineering (ICDE).
Oord, A. v. d., Li, Y., & Vinyals, O. (2018). Representation learning with contrastive predictive coding. arXiv preprint arXiv:1807.03748.
Kingma, D. P., & Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114.
Jannach, D., & Jugovac, M. (2019). Measuring the business value of recommender systems. ACM Transactions on Management Information Systems (TMIS), 10(4), 1-23.