1. 서론 및 개요
순차 추천(Sequential Recommendation, SR)은 사용자의 과거 행동 시퀀스를 기반으로 다음 상호작용을 예측하는 것을 목표로 합니다. GRU4Rec, SASRec, BERT4Rec과 같은 딥러닝 모델들이 최첨단 결과를 달성했지만, 종종 중요한 요소를 간과합니다: 사용자 행동을 이끄는 근본적인 잠재 의도입니다. 사용자의 클릭스트림은 명절 선물 쇼핑, 취미 연구, 일상적인 구매 등이 혼합된 것일 수 있습니다. 본 논문 "순차 추천을 위한 의도 대조 학습"은 이러한 관찰되지 않은 의도를 명시적으로 모델링하는 것이 추천 정확도를 크게 향상시키고, 무엇보다도 모델의 견고성을 높일 수 있다고 주장합니다.
저자들은 새로운 자기 지도 학습(Self-Supervised Learning, SSL) 패러다임인 의도 대조 학습(Intent Contrastive Learning, ICL)을 제안합니다. ICL의 핵심 혁신은 두 단계의 EM(기대값 최대화) 유사 프레임워크입니다: (1) 의도 발견: 일반적으로 클러스터링을 통해 사용자 시퀀스로부터 잠재 의도에 대한 분포를 추론합니다. (2) 의도 인식 대조 학습: 발견된 의도를 사용하여 대조 SSL을 위한 양성 쌍을 생성하고, 시퀀스 뷰와 할당된 의도 간의 일치를 최대화합니다. 이 접근법은 SR 모델이 동일한 의도 클러스터 내의 노이즈에 불변하고 서로 다른 의도 간에는 구별되는 표현을 학습할 수 있게 합니다.
2. 방법론: 의도 대조 학습 (ICL)
ICL은 순차 추천을 잠재 변수 하에서의 학습 문제로 설정합니다. 목표는 SR 모델의 매개변수와 잠재 의도 분포를 함께 학습하는 것입니다.
2.1 문제 정의 및 잠재 의도 변수
$U$를 사용자 집합, $V$를 아이템 집합이라고 합시다. 사용자 $u$에 대해, 그들의 상호작용 기록은 시퀀스 $S_u = [v_1, v_2, ..., v_n]$입니다. ICL은 각 시퀀스에 대해 $K$개의 가능한 의도에 대한 범주형 분포에서 추출된 잠재 의도 변수 $z$를 도입합니다. 시퀀스와 의도의 결합 확률은 $p(S_u, z) = p(z) p_\theta(S_u | z)$로 모델링되며, 여기서 $\theta$는 SR 모델(예: Transformer)의 매개변수입니다.
2.2 클러스터링을 통한 의도 표현 학습
의도는 관찰되지 않기 때문에, ICL은 데이터로부터 이를 추론합니다. 초기 SR 모델(예: 간단한 인코더)이 시퀀스 표현 $h_u$를 생성합니다. 그런 다음 이러한 표현들은 클러스터링(예: K-평균 사용)되어 각 시퀀스 $S_u$에 가짜 의도 레이블 $\hat{z}_u$를 할당합니다. 이 클러스터링 단계는 유사한 근본 동기에 의해 추진되는 시퀀스를 그룹화하여 효과적으로 비지도 의도 발견을 수행합니다.
2.3 의도를 활용한 대조 자기 지도 학습
이것이 ICL의 핵심입니다. 시퀀스 $S_u$와 그 가짜 의도 $\hat{z}_u$가 주어졌을 때, 모델은 시퀀스의 두 개의 증강 뷰 $\tilde{S}_u^a$와 $\tilde{S}_u^b$를 생성합니다(예: 아이템 마스킹, 자르기, 재정렬을 통해). 대조 손실은 이 두 뷰의 표현을 서로 가깝게 당기면서, 다른 의도 클러스터에 속하는 시퀀스들과는 멀어지도록 하는 것을 목표로 합니다. 손실 함수는 InfoNCE 목적 함수를 기반으로 합니다:
$\mathcal{L}_{cont} = -\log \frac{\exp(\text{sim}(h_u^a, h_u^b) / \tau)}{\sum_{S_k \in \mathcal{N}} \exp(\text{sim}(h_u^a, h_k) / \tau)}$
여기서 $\mathcal{N}$은 음성 샘플 집합(다른 의도 클러스터의 시퀀스), $\text{sim}(\cdot)$은 유사도 함수(예: 코사인 유사도), $\tau$는 온도 매개변수입니다.
2.4 일반화된 기대값 최대화를 통한 학습
ICL 학습은 기대값 최대화(EM) 알고리즘을 연상시키는 두 단계를 번갈아 수행합니다:
- E-단계 (의도 추론): SR 모델 매개변수를 고정하고, 클러스터링을 사용하여 모든 시퀀스에 대한 가짜 의도 레이블 $\hat{z}_u$를 할당/갱신합니다.
- M-단계 (모델 최적화): 의도 할당을 고정하고, 결합된 손실을 사용하여 SR 모델 매개변수를 최적화합니다: 표준 다음 아이템 예측 손실(예: 교차 엔트로피) 더하기 의도 인식 대조 손실 $\mathcal{L}_{cont}$.
이 반복적인 과정은 의도 이해와 시퀀스 표현을 모두 정제합니다.
3. 기술적 세부사항 및 수학적 프레임워크
ICL의 전체 목적 함수는 다중 작업 손실입니다:
$\mathcal{L} = \mathcal{L}_{pred} + \lambda \mathcal{L}_{cont}$
여기서 $\mathcal{L}_{pred}$는 주요 순차 예측 손실, $\mathcal{L}_{cont}$는 위에서 정의한 대조 손실, $\lambda$는 균형 하이퍼파라미터입니다. 모델 아키텍처는 일반적으로 공유 아이템 임베딩 레이어와 그 뒤를 잇는 시퀀스 인코더(예: Transformer 블록)로 구성됩니다. 마지막 위치에 대한 인코더의 출력은 다음 아이템 예측과 대조 학습 모두를 위한 시퀀스 표현 $h_u$로 사용됩니다.
핵심적인 기술적 뉘앙스는 클러스터링 단계의 처리입니다. 논문은 온라인 클러스터링(학습 중 중심점 갱신)과 오프라인 클러스터링(주기적 재클러스터링)을 탐구합니다. 의도 수 $K$의 선택 또한 중요하며, 종종 검증 세트에서 조정되는 하이퍼파라미터로 취급됩니다.
4. 실험 결과 및 분석
논문은 네 개의 실제 데이터셋에서 ICL을 검증합니다: Amazon (Beauty, Sports), Yelp, 그리고 MovieLens-1M. 평가 지표에는 Recall@K와 NDCG@K가 포함됩니다.
4.1 데이터셋 및 베이스라인
베이스라인에는 고전적(FPMC, GRU4Rec), 최첨단(SASRec, BERT4Rec), 그리고 다른 SSL 기반 SR 방법(CL4SRec, CoSeRec)이 포함됩니다. 이는 강력한 경쟁 구도를 설정합니다.
4.2 성능 비교
ICL은 모든 데이터셋과 지표에서 일관되게 모든 베이스라인을 능가합니다. 예를 들어, Amazon Beauty에서 ICL은 가장 강력한 베이스라인(BERT4Rec) 대비 Recall@20에서 약 5-8%의 상대적 향상을 달성합니다. 이득은 특히 Yelp와 같은 희소한 데이터셋에서 두드러지며, ICL의 데이터 효율적 학습을 강조합니다.
주요 성능 향상 (예시)
데이터셋: Amazon Sports
지표: NDCG@10
최고 베이스라인 (SASRec): 0.0521
ICL: 0.0567 (+8.8%)
4.3 견고성 분석: 희소성 및 노이즈
주장된 주요 기여는 견고성입니다. 논문은 두 가지 중요한 실험을 수행합니다:
- 데이터 희소성: 점점 더 작은 데이터 비율로 모델을 학습시킵니다. ICL의 성능은 베이스라인보다 더 우아하게 저하되어, 그 SSL 구성 요소가 제한된 데이터를 효과적으로 활용함을 보여줍니다.
- 노이즈 상호작용: 시퀀스에 인위적으로 무작위 클릭을 주입합니다. ICL은 더 높은 정확도를 유지하는데, 이는 의도 기반 대조 손실이 모델이 신호(의도 주도 아이템)와 노이즈를 구별하는 데 도움을 주기 때문입니다.
차트 설명 (가상): 선형 차트는 Recall@20 대 학습 데이터 비율을 보여줄 것입니다. ICL 선은 높게 시작하여 천천히 감소하는 반면, SASRec과 BERT4Rec의 선은 더 낮게 시작하고 특히 데이터 60% 미만에서 더 급격히 떨어질 것입니다.
4.4 제거 연구 및 하이퍼파라미터 민감도
제거 연구는 두 구성 요소 모두의 필요성을 확인합니다: 대조 손실 제거($\lambda=0$) 또는 학습된 의도를 무작위 클러스터로 대체하는 것은 상당한 성능 하락을 초래합니다. 모델은 의도 클러스터 수 $K$와 대조 손실 가중치 $\lambda$에 대해 합리적인 민감도를 보이며, 최적 값은 데이터셋마다 다릅니다.
5. 분석 프레임워크: 실용적 사례 연구
시나리오: 전자상거래 플랫폼이 사용자 시퀀스를 관찰합니다: ["등산화", "방수 재킷", "캠핑 스토브", "소설"]. 표준 SR 모델은 "텐트"나 "배낭"을 예측할 수 있습니다.
ICL 프레임워크 적용:
- 의도 발견 (클러스터링): ICL의 클러스터링 모듈은 이 시퀀스를 잠재 의도 특성을 공유하는 다른 시퀀스들(예: "낚싯대", "캠핑 의자", "아웃도어 잡지"를 포함하는 시퀀스)과 그룹화합니다. 가짜 의도 레이블을 할당합니다, 예: "아웃도어 레크리에이션 준비."
- 대조 학습: 학습 중에, 이 시퀀스의 증강 뷰(예: ["등산화", "[MASK]", "캠핑 스토브"])는 표현 공간에서 서로 가까워지도록 당겨집니다. 또한 그들은 "여가 독서" 의도를 가진 시퀀스들(예: "소설", "전기", "이리더"와 같은 아이템 포함)과는 멀어지도록 밀려납니다.
- 예측: 모델이 "아웃도어 레크리에이션" 의도에 연결된 견고한 표현을 학습했기 때문에, 원시 데이터에서 "소설"과 자주 함께 나타나지 않았더라도 "휴대용 정수기"나 "헤드램프"와 같은 아이템을 더 확신 있게 추천할 수 있습니다. 모델은 "소설"이 노이즈이거나 지배적 클러스터 내의 별개의 부차적 의도일 가능성이 높다는 것을 이해합니다.
이것은 ICL이 단순한 동시 발생을 넘어서 의도 인식 추론으로 나아가는 방법을 보여줍니다.
6. 핵심 통찰 및 비판적 분석
핵심 통찰: 논문의 근본적인 돌파구는 단지 Transformer에 또 다른 대조 손실을 덧붙이는 것이 아닙니다. 그것은 잠재 변수 모델(의도)을 SR을 위한 현대 SSL 패러다임에 공식적으로 통합한 것입니다. 이것은 고전적 확률 모델의 해석 가능성과 견고성을 딥러닝의 표현력과 연결합니다. 이는 사용자 행동의 "무엇"과 "언제"뿐만 아니라 "왜"에 직접적으로 대처합니다.
논리적 흐름: 주장은 설득력이 있습니다: 1) 의도는 존재하며 중요합니다. 2) 그것들은 잠재적입니다. 3) 클러스터링은 발견을 위한 그럴듯하고 확장 가능한 대리자입니다. 4) 대조 학습은 이 발견된 구조를 지도 신호로 주입하기 위한 이상적인 메커니즘입니다. 5) EM 프레임워크는 둘을 함께 학습하는 닭과 달걀 문제를 우아하게 처리합니다. 실험은 성능과 견고성 주장을 검증하기 위해 논리적으로 이어집니다.
강점과 결점:
강점: 방법론은 우아하고 일반화 가능합니다—ICL은 많은 백본 SR 아키텍처를 증강할 수 있는 "플러그인" 패러다임입니다. 견고성 주장은 잘 테스트되었으며, 데이터가 항상 지저분하고 희소한 실제 배포에 매우 가치가 있습니다. 고전적 EM과의 연결은 순수 딥러닝 논문에서 종종 빠지는 이론적 기반을 제공합니다.
결점: 가장 큰 문제는 의도 정의의 순환성입니다. 의도는 우리가 학습하고 있는 바로 그 모델에 의해 학습된 시퀀스 표현의 클러스터링에 의해 정의됩니다. 이것은 진정한 의미론적으로 의미 있는 의도를 발견하기보다는 모델의 기존 편향을 강화할 위험이 있습니다. K의 선택은 경험적입니다. 더욱이, 성능 향상은 분명하지만, 논문은 발견된 의도를 정성적으로 분석하는 데 더 많은 노력을 기울일 수 있습니다. 그것들이 인간이 해석 가능한 것(예: "선물 쇼핑", "홈 인테리어")인지 아니면 단지 추상적인 클러스터인지? 이것은 Transformer의 어텐션 맵이나 CNN의 특징 시각화를 분석하는 방식과 유사한 더 깊은 통찰을 위한 놓친 기회입니다.
실행 가능한 통찰: 실무자들에게, 이 논문은 원시 상호작용 시퀀스를 넘어서 볼 것을 요구합니다. 전처리 또는 공동 학습 단계로서 비지도 의도 발견에 투자하십시오. 견고성 발견만으로도 콜드 스타트 사용자나 노이즈 로그에 직면한 생산 시스템에 추가된 복잡성을 정당화합니다. 연구 커뮤니티는 이것을 SSL 프레임워크 내에서 더 정교한 잠재 변수 모델(예: 계층적, 동적)을 탐구하라는 요구로 봐야 합니다. 다음 단계는 정적, 전역 의도에서 개인화되고 진화하는 의도 모델로 이동하는 것이며, 아마도 Dynamic Topic Models와 같은 토픽 모델링 궤적에서 영감을 얻을 수 있을 것입니다.
독창적 분석 (300-600 단어): ICL 프레임워크는 추천을 위한 자기 지도 학습 분야에서 중요한 성숙을 나타냅니다. CL4SRec와 같은 SR의 초기 SSL 방법은 주로 NLP와 CV에서 영감을 받은 일반적인 증강(마스킹, 자르기)을 적용하여 시퀀스를 일반 시계열 데이터로 취급했습니다. ICL은 도메인 특정 의미 구조—의도—를 양성 쌍 생성의 지도 원리로 도입함으로써 이를 발전시킵니다. 이것은 컴퓨터 비전에서 일반적인 증강을 사용했던 SimCLR에서, 나중에 사용 가능할 때 의미적 클래스 정보를 사용하여 대조 학습을 안내했던 방법으로의 진화와 유사합니다. ICL의 혁신은 시퀀스에 대해 완전히 비지도 방식으로 이를 수행한다는 점입니다.
논문의 견고성 주장은 상업적으로 가장 매력적인 측면입니다. Netflix와 Spotify의 연구에서 언급된 바와 같이, 실제 플랫폼에서 사용자 상호작용 데이터는 악명 높게 희소하고 노이즈가 많습니다. 사용자의 기록은 의도적인 구매, 탐색적 클릭, 실수로 탭한 것의 혼합물입니다. 전통적인 가능도 기반 모델은 이것을 풀어내는 데 어려움을 겪습니다. ICL의 대조 목적 함수는 동일한 의도를 공유하는 것으로 간주되는 시퀀스의 다른 뷰 간의 일치를 최대화함으로써, 모델이 의도 클러스터 내의 노이즈에 불변하도록 가르칩니다. 이것은 강력한 형태의 노이즈 제거입니다. 이것은 대조 사전 학습이 적대적 예제와 레이블 노이즈에 대한 모델 안정성을 향상시키는 것으로 나타난 ML의 더 넓은 견고성 문헌의 발견과 일치합니다.
그러나 이 접근법은 철학적, 실용적 도전 과제 없이는 아닙니다. 의도 발견의 대리자로서 클러스터링에 대한 의존은 아킬레스건입니다. 비지도 표현 학습 연구자들이 주장하는 바와 같이, 클러스터링의 품질은 전적으로 초기 표현 공간에 의존합니다. 열악한 초기 표현은 열악한 클러스터로 이어지고, 이는 그런 다음 대조 학습이 그 열악한 표현을 강화하도록 안내합니다—잠재적인 부정적 피드백 루프입니다. EM 프레임워크는 이를 완화하지만 위험을 제거하지는 않습니다. 향후 연구는 협업 필터링에 사용된 Variational Autoencoders(VAE)와 유사하지만 대조 목적 함수와 통합된, 의도 모델링을 위한 더 베이지안적 또는 변분적 접근법을 탐구할 수 있습니다. 또 다른 방향은 약한 지도 또는 부가 정보(예: 제품 카테고리, 사용자 인구통계)를 통합하여 의도 발견 과정을 "씨앗"으로 삼거나 정규화하여 클러스터를 더 해석 가능하고 실행 가능하게 만드는 것입니다. 이는 지식 그래프가 추천 의미론을 향상시키는 데 사용되는 방식과 매우 유사합니다.
궁극적으로, ICL은 잠재 의미 구조를 SSL 파이프라인에 주입하는 것이 강력한 방향임을 성공적으로 입증합니다. 이것은 분야를 시퀀스 유사성 학습에서 의도 유사성 학습으로 이동시킵니다. 이는 더 높은 수준의 추상화로, 아마도 더 전이 가능하고 견고할 것입니다. 이 패러다임 전환은 추천 시스템뿐만 아니라 근본적인 목표나 상태가 관찰되지 않는 모든 순차적 의사 결정 모델에 영향을 미칠 수 있습니다.
7. 적용 전망 및 향후 방향
단기 적용 분야:
- 콜드 스타트 및 희소 데이터 플랫폼: ICL은 제한된 사용자 상호작용 데이터를 가진 새로운 플랫폼이나 틈새 시장에 이상적입니다.
- 다중 도메인/크로스 플랫폼 추천: 학습된 의도는 다른 서비스(예: 전자상거래에서 콘텐츠 스트리밍으로) 간 사용자 관심사를 위한 전이 가능한 표현 역할을 할 수 있습니다.
- 설명 가능 추천: 의도가 해석 가능하게 만들어진다면, 새로운 설명 인터페이스("'홈 오피스 설정' 모드에 있기 때문에 추천")를 구동할 수 있습니다.
향후 연구 방향:
- 동적 및 계층적 의도: 세션당 단일, 정적 의도에서 세션 내에서 의도가 어떻게 진화하는지(예: "연구"에서 "구매"로) 또는 계층적으로 조직되는지를 모델링하는 것으로 이동합니다.
- 부가 정보와의 통합: 다중 모달 데이터(텍스트 리뷰, 이미지)를 융합하여 더 풍부한 의미론에 의도 발견을 근거 짓고, 순전히 행동 기반 클러스터링을 넘어섭니다.
- 이론적 분석: 의도의 식별 가능성 또는 제안된 EM 유사 알고리즘의 수렴 특성에 대한 공식적 보장을 제공합니다.
- 의도 주도 시퀀스 생성: 의도 변수를 사용하여 단지 다음 단일 아이템을 예측하는 것이 아니라 다양하고 탐색적인 추천 목록의 생성을 제어하거나 안내합니다.
8. 참고문헌
- Chen, Y., Liu, Z., Li, J., McAuley, J., & Xiong, C. (2022). Intent Contrastive Learning for Sequential Recommendation. Proceedings of the ACM Web Conference 2022 (WWW '22).
- Kang, W., & McAuley, J. (2018). Self-attentive sequential recommendation. 2018 IEEE International Conference on Data Mining (ICDM).
- Sun, F., Liu, J., Wu, J., Pei, C., Lin, X., Ou, W., & Jiang, P. (2019). BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer. Proceedings of the 28th ACM International Conference on Information and Knowledge Management.
- Xie, X., Sun, F., Liu, Z., Wu, S., Gao, J., Zhang, J., ... & Jiang, P. (2022). Contrastive learning for sequential recommendation. 2022 IEEE 38th International Conference on Data Engineering (ICDE).
- Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. Advances in neural information processing systems, 27. (잠재 변수 모델에 대한 맥락으로 인용).
- Kingma, D. P., & Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114. (잠재 변수에 대한 변분 방법 맥락으로 인용).
- Netflix Research Blog. (2020). Recommendations for a Healthy Ecosystem. [Online] Available. (실제 데이터 희소성 및 노이즈 맥락으로 인용).