Sıralı Öneri için Niyet Kontrastif Öğrenimi (ICLRec)

1. Giriş

Sıralı Öneri (SR), bir kullanıcının bir sonraki etkileşimini, geçmiş davranış dizisine dayanarak tahmin etmeyi amaçlar. Derin öğrenme modelleri en ileri düzey performansı elde etmiş olsa da, genellikle kullanıcı davranışını yönlendiren temel gizli niyetleri gözden kaçırırlar (örn., "balıkçılık ekipmanı alışverişi", "tatil hazırlığı"). Bu niyetler gözlemlenemez ancak kullanıcı motivasyonunu anlamak ve öneri doğruluğu ile sağlamlığını artırmak, özellikle seyrek veya gürültülü veri senaryolarında, kritik öneme sahiptir.

Bu makale, SR modellerine gizli bir niyet değişkeni enjekte eden yeni bir paradigma olan Niyet Kontrastif Öğrenimi'ni (ICL) tanıtmaktadır. Temel fikir, etiketlenmemiş dizilerden kullanıcı niyet dağılımlarını öğrenmek ve kontrastif özdenetimli öğrenme kullanarak SR modelini optimize etmek, dizi görünümlerini karşılık gelen niyetleriyle hizalamaktır.

2. Arka Plan & İlgili Çalışmalar

2.1 Sıralı Öneri

GRU4Rec, SASRec ve BERT4Rec gibi modeller zamansal dinamikleri yakalar ancak tipik olarak davranışı doğrudan bir öğe dizisi olarak modeller ve daha yüksek dereceli niyet sinyallerini kaçırır.

2.2 Niyet Modelleme

Önceki niyet farkındalıklı modeller genellikle açık yan bilgilere (örn., sorgular, kategoriler) dayanır. ICL, niyetleri doğrudan örtük davranış dizilerinden öğrenerek yenilik getirir.

2.3 Kontrastif Öğrenme

Bilgisayarlı görüdeki (örn., SimCLR, MoCo) ve Doğal Dil İşleme'deki başarılardan ilham alan kontrastif öğrenme, aynı verinin farklı şekilde güçlendirilmiş görünümleri arasındaki uyumu maksimize eder. ICL bunu, davranışsal dizileri gizli niyetleriyle hizalamak için uyarlar.

3. Metodoloji: Niyet Kontrastif Öğrenimi (ICL)

3.1 Problem Formülasyonu

Bir etkileşim dizisi $S^u = [v_1^u, v_2^u, ..., v_t^u]$ olan bir kullanıcı $u$ verildiğinde, amaç bir sonraki öğeyi $v_{t+1}^u$ tahmin etmektir. ICL, diziyi açıklamak için gizli bir niyet değişkeni $z$ sunar.

3.2 Gizli Niyet Değişkeni

Niyet $z$, dizinin altında yatan motivasyonu temsil eden kategorik bir değişken olarak modellenir. Model, bir dağılım $p(z | S^u)$ öğrenir.

3.3 Kümeleme Yoluyla Niyet Dağılımı Öğrenimi

Kullanıcı dizi temsilleri, $K$ gizli niyet prototipini keşfetmek için kümelenir (örn., K-ortalamalar kullanılarak). Her küme merkezi bir niyeti temsil eder.

3.4 Kontrastif Özdenetimli Öğrenme

Temel öğrenme sinyali, kontrastif bir kayıptan gelir. Bir $S$ dizisi için iki güçlendirilmiş görünüm ($S_i$, $S_j$) oluşturulur. Model, bir dizinin temsilini ve atandığı niyet kümesinin temsilini birbirine yaklaştırmak, diğer niyetlerden uzaklaştırmak üzere eğitilir. Pozitif bir çift (dizi, niyeti) için kontrastif kayıp InfoNCE kaybına dayanır:

$\mathcal{L}_{cont} = -\log \frac{\exp(\text{sim}(f(S), g(z)) / \tau)}{\sum_{z' \in \mathcal{Z}} \exp(\text{sim}(f(S), g(z')) / \tau)}$

Burada $f$ dizi kodlayıcısı, $g$ niyet gömme fonksiyonu, $\text{sim}$ bir benzerlik fonksiyonu (örn., kosinüs) ve $\tau$ bir sıcaklık parametresidir.

3.5 Genelleştirilmiş EM Çerçevesi ile Eğitim

Eğitim, Genelleştirilmiş Beklenti-Maksimizasyon (EM) çerçevesi içinde iki adım arasında dönüşümlü olarak gerçekleşir:

E-adımı (Niyet Çıkarımı): Mevcut model parametreleri verildiğinde, her dizi için gizli niyet $z$'nin sonsal dağılımını tahmin et.
M-adımı (Model Güncelleme): SR model parametrelerini, standart sonraki-öğe tahmin kaybını ve kontrastif kayıp $\mathcal{L}_{cont}$'ı içeren beklenen log-olabilirliği maksimize ederek güncelle.

Bu yinelemeli süreç hem niyet anlayışını hem de öneri kalitesini iyileştirir.

4. Deneyler & Sonuçlar

4.1 Veri Kümeleri & Karşılaştırma Modelleri

Deneyler dört gerçek dünya veri kümesinde yürütülmüştür: Beauty, Sports, Toys ve Yelp. Karşılaştırma modelleri arasında en ileri düzey SR modelleri (SASRec, BERT4Rec) ve özdenetimli yöntemler (CL4SRec) yer almıştır.

Performans Özeti (NDCG@10)

SASRec: 0.0452 (Beauty)
BERT4Rec: 0.0471 (Beauty)
CL4SRec: 0.0498 (Beauty)
ICL (Bizim): 0.0524 (Beauty)

ICL, tüm veri kümelerinde tüm karşılaştırma modellerini tutarlı bir şekilde geride bırakmıştır.

4.2 Performans Karşılaştırması

ICL, Recall ve NDCG metriklerinde önemli iyileştirmeler sağlamıştır (örn., Beauty üzerinde en iyi karşılaştırma modeline göre +%5.2 NDCG@10), gizli niyet modellemenin etkinliğini göstermiştir.

4.3 Sağlamlık Analizi

Önemli bir katkı, iyileştirilmiş sağlamlıktır. ICL, veri seyrekliği (daha kısa diziler kullanılarak) ve gürültülü etkileşimler (rastgele eklenen ilgisiz öğeler) varlığında üstün performans göstermiştir. Niyet düzeyindeki kontrastif öğrenme, bireysel gürültülü öğelere daha az duyarlı olan bir dengeleyici sinyal sağlar.

4.4 Ablasyon Çalışmaları

Ablasyon çalışmaları her iki bileşenin de gerekliliğini doğrulamıştır: (1) kontrastif kaybın kaldırılması önemli bir düşüşe yol açmış, (2) öğrenilmiş niyetler yerine sabit/rastgele niyetler kullanılması da performansa zarar vermiştir. Bu, ortak niyet öğrenimi ve kontrastif hizalama tasarımını doğrulamaktadır.

5. Temel Kavrayışlar & Analiz

Temel Kavrayış: Makalenin temel atılımı, sadece başka bir kontrastif numara değil; modern derin sıralı önericilere gizli değişken modellemenin resmi olarak yeniden dahil edilmesidir. SASRec gibi modeller güçlü dizi öğrenicileri olsa da, esasen "kara kutu" otoregresörlerdir. ICL'nin dahiyane yanı, modeli diziyi ayrık, yorumlanabilir bir gizli niyet $z$ aracılığıyla açıklamaya zorlaması, gürültüyü filtreleyen ve "ne"nin arkasındaki "neden"i yakalayan bir darboğaz yaratmasıdır. Bu, VAE'ler gibi üretici modellerdeki felsefi değişimi anımsatır, ancak öneri için ayırt edici olarak uygulanmıştır.

Mantıksal Akış: Metodoloji zarif bir şekilde basittir. 1) Niyet prototiplerini elde etmek için dizileri kümeler (E-adımı vekili). 2) Bu prototipleri kontrastif bir kayıp için çapa olarak kullan. 3) Kontrastif kayıp, dizi kodlayıcısını bu anlamsal çapalarla hizalanmış temsiller üretmeye zorlar. 4) Bu hizalama, karşılık olarak kümeleri ve genel öneri amacını iyileştirir. Bu, temsil öğrenimi ve kümelemenin, EM çerçevesiyle dengelenen - modern kontrastif öğrenme ile güçlendirilmiş klasik bir fikir - erdemli bir döngüsüdür.

Güçlü & Zayıf Yönler: Birincil güçlü yön, deneysel olarak gösterilen sağlamlıktır. Niyet düzeyinde öğrenerek, model seyreklik ve gürültüye karşı daha az kırılgan hale gelir - bu, birçok aşırı parametreli derin önericide kritik bir kusurdur. Çerçeve aynı zamanda temel SR mimarisine bağımsızdır. Ancak, ana zayıf yön statik niyet varsayımıdır. Model dizi başına tek bir gizli niyet varsayar, ancak gerçekte kullanıcı oturumları çok yönlü olabilir (örn., bir hediye ve kendisi için göz atmak). Kümeleme adımı ayrıca hiperparametreler (niyet sayısı K) ve başlatmaya potansiyel duyarlılık getirir, ki makale bunu üstünkörü geçmiştir. RL veya keşif araştırmalarındaki daha dinamik niyet ayrıştırma yaklaşımlarıyla karşılaştırıldığında, bu nispeten kaba taneli bir çözümdür.

Uygulanabilir Kavrayışlar: Uygulayıcılar için çıkarım açıktır: Derin öğrenme modellerinize yorumlanabilir yapı enjekte edin. Sadece dizilere daha büyük transformer'lar atmayın. ICL paradigması önerinin ötesine uyarlanabilir - kullanıcı yörüngeleri olan herhangi bir görev (örn., UI gezintisi, eğitim yolları) gizli niyet kontrastif öğreniminden faydalanabilir. Araştırmacılar için bir sonraki acil adım, bunu tek, statik niyetlerden hiyerarşik veya sıralı niyetlere evriltmek olmalıdır. Bir kullanıcının niyetinin bir oturum sırasında nasıl evrildiğini modelleyebilir miyiz? Dahası, bunu nedensel çıkarım çerçeveleriyle entegre etmek, niyet odaklı eylemleri tesadüfi olanlardan ayırabilir, gerçekten açıklanabilir ve sağlam sıralı modellere doğru ilerletebilir. Kod paylaşımı, çoğaltma ve genişletme için önemli bir nimettir.

6. Teknik Detaylar & Matematiksel Formülasyon

Genel amaç fonksiyonu, standart sonraki-öğe tahmin kaybını (örn., çapraz entropi) kontrastif niyet kaybıyla birleştirir:

$\mathcal{L} = \mathcal{L}_{pred} + \lambda \mathcal{L}_{cont}$

Burada $\lambda$ kontrastif terimin ağırlığını kontrol eder. Tahmin kaybı $\mathcal{L}_{pred}$ şudur:

$\mathcal{L}_{pred} = -\sum_{u} \log P(v_{t+1}^u | S_{1:t}^u, z^u)$

Niyet değişkeni $z$, dizi kodlayıcısına entegre edilir. Örneğin, transformer tabanlı bir kodlayıcıda, niyet gömme $g(z)$, öğe dizisine özel bir `[NİYET]` belirteci olarak eklenebilir, böylece model tahminler üretirken niyet bağlamına dikkat edebilir.

7. Analiz Çerçevesi: Örnek Vaka

Senaryo: Bir e-ticaret platformundaki kullanıcı oturumlarını analiz etmek.

ICL Olmadan: Bir model, Kullanıcı A'nın dizisini görür: ["dağcılık botu", "su matarası", "enerji barı"]. Birlikte oluşum kalıplarına dayanarak "sırt çantası" tahmin eder.

ICL ile:

Niyet Kümelemesi: Model, "Açık Hava Hazırlığı" için bir niyet kümesi öğrenmiştir. Kullanıcı A'nın dizi temsili bu kümeye atanır.
Kontrastif Öğrenme: Eğitim sırasında, ["dağcılık botu", "su matarası", "enerji barı"] temsili "Açık Hava Hazırlığı" niyet gömmesine daha yakın çekilir.
Gelişmiş Tahmin: Çıkarım aşamasında, model "Açık Hava Hazırlığı" niyetinin farkında olarak, artık "sivrisinek kovucu" veya bir "pusula" gibi - niyetle güçlü bir şekilde ilişkili ancak tam olarak geçmiş diziyle mutlaka ilişkili olmayan - öğeleri de önerebilir, böylece daha iyi genelleme ve seyrek veriye karşı sağlamlık gösterir.

8. Gelecekteki Uygulamalar & Yönelimler

Çoklu Alan & Platformlar Arası Öneri: Gizli niyetler (örn., "fitness") alanlar arasında (spor malzemeleri, beslenme uygulamaları, video içeriği) paylaşılabilir, aktarım öğrenimini mümkün kılar.
Açıklanabilir Yapay Zeka (XAI): Önerileri niyet etiketleriyle sunmak ("Balık gezisi planlıyor gibi göründüğünüz için önerildi") kullanıcı güvenini ve memnuniyetini önemli ölçüde artırabilir.
Sohbet Tabanlı Öneri Sistemleri: Niyetler, doğal dil diyaloğu ile öğe önerisi arasında bir köprü görevi görebilir, sohbet ajanlarının tutarlılığını artırabilir.
Dinamik Niyet Modelleme: ICL'yi, zamansal nokta süreçleri veya durum-uzay modelleri kullanarak tek bir oturum içindeki niyet geçişlerini (örn., "araştırma"dan "satın alma"ya) modellemek için genişletmek.
Büyük Dil Modelleri (LLM) ile Entegrasyon: Öğrenilmiş niyet kümeleri için zengin, metinsel açıklamalar oluşturmak veya niyet prototiplerini başlatmak için LLM gömme vektörlerini kullanmak üzere LLM'leri kullanmak.

9. Referanslar

Chen, Y., Liu, Z., Li, J., McAuley, J., & Xiong, C. (2022). Intent Contrastive Learning for Sequential Recommendation. Proceedings of the ACM Web Conference 2022 (WWW '22).
Kang, W. C., & McAuley, J. (2018). Self-attentive sequential recommendation. 2018 IEEE International Conference on Data Mining (ICDM).
Sun, F., Liu, J., Wu, J., Pei, C., Lin, X., Ou, W., & Jiang, P. (2019). BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer. Proceedings of the 28th ACM International Conference on Information and Knowledge Management.
Xie, X., Sun, F., Liu, Z., Wu, S., Gao, J., Zhang, J., ... & Cui, B. (2022). Contrastive learning for sequential recommendation. 2022 IEEE 38th International Conference on Data Engineering (ICDE).
Oord, A. v. d., Li, Y., & Vinyals, O. (2018). Representation learning with contrastive predictive coding. arXiv preprint arXiv:1807.03748.
Kingma, D. P., & Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114.
Jannach, D., & Jugovac, M. (2019). Measuring the business value of recommender systems. ACM Transactions on Management Information Systems (TMIS), 10(4), 1-23.