1. Pengenalan
Cadangan Berurutan (SR) bertujuan untuk meramalkan interaksi seterusnya pengguna berdasarkan urutan tingkah laku sejarah mereka. Walaupun model pembelajaran mendalam telah mencapai prestasi terkini, mereka sering mengabaikan niat laten yang mendasari yang mendorong tingkah laku pengguna (contohnya, "membeli-belah peralatan memancing," "bersiap untuk percutian"). Niat-niat ini tidak diperhatikan tetapi penting untuk memahami motivasi pengguna dan meningkatkan ketepatan dan keteguhan cadangan, terutamanya dalam senario data yang jarang atau bising.
Kertas kerja ini memperkenalkan Pembelajaran Kontrastif Niat (ICL), satu paradigma baharu yang menyuntik pembolehubah niat laten ke dalam model SR. Idea terasnya adalah untuk mempelajari taburan niat pengguna daripada urutan tidak berlabel dan mengoptimumkan model SR menggunakan pembelajaran kendiri kontrastif, menyelaraskan pandangan urutan dengan niat sepadannya.
2. Latar Belakang & Kerja Berkaitan
2.1 Cadangan Berurutan
Model seperti GRU4Rec, SASRec, dan BERT4Rec menangkap dinamik temporal tetapi biasanya memodelkan tingkah laku sebagai urutan item secara langsung, terlepas isyarat niat peringkat tinggi.
2.2 Pemodelan Niat
Model sedar niat sebelumnya sering bergantung pada maklumat sisi eksplisit (contohnya, pertanyaan, kategori). ICL berinovasi dengan mempelajari niat secara langsung daripada urutan tingkah laku tersirat.
2.3 Pembelajaran Kontrastif
Diilhamkan oleh kejayaan dalam penglihatan komputer (contohnya, SimCLR, MoCo) dan NLP, pembelajaran kontrastif memaksimumkan persetujuan antara pandangan data yang sama yang dipertingkatkan secara berbeza. ICL menyesuaikan ini untuk menyelaraskan urutan tingkah laku dengan niat laten mereka.
3. Metodologi: Pembelajaran Kontrastif Niat (ICL)
3.1 Rumusan Masalah
Diberikan pengguna $u$ dengan urutan interaksi $S^u = [v_1^u, v_2^u, ..., v_t^u]$, matlamatnya adalah untuk meramalkan item seterusnya $v_{t+1}^u$. ICL memperkenalkan pembolehubah niat laten $z$ untuk menerangkan urutan tersebut.
3.2 Pembolehubah Niat Laten
Niat $z$ dimodelkan sebagai pembolehubah kategori yang mewakili motivasi asas untuk urutan tersebut. Model mempelajari taburan $p(z | S^u)$.
3.3 Pembelajaran Taburan Niat melalui Pengelompokan
Perwakilan urutan pengguna dikelompokkan (contohnya, menggunakan K-means) untuk menemui $K$ prototaip niat laten. Setiap sentroid kelompok mewakili satu niat.
3.4 Pembelajaran Kendiri Kontrastif
Isyarat pembelajaran teras datang daripada kerugian kontrastif. Untuk urutan $S$, dua pandangan dipertingkatkan ($S_i$, $S_j$) dicipta. Model dilatih untuk menarik perwakilan urutan dan perwakilan kelompok niat yang ditetapkan lebih rapat, sambil menolaknya jauh dari niat lain. Kerugian kontrastif untuk pasangan positif (urutan, niatnya) adalah berdasarkan kerugian InfoNCE:
$\mathcal{L}_{cont} = -\log \frac{\exp(\text{sim}(f(S), g(z)) / \tau)}{\sum_{z' \in \mathcal{Z}} \exp(\text{sim}(f(S), g(z')) / \tau)}$
di mana $f$ adalah penyandi urutan, $g$ adalah fungsi penyematan niat, $\text{sim}$ adalah fungsi persamaan (contohnya, kosinus), dan $\tau$ adalah parameter suhu.
3.5 Latihan melalui Kerangka EM Teritlak
Latihan berselang-seli antara dua langkah dalam kerangka Jangkaan-Maksimum Teritlak (EM):
- Langkah-E (Inferens Niat): Anggarkan taburan posterior niat laten $z$ untuk setiap urutan berdasarkan parameter model semasa.
- Langkah-M (Kemas Kini Model): Kemas kini parameter model SR dengan memaksimumkan log-kebarangkalian jangkaan, yang merangkumi kerugian ramalan item seterusnya piawai dan kerugian kontrastif $\mathcal{L}_{cont}$.
Proses berulang ini memperhalusi kedua-dua pemahaman niat dan kualiti cadangan.
4. Eksperimen & Keputusan
4.1 Set Data & Garis Dasar
Eksperimen dijalankan pada empat set data dunia sebenar: Beauty, Sports, Toys, dan Yelp. Garis dasar termasuk model SR terkini (SASRec, BERT4Rec) dan kaedah kendiri (CL4SRec).
Ringkasan Prestasi (NDCG@10)
- SASRec: 0.0452 (Beauty)
- BERT4Rec: 0.0471 (Beauty)
- CL4SRec: 0.0498 (Beauty)
- ICL (Kami): 0.0524 (Beauty)
ICL secara konsisten mengatasi semua garis dasar merentasi set data.
4.2 Perbandingan Prestasi
ICL mencapai peningkatan ketara dalam metrik Recall dan NDCG (contohnya, +5.2% NDCG@10 pada Beauty berbanding garis dasar terbaik), menunjukkan keberkesanan pemodelan niat laten.
4.3 Analisis Keteguhan
Sumbangan utama adalah keteguhan yang dipertingkatkan. ICL menunjukkan prestasi unggul di bawah kejarangan data (menggunakan urutan lebih pendek) dan dengan kehadiran interaksi bising (item tidak relevan dimasukkan secara rawak). Pembelajaran kontrastif peringkat niat menyediakan isyarat penstabil yang kurang sensitif terhadap item bising individu.
4.4 Kajian Penyingkiran
Kajian penyingkiran mengesahkan keperluan kedua-dua komponen: (1) membuang kerugian kontrastif menyebabkan penurunan ketara, dan (2) menggunakan niat tetap/rawak berbanding yang dipelajari juga merosakkan prestasi, mengesahkan reka bentuk pembelajaran niat bersama dan penyelarasan kontrastif.
5. Wawasan Utama & Analisis
Wawasan Teras: Kejayaan asas kertas kerja ini bukan sekadar helah kontrastif lain; ia adalah pengenalan semula formal pemodelan pembolehubah laten ke dalam pencadang berurutan mendalam moden. Walaupun model seperti SASRec adalah pelajar urutan yang berkuasa, mereka pada dasarnya adalah "kotak hitam" autoregresor. Kejeniusan ICL terletak pada memaksa model untuk menerangkan urutan melalui niat laten diskret dan boleh ditafsir $z$, mencipta kesesakan yang menapis bunyi dan menangkap "mengapa" di sebalik "apa." Ini mengingatkan peralihan falsafah dalam model generatif seperti VAE, tetapi digunakan secara diskriminatif untuk cadangan.
Aliran Logik: Metodologi ini elegan dan mudah. 1) Kelompokkan urutan untuk mendapatkan prototaip niat (proksi Langkah-E). 2) Gunakan prototaip ini sebagai sauh untuk kerugian kontrastif. 3) Kerugian kontrastif mendisiplinkan penyandi urutan untuk menghasilkan perwakilan yang selaras dengan sauh semantik ini. 4) Penyelarasan ini, seterusnya, memperhalusi kelompok dan objektif cadangan keseluruhan. Ia adalah kitaran baik pembelajaran perwakilan dan pengelompokan, distabilkan oleh kerangka EM—idea klasik yang dibuat berkuasa dengan pembelajaran kontrastif moden.
Kekuatan & Kelemahan: Kekuatan utama adalah keteguhan yang ditunjukkan secara empirikal. Dengan belajar pada peringkat niat, model menjadi kurang rapuh terhadap kejarangan dan bunyi—kelemahan kritikal dalam banyak pencadang mendalam yang terlalu berparameter. Kerangka ini juga agnostik kepada seni bina SR asas. Walau bagaimanapun, kelemahan utama adalah andaian niat statik. Model menganggap satu niat laten per urutan, tetapi dalam realiti, sesi pengguna boleh berbilang aspek (contohnya, melayari untuk hadiah dan untuk diri sendiri). Langkah pengelompokan juga memperkenalkan hiperparameter (bilangan niat K) dan potensi sensitiviti kepada permulaan, yang diabaikan oleh kertas kerja. Berbanding pendekatan pemisahan niat yang lebih dinamik dalam penyelidikan RL atau penerokaan, ini adalah penyelesaian yang agak kasar.
Wawasan Boleh Tindak: Untuk pengamal, pengajaran adalah jelas: Suntik struktur boleh ditafsir ke dalam model pembelajaran mendalam anda. Jangan hanya membaling transformer lebih besar pada urutan. Paradigma ICL boleh disesuaikan di luar cadangan—sebarang tugas dengan trajektori pengguna (contohnya, navigasi UI, laluan pendidikan) boleh mendapat manfaat daripada pembelajaran kontrastif niat laten. Langkah seterusnya segera untuk penyelidik haruslah mengembangkan ini daripada niat tunggal, statik kepada niat hierarki atau berurutan. Bolehkah kita memodelkan bagaimana niat pengguna berkembang semasa sesi? Tambahan pula, mengintegrasikan ini dengan kerangka inferens kausal boleh memisahkan tindakan didorong niat daripada yang kebetulan, mendorong ke arah model berurutan yang benar-benar boleh dijelaskan dan teguh. Pelepasan kod adalah manfaat besar untuk replikasi dan lanjutan.
6. Butiran Teknikal & Rumusan Matematik
Fungsi objektif keseluruhan menggabungkan kerugian ramalan item seterusnya piawai (contohnya, entropi silang) dengan kerugian niat kontrastif:
$\mathcal{L} = \mathcal{L}_{pred} + \lambda \mathcal{L}_{cont}$
Di mana $\lambda$ mengawal berat istilah kontrastif. Kerugian ramalan $\mathcal{L}_{pred}$ adalah:
$\mathcal{L}_{pred} = -\sum_{u} \log P(v_{t+1}^u | S_{1:t}^u, z^u)$
Pembolehubah niat $z$ disepadukan ke dalam penyandi urutan. Contohnya, dalam penyandi berasaskan transformer, penyematan niat $g(z)$ boleh ditambah sebagai token khas `[NIAT]` kepada urutan item, membolehkan model memberi perhatian kepada konteks niat semasa menjana ramalan.
7. Kerangka Analisis: Contoh Kes
Skenario: Menganalisis sesi pengguna di platform e-dagang.
Tanpa ICL: Model melihat urutan Pengguna A: ["kasut mendaki", "botol air", "bar tenaga"]. Ia meramalkan "beg galas" berdasarkan corak kejadian bersama.
Dengan ICL:
- Pengelompokan Niat: Model telah mempelajari kelompok niat untuk "Persediaan Luar." Perwakilan urutan Pengguna A ditetapkan kepada kelompok ini.
- Pembelajaran Kontrastif: Semasa latihan, perwakilan untuk ["kasut mendaki", "botol air", "bar tenaga"] ditarik lebih dekat kepada penyematan niat "Persediaan Luar."
- Ramalan Dipertingkatkan: Pada inferens, model, sedar tentang niat "Persediaan Luar," mungkin kini juga mencadangkan "ubat nyamuk" atau "kompas"—item yang berkait rapat dengan niat tetapi tidak semestinya dengan urutan sejarah tepat—menunjukkan generalisasi yang lebih baik dan keteguhan terhadap data jarang.
8. Aplikasi & Hala Tuju Masa Depan
- Cadangan Berbilang Domain & Rentas Platform: Niat laten (contohnya, "kecergasan") boleh dikongsi merentasi domain (barangan sukan, aplikasi pemakanan, kandungan video), membolehkan pembelajaran pindahan.
- AI Boleh Dijelaskan (XAI): Menyediakan cadangan dengan label niat ("Disyorkan kerana anda nampaknya merancang perjalanan memancing") boleh meningkatkan kepercayaan dan kepuasan pengguna dengan ketara.
- Sistem Pencadang Perbualan: Niat boleh berfungsi sebagai jambatan antara dialog bahasa semula jadi dan cadangan item, meningkatkan koheren agen perbualan.
- Pemodelan Niat Dinamik: Memperluaskan ICL untuk memodelkan peralihan niat dalam satu sesi (contohnya, daripada "penyelidikan" kepada "pembelian") menggunakan proses titik temporal atau model ruang keadaan.
- Integrasi dengan Model Bahasa Besar (LLM): Menggunakan LLM untuk menjana penerangan teks kaya bagi kelompok niat yang dipelajari untuk kebolehtafsiran yang lebih baik, atau menggunakan penyematan LLM untuk memulakan prototaip niat.
9. Rujukan
- Chen, Y., Liu, Z., Li, J., McAuley, J., & Xiong, C. (2022). Intent Contrastive Learning for Sequential Recommendation. Proceedings of the ACM Web Conference 2022 (WWW '22).
- Kang, W. C., & McAuley, J. (2018). Self-attentive sequential recommendation. 2018 IEEE International Conference on Data Mining (ICDM).
- Sun, F., Liu, J., Wu, J., Pei, C., Lin, X., Ou, W., & Jiang, P. (2019). BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer. Proceedings of the 28th ACM International Conference on Information and Knowledge Management.
- Xie, X., Sun, F., Liu, Z., Wu, S., Gao, J., Zhang, J., ... & Cui, B. (2022). Contrastive learning for sequential recommendation. 2022 IEEE 38th International Conference on Data Engineering (ICDE).
- Oord, A. v. d., Li, Y., & Vinyals, O. (2018). Representation learning with contrastive predictive coding. arXiv preprint arXiv:1807.03748.
- Kingma, D. P., & Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114.
- Jannach, D., & Jugovac, M. (2019). Measuring the business value of recommender systems. ACM Transactions on Management Information Systems (TMIS), 10(4), 1-23.