1. Pengenalan & Gambaran Keseluruhan
Cadangan Berurutan (SR) bertujuan untuk meramalkan interaksi seterusnya pengguna berdasarkan urutan tingkah laku sejarah mereka. Walaupun model pembelajaran mendalam seperti GRU4Rec, SASRec, dan BERT4Rec telah mencapai keputusan terkini, mereka sering mengabaikan faktor kritikal: niat laten yang mendasari yang mendorong tingkah laku pengguna. Aliran klik pengguna mungkin merupakan campuran membeli-belah hadiah percutian, menyelidik hobi, atau membuat pembelian rutin. Kertas ini, "Pembelajaran Kontrastif Niat untuk Cadangan Berurutan," mengemukakan bahawa pemodelan eksplisit niat yang tidak diperhatikan ini dapat meningkatkan ketepatan cadangan dengan ketara dan, yang penting, keteguhan model.
Penulis mencadangkan Pembelajaran Kontrastif Niat (ICL), satu paradigma pembelajaran kendiri (SSL) yang baharu. Inovasi teras ICL ialah kerangka kerja dua peringkat seperti EM: (1) Penemuan Niat: Menyimpulkan taburan niat laten daripada urutan pengguna, biasanya melalui pengelompokan. (2) Pembelajaran Kontrastif Sedar Niat: Menggunakan niat yang ditemui untuk mencipta pasangan positif untuk SSL kontrastif, memaksimumkan persetujuan antara pandangan urutan dan niat yang ditetapkan. Pendekatan ini membolehkan model SR mempelajari perwakilan yang tidak berubah terhadap bunyi dalam kelompok niat yang sama dan diskriminatif merentasi niat yang berbeza.
2. Metodologi: Pembelajaran Kontrastif Niat (ICL)
ICL merangka cadangan berurutan sebagai masalah pembelajaran di bawah pembolehubah laten. Matlamatnya adalah untuk mempelajari parameter model SR dan taburan niat laten secara bersama.
2.1 Rumusan Masalah & Pembolehubah Niat Laten
Biarkan $U$ menjadi set pengguna dan $V$ set item. Bagi pengguna $u$, sejarah interaksi mereka ialah urutan $S_u = [v_1, v_2, ..., v_n]$. ICL memperkenalkan pembolehubah niat laten $z$ untuk setiap urutan, diambil daripada taburan kategori merentasi $K$ niat yang mungkin. Kebarangkalian bersama urutan dan niat dimodelkan sebagai $p(S_u, z) = p(z) p_\theta(S_u | z)$, di mana $\theta$ ialah parameter model SR (contohnya, Transformer).
2.2 Pembelajaran Perwakilan Niat melalui Pengelompokan
Memandangkan niat tidak diperhatikan, ICL menyimpulkannya daripada data. Model SR awal (contohnya, penyangkut ringkas) menjana perwakilan urutan $h_u$. Perwakilan ini kemudiannya dikelompokkan (contohnya, menggunakan K-means) untuk menetapkan setiap urutan $S_u$ label pseudo-niat $\hat{z}_u$. Langkah pengelompokan ini secara efektif melaksanakan penemuan niat tanpa penyeliaan, mengumpulkan urutan yang didorong oleh motivasi asas yang serupa.
2.3 Pembelajaran Kendiri Kontrastif dengan Niat
Ini adalah teras ICL. Diberikan urutan $S_u$ dan pseudo-niatnya $\hat{z}_u$, model mencipta dua pandangan dipertingkatkan urutan, $\tilde{S}_u^a$ dan $\tilde{S}_u^b$ (contohnya, melalui pemaskaan item, pemotongan, atau penyusunan semula). Kerugian kontrastif bertujuan untuk mendekatkan perwakilan kedua-dua pandangan ini sambil menjauhkannya daripada urutan yang tergolong dalam kelompok niat yang berbeza. Fungsi kerugian adalah berdasarkan objektif InfoNCE:
$\mathcal{L}_{cont} = -\log \frac{\exp(\text{sim}(h_u^a, h_u^b) / \tau)}{\sum_{S_k \in \mathcal{N}} \exp(\text{sim}(h_u^a, h_k) / \tau)}$
di mana $\mathcal{N}$ ialah set sampel negatif (urutan daripada kelompok niat lain), $\text{sim}(\cdot)$ ialah fungsi persamaan (contohnya, kosinus), dan $\tau$ ialah parameter suhu.
2.4 Latihan melalui Jangkaan-Maksimum Teritlak
Latihan ICL bergilir-gilir antara dua langkah, mengingatkan algoritma Jangkaan-Maksimum (EM):
- Langkah-E (Inferens Niat): Tetapkan parameter model SR, gunakan pengelompokan untuk menetapkan/mengemas kini label pseudo-niat $\hat{z}_u$ untuk semua urutan.
- Langkah-M (Pengoptimuman Model): Tetapkan penetapan niat, optima parameter model SR menggunakan kerugian gabungan: kerugian ramalan item seterusnya piawai (contohnya, entropi silang) tambah kerugian kontrastif sedar niat $\mathcal{L}_{cont}$.
Proses berulang ini memperhalusi kedua-dua pemahaman niat dan perwakilan urutan.
3. Butiran Teknikal & Kerangka Matematik
Fungsi objektif keseluruhan untuk ICL ialah kerugian pelbagai tugas:
$\mathcal{L} = \mathcal{L}_{pred} + \lambda \mathcal{L}_{cont}$
di mana $\mathcal{L}_{pred}$ ialah kerugian ramalan berurutan utama, $\mathcal{L}_{cont}$ ialah kerugian kontrastif yang ditakrifkan di atas, dan $\lambda$ ialah hiperparameter penyeimbang. Seni bina model biasanya terdiri daripada lapisan penyematan item kongsi diikuti oleh penyangkut urutan (contohnya, blok Transformer). Output penyangkut untuk kedudukan terakhir digunakan sebagai perwakilan urutan $h_u$ untuk kedua-dua ramalan item seterusnya dan pembelajaran kontrastif.
Nuansa teknikal utama ialah pengendalian langkah pengelompokan. Kertas ini meneroka pengelompokan dalam talian (mengemas kini pusat kluster semasa latihan) berbanding pengelompokan luar talian (pengelompokan semula berkala). Pilihan $K$, bilangan niat, juga kritikal dan sering dianggap sebagai hiperparameter yang dilaraskan pada set pengesahan.
4. Keputusan Eksperimen & Analisis
Kertas ini mengesahkan ICL pada empat set data dunia sebenar: Amazon (Kecantikan, Sukan), Yelp, dan MovieLens-1M. Metrik penilaian termasuk Recall@K dan NDCG@K.
4.1 Set Data & Garis Dasar
Garis dasar termasuk klasik (FPMC, GRU4Rec), terkini (SASRec, BERT4Rec), dan kaedah SR berasaskan SSL lain (CL4SRec, CoSeRec). Ini mewujudkan medan persaingan yang kuat.
4.2 Perbandingan Prestasi
ICL secara konsisten mengatasi semua garis dasar merentasi semua set data dan metrik. Sebagai contoh, pada Amazon Beauty, ICL mencapai peningkatan relatif ~5-8% dalam Recall@20 berbanding garis dasar terkuat (BERT4Rec). Keuntungan amat ketara pada set data yang lebih jarang seperti Yelp, menonjolkan pembelajaran cekap data ICL.
Peningkatan Prestasi Utama (Contoh)
Set Data: Amazon Sukan
Metrik: NDCG@10
Garis Dasar Terbaik (SASRec): 0.0521
ICL: 0.0567 (+8.8%)
4.3 Analisis Keteguhan: Kekurangan Data & Bunyi
Sumbangan utama yang didakwa ialah keteguhan. Kertas ini menjalankan dua eksperimen kritikal:
- Kekurangan Data: Melatih model pada pecahan data yang semakin kecil. Prestasi ICL merosot dengan lebih lancar berbanding garis dasar, menunjukkan komponen SSLnya memanfaatkan data terhad dengan berkesan.
- Interaksi Bising: Menyuntik klik rawak secara buatan ke dalam urutan. ICL mengekalkan ketepatan yang lebih tinggi, kerana kerugian kontrastif berasaskan niat membantu model membezakan isyarat (item didorong niat) daripada bunyi.
Penerangan Carta (Dibayangkan): Satu carta garis akan menunjukkan Recall@20 vs. Peratusan Data Latihan. Garis ICL akan bermula tinggi dan menurun perlahan, manakala garis untuk SASRec dan BERT4Rec akan bermula lebih rendah dan jatuh lebih tajam, terutamanya di bawah 60% data.
4.4 Kajian Penyingkiran & Kepekaan Hiperparameter
Penyingkiran mengesahkan keperluan kedua-dua komponen: membuang kerugian kontrastif ($\lambda=0$) atau menggantikan niat yang dipelajari dengan kelompok rawak menyebabkan penurunan prestasi yang ketara. Model menunjukkan kepekaan yang munasabah kepada bilangan kelompok niat $K$ dan berat kerugian kontrastif $\lambda$, dengan nilai optimum berbeza setiap set data.
5. Kerangka Analisis: Kajian Kes Praktikal
Senario: Satu platform e-dagang memerhatikan urutan pengguna: ["Kasut Mendaki", "Jaket Kalis Air", "Dapur Khemah", "Novel"]. Model SR piawai mungkin meramalkan "Khemah" atau "Beg Sandang".
Aplikasi Kerangka ICL:
- Penemuan Niat (Pengelompokan): Modul pengelompokan ICL mengumpulkan urutan ini dengan lain-lain yang berkongsi ciri niat laten (contohnya, urutan mengandungi "Joran Memancing", "Kerusi Khemah", "Majalah Luar"). Ia menetapkan label pseudo-niat, contohnya, "Persediaan Rekreasi Luar."
- Pembelajaran Kontrastif: Semasa latihan, pandangan dipertingkatkan urutan ini (contohnya, ["Kasut Mendaki", "[MASK]", "Dapur Khemah"]) didekatkan bersama dalam ruang perwakilan. Mereka juga dijauhkan daripada urutan dengan niat "Membaca Santai" (mengandungi item seperti "Novel", "Biografi", "Pembaca-e").
- Ramalan: Oleh kerana model telah mempelajari perwakilan teguh yang dikaitkan dengan niat "Rekreasi Luar", ia boleh lebih yakin mencadangkan item seperti "Penapis Air Mudah Alih" atau "Lampu Kepala", walaupun ia tidak kerap berlaku bersama "Novel" dalam data mentalah. Ia memahami "Novel" itu berkemungkinan bunyi atau niat kecil berasingan dalam kelompok dominan.
Ini menunjukkan bagaimana ICL bergerak melampaui kejadian bersama ringkas kepada penaakulan sedar niat.
6. Inti Pati & Analisis Kritikal
Inti Pati: Kejayaan asas kertas ini bukan sekadar kerugian kontrastif lain yang ditambah pada Transformer. Ia adalah integrasi formal model pembolehubah laten (niat) ke dalam paradigma SSL moden untuk SR. Ini menjambatani kebolehinterpretasian dan keteguhan model kebarangkalian klasik dengan kuasa perwakilan pembelajaran mendalam. Ia secara langsung menangani "mengapa" di sebalik tindakan pengguna, bukan hanya "apa" dan "bila".
Aliran Logik: Hujahnya menarik: 1) Niat wujud dan penting. 2) Ia adalah laten. 3) Pengelompokan ialah proksi yang munasabah dan boleh skala untuk penemuan. 4) Pembelajaran kontrastif ialah mekanisme ideal untuk menyuntik struktur yang ditemui ini sebagai isyarat penyeliaan. 5) Kerangka kerja EM mengendalikan masalah ayam-dan-telur pembelajaran kedua-duanya bersama dengan elegan. Eksperimen mengikuti secara logik untuk mengesahkan prestasi dan dakwaan keteguhan.
Kekuatan & Kelemahan:
Kekuatan: Metodologi ini elegan dan boleh digeneralisasikan—ICL ialah paradigma "plug-in" yang boleh meningkatkan banyak seni bina SR teras. Dakwaan keteguhan diuji dengan baik dan amat berharga untuk penyebaran dunia sebenar di mana data sentiasa tidak kemas dan jarang. Sambungan kepada EM klasik menyediakan asas teori yang sering tiada dalam kertas pembelajaran mendalam tulen.
Kelemahan: Gajah dalam bilik ialah kekitaran dalam definisi niat. Niat ditakrifkan oleh pengelompokan perwakilan urutan yang dipelajari oleh model yang kita latih. Ini berisiko mengukuhkan bias sedia ada model daripada menemui niat sebenar yang bermakna secara semantik. Pilihan K adalah heuristik. Tambahan pula, walaupun keuntungan prestasi jelas, kertas ini boleh melakukan lebih untuk menganalisis niat yang ditemui secara kualitatif. Adakah ia boleh ditafsirkan manusia (contohnya, "membeli-belah hadiah", "pembaikan rumah") atau hanya kelompok abstrak? Ini adalah peluang yang terlepas untuk pandangan yang lebih mendalam, sama seperti bagaimana penyelidik menganalisis peta perhatian dalam Transformer atau visualisasi ciri dalam CNN.
Pandangan Boleh Tindak: Bagi pengamal, kertas ini ialah mandat untuk melihat melampaui urutan interaksi mentalah. Melabur dalam penemuan niat tanpa penyeliaan sebagai langkah pra-pemprosesan atau latihan bersama. Penemuan keteguhan sahaja membenarkan kerumitan tambahan untuk sistem pengeluaran yang menghadapi pengguna permulaan sejuk atau log bising. Komuniti penyelidikan harus melihat ini sebagai seruan untuk meneroka model pembolehubah laten yang lebih canggih (contohnya, hierarki, dinamik) dalam kerangka kerja SSL. Langkah seterusnya ialah beralih daripada niat statik, global kepada model niat diperibadikan dan berkembang, mungkin mengambil inspirasi daripada trajektori pemodelan topik seperti Model Topik Dinamik.
Analisis Asal (300-600 perkataan): Kerangka ICL mewakili kematangan yang ketara dalam bidang pembelajaran kendiri untuk cadangan. Kaedah SSL awal dalam SR, seperti CL4SRec, terutamanya menggunakan peningkatan generik (pemaskaan, pemotongan) yang diilhamkan oleh NLP dan CV, merawat urutan sebagai data siri masa generik. ICL memajukan ini dengan memperkenalkan struktur semantik khusus domain—niat—sebagai prinsip panduan untuk mencipta pasangan positif. Ini adalah analog dengan evolusi daripada SimCLR dalam penglihatan komputer, yang menggunakan peningkatan generik, kepada kaedah kemudian yang menggunakan maklumat kelas semantik untuk membimbing pembelajaran kontrastif apabila tersedia. Inovasi ICL ialah melakukan ini secara sepenuhnya tanpa penyeliaan untuk urutan.
Dakwaan keteguhan kertas ini adalah aspek paling menarik secara komersial. Dalam platform dunia sebenar, seperti yang dinyatakan dalam kajian daripada Netflix dan Spotify, data interaksi pengguna terkenal jarang dan bising. Sejarah pengguna ialah campuran pembelian sengaja, klik penerokaan, dan ketukan tidak sengaja. Model berasaskan kebarangkalian tradisional sukar untuk memisahkan ini. Objektif kontrastif ICL, yang memaksimumkan persetujuan antara pandangan berbeza urutan dianggap berkongsi niat yang sama, secara semula jadi mengajar model untuk tidak berubah terhadap bunyi dalam kelompok niat. Ini adalah bentuk penyahbunian yang berkuasa. Ia selaras dengan penemuan daripada literatur keteguhan yang lebih luas dalam ML, di mana pra-latihan kontrastif telah ditunjukkan meningkatkan kestabilan model terhadap contoh permusuhan dan bunyi label.
Walau bagaimanapun, pendekatan ini bukan tanpa cabaran falsafah dan praktikal. Pergantungan pada pengelompokan sebagai proksi untuk penemuan niat ialah tumit Achillesnya. Seperti yang dihujahkan oleh penyelidik dalam pembelajaran perwakilan tanpa penyeliaan, kualiti pengelompokan sepenuhnya bergantung pada ruang perwakilan awal. Perwakilan awal yang lemah membawa kepada kelompok yang lemah, yang kemudian membimbing pembelajaran kontrastif untuk mengukuhkan perwakilan lemah tersebut—gelung maklum balas negatif yang berpotensi. Kerangka kerja EM mengurangkan ini tetapi tidak menghapuskan risiko. Kerja masa depan boleh meneroka pendekatan lebih Bayesian atau variasi untuk pemodelan niat, serupa dengan Autoencoder Variasi (VAE) yang digunakan untuk penapisan kolaboratif, tetapi disepadukan dengan objektif kontrastif. Arah lain ialah menggabungkan penyeliaan lemah atau maklumat sisi (contohnya, kategori produk, demografi pengguna) untuk "menyemai" atau mengawal selia proses penemuan niat, menjadikan kelompok lebih boleh ditafsir dan boleh ditindak, sama seperti bagaimana graf pengetahuan digunakan untuk meningkatkan semantik cadangan.
Akhirnya, ICL berjaya menunjukkan bahawa menyuntik struktur semantik laten ke dalam saluran paip SSL adalah arah yang berkuasa. Ia menggerakkan bidang daripada mempelajari persamaan urutan kepada mempelajari persamaan niat, satu abstraksi peringkat lebih tinggi yang berkemungkinan lebih boleh pindah dan teguh. Peralihan paradigma ini boleh mempengaruhi bukan hanya sistem cadangan, tetapi mana-mana model pembuatan keputusan berurutan di mana matlamat atau keadaan asas tidak diperhatikan.
7. Prospek Aplikasi & Hala Tuju Masa Depan
Aplikasi Jangka Pendek:
- Platform Permulaan Sejuk & Data Jarang: ICL adalah ideal untuk platform baharu atau ceruk menegak dengan data interaksi pengguna yang terhad.
- Cadangan Pelbagai Domain/Lintas Platform: Niat yang dipelajari boleh berfungsi sebagai perwakilan boleh pindah untuk minat pengguna merentasi perkhidmatan berbeza (contohnya, daripada e-dagang kepada strim kandungan).
- Cadangan Penjelasan: Jika niat dibuat boleh ditafsir, ia boleh menggerakkan antara muka penjelasan baharu ("Disyorkan kerana anda dalam mod 'Persediaan Pejabat Rumah'").
Hala Tuju Penyelidikan Masa Depan:
- Niat Dinamik & Hierarki: Beralih daripada niat tunggal, statik setiap sesi kepada pemodelan bagaimana niat berkembang dalam sesi (contohnya, daripada "penyelidikan" kepada "pembelian") atau disusun secara hierarki.
- Integrasi dengan Maklumat Sisi: Menggabungkan data multimodal (ulasan teks, imej) untuk membumikan penemuan niat dalam semantik yang lebih kaya, bergerak melampaui pengelompokan tingkah laku tulen.
- Analisis Teori: Menyediakan jaminan formal mengenai kebolehkenalan niat atau sifat penumpuan algoritma seperti EM yang dicadangkan.
- Penjanaan Urutan Didorong Niat: Menggunakan pembolehubah niat untuk mengawal atau membimbing penjanaan senarai cadangan pelbagai dan penerokaan, bukan hanya meramalkan item tunggal seterusnya.
8. Rujukan
- Chen, Y., Liu, Z., Li, J., McAuley, J., & Xiong, C. (2022). Intent Contrastive Learning for Sequential Recommendation. Proceedings of the ACM Web Conference 2022 (WWW '22).
- Kang, W., & McAuley, J. (2018). Self-attentive sequential recommendation. 2018 IEEE International Conference on Data Mining (ICDM).
- Sun, F., Liu, J., Wu, J., Pei, C., Lin, X., Ou, W., & Jiang, P. (2019). BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer. Proceedings of the 28th ACM International Conference on Information and Knowledge Management.
- Xie, X., Sun, F., Liu, Z., Wu, S., Gao, J., Zhang, J., ... & Jiang, P. (2022). Contrastive learning for sequential recommendation. 2022 IEEE 38th International Conference on Data Engineering (ICDE).
- Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. Advances in neural information processing systems, 27. (Dirujuk untuk konteks model pembolehubah laten).
- Kingma, D. P., & Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114. (Dirujuk untuk konteks kaedah variasi untuk pembolehubah laten).
- Netflix Research Blog. (2020). Recommendations for a Healthy Ecosystem. [Dalam Talian] Tersedia. (Dirujuk untuk konteks kekurangan data dan bunyi dunia sebenar).