1. परिचय एवं अवलोकन
Sequential recommendation aims to predict a user's next interaction based on their historical behavior sequence. Although deep learning models like SASRec and BERT4Rec have achieved state-of-the-art results, they often overlook a critical factor:Latent user intentउपयोगकर्ता व्यवहार (उदाहरण के लिए, मछली पकड़ने के उपकरण खरीदना, त्योहारी उपहार ब्राउज़ करना) अंतर्निहित, अप्रत्यक्ष रूप से देखे गए लक्ष्यों द्वारा संचालित होते हैं। पेपर "इंटेंट कॉन्ट्रास्टिव लर्निंग फॉर सीक्वेंशियल रिकमेंडेशन" प्रस्तावित करता है कि इन इरादों को स्पष्ट रूप से मॉडल करना और उपयोग करना सिफारिशों की सटीकता और मजबूती को काफी बढ़ा सकता है।
मुख्य चुनौती यह है कि इरादों को सीधे देखा नहीं जा सकता। ICL इस समस्या को हल करने के लिए एक नए स्व-निरीक्षित शिक्षण प्रतिमान का परिचय देता है, जोसंयुक्त रूप से अंतर्निहित इरादा वितरण सीखता है और अनुक्रमिक अनुशंसा मॉडल को अनुकूलित करता हैयह विधि अपेक्षा-अधिकतमीकरण ढांचे के भीतर निम्नलिखित चरणों को वैकल्पिक रूप से करती है: व्यवहार अनुक्रमों का समूहीकरण करके इरादे का अनुमान लगाना, और कंट्रास्टिव लर्निंग का उपयोग करके अनुक्रम प्रतिनिधित्व को उसके अनुमानित इरादे के साथ संरेखित करना।
मूल अंतर्दृष्टि
- इरादा एक अव्यक्त चर के रूप में:उपयोगकर्ता व्यवहार छिपे हुए इरादों से संचालित होता है, जिन्हें अनुक्रम प्रतिनिधित्व को समृद्ध करने के लिए अव्यक्त चर के रूप में मॉडल किया जा सकता है।
- क्लस्टरिंग के माध्यम से इरादों की खोज:सहायक जानकारी के बिना इरादा खोज के प्रॉक्सी के रूप में, उपयोगकर्ता अनुक्रमों का अनिरीक्षित क्लस्टरिंग।
- कंट्रास्टिव अलाइनमेंट:Contrastive loss maximizes the consistency between different views of the same sequence and its assigned cluster intent, thereby creating more robust and intent-aware representations.
- Robustness Gain:This method inherently improves the model's performance under data sparsity and interaction noise, which are common real-world challenges.
2. कार्यप्रणाली: इरादा तुलनात्मक अधिगम (ICL)
ICL एक सामान्य शिक्षण प्रतिमान है, जिसे विभिन्न बैकबोन अनुक्रम अनुशंसा मॉडल (जैसे, GRU, Transformer) के साथ एकीकृत किया जा सकता है।
2.1 समस्या परिभाषा
उपयोगकर्ता $u$ और उसकी अंतःक्रिया अनुक्रम $S^u = [v_1^u, v_2^u, ..., v_t^u]$ को देखते हुए, लक्ष्य अगली वस्तु $v_{t+1}^u$ की भविष्यवाणी करना है। ICL प्रत्येक अनुक्रम के लिए एक अव्यक्त इरादा चर $z$ प्रस्तुत करता है, जो अंतःक्रियाओं को प्रेरित करने वाले अंतर्निहित लक्ष्य का प्रतिनिधित्व करता है।
2.2 क्लस्टरिंग के माध्यम से संभावित इरादा मॉडलिंग
इरादों के लिए कोई लेबल नहीं होने के कारण, ICL अनुक्रम प्रतिनिधित्व को क्लस्टर करके इरादा श्रेणियों का अनुमान लगाता है। मान लीजिए $h^u$ अनुक्रम अनुशंसा एनकोडर से प्राप्त अनुक्रम प्रतिनिधित्व है। क्लस्टरिंग एल्गोरिदम (उदाहरण के लिए, K-means) प्रत्येक अनुक्रम को एक क्लस्टर $c$ आवंटित करता है, जो इसके इरादे $z$ के प्रॉक्सी के रूप में कार्य करता है। क्लस्टर आवंटन वितरण $p(c|S^u)$ को मॉडल किया जाता है।
2.3 कंट्रास्टिव सेल्फ-सुपरवाइज्ड लर्निंग
यह ICL का मूल है। एक अनुक्रम $S^u$ के लिए, डेटा संवर्धन (उदाहरण के लिए, मास्किंग, क्रॉपिंग) के माध्यम से दो संबंधित व्यू ($S^{u,1}$, $S^{u,2}$) बनाए जाते हैं। दोनों को एनकोड किया जाता है और क्लस्टर ($c^1$, $c^2$) आवंटित किए जाते हैं। कंट्रास्टिव लॉस का उद्देश्य एक ही अनुक्रम के दोनों व्यू के प्रतिनिधित्व को करीब लाना है, जबकि उन्हें अन्य अनुक्रमों के व्यू से दूर धकेलना है,और उनके इरादों को शर्त के रूप में लिया जाता है。
इरादा-जागरूक कंट्रास्टिव लॉस को इस प्रकार व्यक्त किया जा सकता है:समानइरादों के अनुक्रम, जिससे एक अधिक कठिन और अधिक सूचनापूर्ण कंट्रास्टिव कार्य बनाया जाता है।
2.4 सामान्यीकृत EM फ्रेमवर्क के माध्यम से प्रशिक्षण
प्रशिक्षण EM-शैली में दो चरणों के बीच वैकल्पिक रूप से किया जाता है:
- E-चरण (इरादा अनुमान): अनुक्रम अनुशंसा मॉडल पैरामीटर्स को स्थिर करें, अनुक्रम प्रतिनिधित्व की गणना करें, और इरादा असाइनमेंट $p(c|S^u)$ को अपडेट करने के लिए क्लस्टरिंग निष्पादित करें।
- M-step (Model Optimization): इरादा असाइनमेंट को स्थिर करें, और संयुक्त हानि का उपयोग करके अनुक्रम अनुशंसा मॉडल पैरामीटर्स को अनुकूलित करें: $\mathcal{L} = \mathcal{L}_{SR} + \lambda \mathcal{L}_{ICL}$, जहां $\mathcal{L}_{SR}$ मुख्य अनुशंसा हानि (उदाहरण के लिए, क्रॉस-एन्ट्रॉपी) है, और $\lambda$ कंट्रास्टिव हानि के भार को नियंत्रित करता है।
3. तकनीकी विवरण एवं गणितीय सूत्र
ICL का समग्र उद्देश्य फलन है:
4. प्रयोगात्मक परिणाम और विश्लेषण
पेपर ने ICL को चार वास्तविक-विश्व डेटासेट पर मान्य किया:Beauty, Sports, Toys, और Yelp。
4.1 डेटासेट और बेसलाइन मॉडल
बेसलाइन मॉडल में पारंपरिक तरीके (BPR-MF), अनुक्रमिक तरीके (GRU4Rec, SASRec, BERT4Rec) और कंट्रास्टिव लर्निंग तरीके (CL4SRec) शामिल हैं। ICL को SASRec और BERT4Rec बैकबोन मॉडल पर लागू किया गया है।
4.2 प्रदर्शन तुलना
ICL ने Recall@N और NDCG@N मेट्रिक्स पर सभी बेसलाइन मॉडलों को लगातार बेहतर प्रदर्शन किया हैउदाहरण के लिए, Beauty डेटासेट पर, ICL (BERT4Rec) ने मूल BERT4Rec की तुलना में Recall@20 में लगभग 8% की वृद्धि की। यह इरादा मॉडलिंग को शामिल करने के सामान्य लाभ को साबित करता है।
प्रदर्शन वृद्धि उदाहरण (Beauty डेटासेट)
बैकबोन मॉडल: BERT4Rec
Recall@20: +7.9%
NDCG@20: +9.1%
4.3 रोबस्टनेस विश्लेषण
एक प्रमुख दावा यह है कि Robustness में सुधार हुआ है।Data Sparsity(छोटे अनुक्रम का उपयोग करके) औरशोर अंतःक्रिया(यादृच्छिक वस्तु प्रतिस्थापन) स्थिति के तहत प्रयोगों से पता चलता है कि ICL का प्रदर्शन बेसलाइन मॉडल की तुलना में अधिक धीरे-धीरे गिरता है। इरादा क्लस्टरिंग एक स्थिर संकेत प्रदान करती है, जो मॉडल को सीमित/शोर डेटा में झूठे सहसंबंधों के बजाय साझा इरादा पैटर्न पर भरोसा करने में सक्षम बनाती है।
4.4 एब्लेशन प्रयोग
एब्लेशन अध्ययन ने दो घटकों की आवश्यकता की पुष्टि की:
- क्लस्टरिंग के बिना: यादृच्छिक या निश्चित इरादों का उपयोग करने से प्रदर्शन बिगड़ता है, जो सार्थक इरादा खोज की आवश्यकता को सिद्ध करता है।
- बिना कंट्रास्टिव लॉस के: केवल क्लस्टर आईडी को एक फीचर के रूप में उपयोग करना कंट्रास्टिव अलाइनमेंट जितना प्रभावी नहीं है, जो रिप्रेजेंटेशन लर्निंग के उद्देश्य के महत्व को रेखांकित करता है।
- $\lambda$ का प्रभाव: प्रदर्शन मध्यम $\lambda$ मानों पर चरम पर पहुँचता है, जो कार्य-विशिष्ट शिक्षण और इरादा-जागरूक शिक्षण के बीच संतुलन की आवश्यकता को दर्शाता है।
5. विश्लेषणात्मक ढांचा: मुख्य अंतर्दृष्टि और तार्किक संरचना
मुख्य अंतर्दृष्टि: इस पेपर की सफलता एक नए न्यूरल नेटवर्क आर्किटेक्चर में नहीं, बल्कि एकसीखने के प्रतिमानमें है। यह सही ढंग से बताता है कि आधुनिक अनुक्रम अनुशंसा की घातक कमजोरी उपयोगकर्ता व्यवहार के पीछे के "कारण" की उपेक्षा है। इरादे को एक अव्यक्त चर के रूप में परिभाषित करके, और सरल लेकिन शक्तिशाली क्लस्टरिंग और कंट्रास्टिव लर्निंग उपकरणों का उपयोग करके, ICL अर्थपूर्ण संरचना को उस प्रक्रिया में सम्मिलित करता है जो मूल रूप से केवल अनुक्रम पर पैटर्न मिलान थी। यह याद दिलाता हैCycleGANकागज ने युग्मित छवि अनुवाद के लिए चक्रीय स्थिरता को कैसे पेश किया - यह एक अवधारणात्मक बाधा है जो सीधे पर्यवेक्षण के बिना सीखने का मार्गदर्शन करती है।
तार्किक संरचना: तर्क प्रक्रिया प्रभावशाली और स्पष्ट रूप से संरचित है: 1) यह देखा गया कि उपयोगकर्ता व्यवहार इरादे से प्रेरित है (चित्र 1)। 2) यह स्वीकार किया गया कि इरादे अव्यक्त हैं। 3) इरादों की खोज के लिए व्यवहार को क्लस्टर करने का प्रस्ताव रखा गया (एक उचित प्रॉक्सी)। 4) खोजे गए इरादों का उपयोग करके एक अधिक बुद्धिमान कंट्रास्टिव लर्निंग कार्य बनाया गया - सभी नकारात्मक नमूनों को समान रूप से कंट्रास्ट करने के बजाय, उसी इरादा क्लस्टर के भीतर कठिन नकारात्मक नमूनों पर ध्यान केंद्रित किया गया। 5) इसे पुनरावृत्त अनुकूलन के लिए एक EM लूप में एम्बेड किया गया। समस्या की पहचान से लेकर समाधान वास्तुकला तक का प्रवाह स्पष्ट और तार्किक है।
6. शक्तियाँ, कमियाँ और क्रियान्वयन योग्य अंतर्दृष्टियाँ
लाभ:
- पैराडाइम आर्किटेक्चर से बेहतर: मौजूदा SOTA मॉडल्स (SASRec, BERT4Rec) के साथ इसकी प्लग-एंड-प्ले विशेषता अपनाने में आसानी का मुख्य लाभ है।
- डेटा दक्षता: मजबूती में सुधार ने सीधे तौर पर कोल्ड स्टार्ट और शोर लॉग जैसी महंगी वास्तविक समस्याओं का समाधान किया है।
- अवधारणात्मक सुरुचिपूर्णता: यह संभावित चर मॉडल (पारंपरिक अनुशंसा में सामान्य) को आधुनिक स्व-निरीक्षित गहन शिक्षा से जोड़ता है।
कमियाँ एवं आलोचनाएँ:
- स्थैतिक इरादा धारणा: क्लस्टरिंग पूरे अनुक्रम को एक एकल इरादा प्रदान करती है। वास्तव में, एक वार्तालाप के दौरान इरादा विकसित हो सकता है (उदाहरण के लिए, "अनुसंधान" से "खरीदारी" तक)। मॉडल में सूक्ष्म-दानेदार, समय-क्रमिक इरादा मॉडलिंग का अभाव है।
- क्लस्टरिंग गुणवत्ता अड़चन: संपूर्ण ढांचा अनिरीक्षित क्लस्टरिंग की गुणवत्ता पर निर्भर करता है। शोर या उप-इष्टतम क्लस्टरिंग त्रुटियों का प्रसार कर सकती है। पेपर ने K-means का उपयोग किया है; अधिक उन्नत विधियों (जैसे, गॉसियन मिश्रण मॉडल, गहरी क्लस्टरिंग) का अन्वेषण किया जा सकता है।
- कम्प्यूटेशनल ओवरहेड: मानक एंड-टू-एंड प्रशिक्षण की तुलना में, पुनरावृत्त EM प्रशिक्षण और ऑनलाइन क्लस्टरिंग काफी कम्प्यूटेशनल लागत बढ़ा देते हैं।
व्यवसायियों के लिए क्रियान्वयन योग्य अंतर्दृष्टि:
- ICL को एक नियमितीकरणकर्ता के रूप में लागू करना: विरल या शोर डेटा का सामना करते समय, मौजूदा अनुक्रम अनुशंसा मॉडल के शीर्ष पर ICL कंट्रास्टिव लॉस को एक नियमितीकरणकर्ता के रूप में उपयोग करें। एक छोटे $\lambda$ से शुरू करें।
- क्लस्टर स्थिरता की निगरानी करें: क्लस्टरिंग को ब्लैक बॉक्स के रूप में न देखें। यह सुनिश्चित करने के लिए कि खोजे गए "इरादे" सार्थक हैं, एक होल्डआउट सेट पर क्लस्टरिंग स्थिरता का मूल्यांकन करें (उदाहरण के लिए, सिल्हूट गुणांक के माध्यम से)।
- गतिशील इरादों का अन्वेषण करें: लंबे या जटिल सत्रों के लिए, क्लस्टरिंग से पहले अनुक्रमों को खंडित करने का प्रयास करें, या अनुमानित इरादे की प्रासंगिकता के आधार पर आइटमों को भारित करने के लिए ध्यान तंत्र का उपयोग करें।
7. अनुप्रयोग संभावनाएं और भविष्य की दिशाएं
अल्पकालिक अनुप्रयोग:
- ई-कॉमर्स और खुदरा: यह सीधे तौर पर अगले उत्पाद सिफारिश, शॉपिंग बास्केट विश्लेषण, और नए उपयोगकर्ता/कोल्ड स्टार्ट परिदृश्यों में सिफारिशों को बेहतर बनाने के लिए लागू होता है।
- सामग्री स्ट्रीमिंग: देखने के "इरादे" (उदाहरण के लिए, "बैकग्राउंड साउंड", "गहन अध्ययन", "पारिवारिक मूवी नाइट") का मॉडलिंग करने से Netflix या YouTube जैसे प्लेटफार्मों पर प्लेलिस्ट और अगले वीडियो सिफारिशों में सुधार हो सकता है।
भविष्य के अनुसंधान दिशाएँ:
- पदानुक्रमित एवं गतिशील आशय: एकल अनुक्रम-स्तरीय आशय से आशय पदानुक्रम की ओर बढ़ना, या संवाद के भीतर आशय परिवर्तन का मॉडलिंग करना।
- सहायक जानकारी के साथ एकीकरण: हालांकि ICL सहायक जानकारी से बचता है, लेकिन इसे कमजोर संकेतों (जैसे, आइटम श्रेणी, दिन का समय) के साथ जोड़ने से इरादा खोज को मार्गदर्शन और सुधार मिल सकता है।
- सैद्धांतिक आधार: सामान्यीकृत EM प्रक्रिया के अभिसरण गुणों और इरादा-जागरूक कंट्रास्टिव हानि के सामान्यीकरण सीमा का औपचारिक विश्लेषण।
- क्रॉस-डोमेन इरादा स्थानांतरण: यह अध्ययन करना कि क्या एक डोमेन (जैसे, खरीदारी) में सीखे गए इरादे दूसरे डोमेन (जैसे, समाचार अनुशंसा) में प्रेरित या स्थानांतरित किए जा सकते हैं।
8. संदर्भ सूची
- Chen, Y., Liu, Z., Li, J., McAuley, J., & Xiong, C. (2022). Intent Contrastive Learning for Sequential Recommendation. Proceedings of the ACM Web Conference 2022 (WWW '22).
- Kang, W. C., & McAuley, J. (2018). Self-attentive sequential recommendation. 2018 IEEE International Conference on Data Mining (ICDM).
- Sun, F., Liu, J., Wu, J., Pei, C., Lin, X., Ou, W., & Jiang, P. (2019). BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer. Proceedings of the 28th ACM International Conference on Information and Knowledge Management.
- Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). A simple framework for contrastive learning of visual representations. International conference on machine learning (ICML).
- Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE international conference on computer vision (ICCV).
- Xie, J., Girshick, R., & Farhadi, A. (2016). Unsupervised deep embedding for clustering analysis. International conference on machine learning (ICML).