1. مقدمه و مرور کلی
توصیهگر ترتیبی (SR) هدفش پیشبینی تعامل بعدی کاربر بر اساس دنباله رفتار تاریخی اوست. در حالی که مدلهای یادگیری عمیقی مانند SASRec و BERT4Rec به نتایج پیشرفتهای دست یافتهاند، اغلب یک عامل حیاتی را نادیده میگیرند: قصدهای پنهان کاربر. اقدامات کاربر (مثلاً خرید تجهیزات ماهیگیری، مرور هدایای تعطیلات) توسط اهداف زیربنایی و مشاهدهنشده هدایت میشوند. مقاله "یادگیری متضاد قصد برای توصیهگر ترتیبی" (ICL) این فرضیه را مطرح میکند که مدلسازی و استفاده صریح از این قصدها میتواند دقت و استحکام توصیهگر را به طور قابل توجهی بهبود بخشد.
چالش اصلی این است که قصدها به طور مستقیم قابل مشاهده نیستند. ICL این مسئله را با معرفی یک پارادایم جدید یادگیری خودنظارتی حل میکند که به طور همزمان توزیع قصدهای پنهان را یاد میگیرد و مدل SR را بهینه میکند. این روش بین خوشهبندی دنبالههای رفتار برای استنباط قصدها و استفاده از یادگیری متضاد برای همتراز کردن بازنماییهای دنباله با قصدهای استنباطشده آنها، همگی در یک چارچوب امید ریاضی-بیشینهسازی (EM)، تناوب ایجاد میکند.
بینشهای کلیدی
- قصد به عنوان یک متغیر پنهان: رفتار کاربر توسط قصدهای پنهان کنترل میشود که میتوان آنها را به عنوان یک متغیر پنهان مدل کرد تا بازنماییهای دنباله را غنی سازد.
- خوشهبندی برای کشف قصد: خوشهبندی بدون نظارت روی دنبالههای کاربر به عنوان یک جایگزین برای کشف قصد بدون نیاز به اطلاعات جانبی عمل میکند.
- همترازی متضاد: یک تابع زیان متضاد، توافق بین یک نمای دنباله و قصد تخصیصیافته خوشهای آن را بیشینه میکند و بازنماییهای آگاهتر از قصد و مستحکمتری ایجاد میکند.
- افزایش استحکام: این رویکرد ذاتی، عملکرد مدل را در شرایط پراکندگی داده و تعاملات پرنویز، که چالشهای رایج دنیای واقعی هستند، بهبود میبخشد.
2. روششناسی: یادگیری متضاد قصد (ICL)
ICL یک پارادایم یادگیری عمومی است که میتواند با مدلهای SR پایهای مختلف (مانند GRU، ترنسفورمر) ادغام شود.
2.1 فرمولبندی مسئله
با توجه به یک کاربر $u$ با دنباله تعامل $S^u = [v_1^u, v_2^u, ..., v_t^u]$، هدف پیشبینی آیتم بعدی $v_{t+1}^u$ است. ICL یک متغیر قصد پنهان $z$ را برای هر دنباله معرفی میکند که نشاندهنده هدف زیربنایی هدایتکننده تعاملات است.
2.2 مدلسازی قصد پنهان از طریق خوشهبندی
از آنجایی که قصدها برچسبگذاری نشدهاند، ICL از خوشهبندی روی بازنماییهای دنباله برای تقریب زدن دستههای قصد استفاده میکند. فرض کنید $h^u$ بازنمایی دنباله از کدگذار SR باشد. یک الگوریتم خوشهبندی (مانند K-means) هر دنباله را به یک خوشه $c$ تخصیص میدهد که به عنوان جایگزینی برای قصد آن $z$ عمل میکند. توزیع تخصیص خوشه $p(c|S^u)$ مدل میشود.
2.3 یادگیری خودنظارتی متضاد
این هسته اصلی ICL است. برای یک دنباله $S^u$، دو نمای همبسته ($S^{u,1}$, $S^{u,2}$) از طریق افزایش داده (مانند ماسک کردن، برش) ایجاد میشوند. هر دو کدگذاری شده و به خوشهها ($c^1$, $c^2$) تخصیص داده میشوند. تابع زیان متضاد هدفش نزدیک کردن بازنماییهای دو نمای یک دنباله به هم و دور کردن آنها از نمای دنبالههای دیگر است، با شرط قصد آنها.
تابع زیان متضاد آگاه از قصد را میتوان به صورت زیر فرمولبندی کرد: $$\mathcal{L}_{ICL} = -\log \frac{\exp(\text{sim}(h^{u,1}, h^{u,2}) / \tau)}{\sum_{k \in \mathcal{B}} \mathbb{1}_{[c^k = c^u]} \exp(\text{sim}(h^{u,1}, h^{k}) / \tau)}$$ که در آن $\text{sim}$ یک تابع شباهت (مانند کسینوس) است، $\tau$ یک پارامتر دما است، و $\mathcal{B}$ یک دسته است. تابع نشانگر $\mathbb{1}_{[c^k = c^u]}$ نمونههای منفی را بر روی دنبالههایی با قصد یکسان متمرکز میکند و یک کار متضاد سختتر و آموزندهتر ایجاد میکند.
2.4 آموزش از طریق چارچوب EM تعمیمیافته
آموزش به صورت تناوبی بین دو مرحله در قالبی شبیه به EM انجام میشود:
- مرحله E (استنباط قصد): پارامترهای مدل SR را ثابت کنید، بازنماییهای دنباله را محاسبه کنید و خوشهبندی را برای بهروزرسانی تخصیصهای قصد $p(c|S^u)$ انجام دهید.
- مرحله M (بهینهسازی مدل): تخصیصهای قصد را ثابت کنید و پارامترهای مدل SR را با استفاده از تابع زیان ترکیبی بهینه کنید: $\mathcal{L} = \mathcal{L}_{SR} + \lambda \mathcal{L}_{ICL}$، که در آن $\mathcal{L}_{SR}$ تابع زیان اصلی توصیه (مانند آنتروپی متقاطع) است و $\lambda$ وزن تابع زیان متضاد را کنترل میکند.
3. جزئیات فنی و فرمولبندی ریاضی
تابع هدف کلی IL به صورت زیر است: $$\mathcal{L}_{total} = \underbrace{-\sum_{u} \log P(v_{t+1}^u | S^u)}_{\text{زیان پیشبینی آیتم بعدی}} + \lambda \underbrace{\mathcal{L}_{ICL}}_{\text{زیان متضاد قصد}}$$ خوشهبندی در مرحله E را میتوان به عنوان بیشینهسازی درستنمایی مدل متغیر پنهان $p(S^u, c)$ دید. تابع زیان متضاد در مرحله M به عنوان یک تنظیمکننده عمل میکند که ثبات قصد را اعمال میکند و منجر به بازنماییهایی میشود که نسبت به نویز درون یک خوشه قصد یکسان ناوردا هستند—مفهومی مشابه اصل ناوردایی در ادبیات یادگیری متضاد مانند SimCLR و MoCo.
4. نتایج تجربی و تحلیل
مقاله ICL را بر روی چهار مجموعهداده واقعی اعتبارسنجی میکند: Beauty, Sports, Toys, and Yelp.
4.1 مجموعهدادهها و خطوط پایه
خطوط پایه شامل روشهای سنتی (BPR-MF)، ترتیبی (GRU4Rec, SASRec, BERT4Rec) و یادگیری متضاد (CL4SRec) هستند. ICL بر روی پایههای SASRec و BERT4Rec اعمال شده است.
4.2 مقایسه عملکرد
ICL به طور مداوم از همه خطوط پایه بهتر عمل میکند در معیارهای Recall@N و NDCG@N. برای مثال، در مجموعهداده Beauty، ICL (BERT4Rec) Recall@20 را حدود ۸٪ نسبت به BERT4Rec ساده بهبود بخشید. این نشاندهنده سود جهانی ادغام مدلسازی قصد است.
افزایش عملکرد (مثال: مجموعهداده Beauty)
پایه: BERT4Rec
Recall@20: +۷.۹٪
NDCG@20: +۹.۱٪
4.3 تحلیل استحکام
ادعای کلیدی، بهبود استحکام است. آزمایشها تحت شرایط پراکندگی داده (استفاده از دنبالههای کوتاهتر) و تعاملات پرنویز (جایگزینی تصادفی آیتمها) نشان میدهند که ICL با شیب ملایمتری نسبت به خطوط پایه افت میکند. خوشهبندی قصد یک سیگنال تثبیتکننده فراهم میکند و به مدل اجازه میدهد به جای همبستگیهای کاذب در دادههای محدود/پرنویز، بر الگوهای قصد مشترک تکیه کند.
4.4 مطالعات حذفی
مطالعات حذفی ضرورت هر دو مؤلفه را تأیید میکنند:
- بدون خوشهبندی: استفاده از قصدهای تصادفی یا ثابت به عملکرد آسیب میزند و نیاز به کشف معنادار قصد را اثبات میکند.
- بدون تابع زیان متضاد: صرفاً استفاده از شناسههای خوشه به عنوان ویژگیها، نسبت به همترازی متضاد کمتر مؤثر است که اهمیت هدف یادگیری بازنمایی را برجسته میکند.
- تأثیر $\lambda$: عملکرد در یک $\lambda$ متوسط به اوج میرسد که نشاندهنده تعادل بین یادگیری خاص وظیفه و یادگیری آگاه از قصد است.
5. چارچوب تحلیل: بینش اصلی و جریان منطقی
بینش اصلی: پیشرفت مقاله یک معماری عصبی جدید نیست، بلکه یک پارادایم یادگیری است. این مقاله به درستی شناسایی میکند که نقطه ضعف مدرن SR نابینایی آن نسبت به "چرایی" پشت اقدامات کاربر است. با قالببندی قصد به عنوان یک متغیر پنهان و استفاده از ابزارهای ساده اما قدرتمند خوشهبندی و یادگیری متضاد، ICL ساختار معنایی را به چیزی تزریق میکند که در غیر این صورت فقط تطبیق الگو روی دنبالهها است. این یادآور نحوه معرفی سازگاری چرخهای توسط مقاله CycleGAN برای امکان ترجمه تصویر جفتنشده است—این یک محدودیت مفهومی است که یادگیری را در جایی که نظارت مستقیم وجود ندارد، هدایت میکند.
جریان منطقی: استدلال قانعکننده و به خوبی ساختار یافته است: ۱) مشاهده کنید که رفتار کاربر قصد-محور است (شکل ۱). ۲) تصدیق کنید که قصدها پنهان هستند. ۳) پیشنهاد کشف آنها از طریق خوشهبندی روی رفتار (یک جایگزین معقول). ۴) از قصدهای کشفشده برای ایجاد یک کار یادگیری متضاد هوشمندانهتر استفاده کنید—به جای متضاد کردن همه نمونههای منفی به طور یکسان، بر روی نمونههای منفی سخت درون همان خوشه قصد تمرکز کنید. ۵) این را درون یک حلقه EM برای بهبود تکراری جاسازی کنید. جریان از شناسایی مسئله تا معماری راهحل، تمیز و منطقی است.
6. نقاط قوت، ضعفها و بینشهای عملی
نقاط قوت:
- پارادایم بر معماری: ماهیت plug-and-play آن با مدلهای SOTA موجود (SASRec, BERT4Rec) یک نقطه قوت اصلی برای پذیرش آسان است.
- کارایی داده: افزایش استحکام مستقیماً به مسائل پرهزینه دنیای واقعی مانند شروع سرد و لاگهای پرنویز میپردازد.
- زیبایی مفهومی: این روش، مدلهای متغیر پنهان (رایج در توصیهگر سنتی) را با یادگیری عمیق خودنظارتی مدرن پیوند میزند.
ضعفها و نقدها:
- فرض قصد ایستا: خوشهبندی یک قصد واحد را به کل دنباله تخصیص میدهد. در واقعیت، قصدها میتوانند در میانه یک نشست تکامل یابند (مثلاً از "تحقیق" به "خرید"). مدل فاقد مدلسازی قصد ریزدانه و زمانی است.
- گلوگاه کیفیت خوشه: کل چارچوب به کیفیت خوشهبندی بدون نظارت وابسته است. خوشههای پرنویز یا زیربهینه میتوانند خطاها را منتشر کنند. مقاله از K-means استفاده میکند؛ روشهای پیشرفتهتر (مانند مدلهای مخلوط گاوسی، خوشهبندی عمیق) میتوانند بررسی شوند.
- سربار محاسباتی: آموزش EM تکراری و خوشهبندی آنلاین، هزینه محاسباتی قابل توجهی نسبت به آموزش استاندارد end-to-end اضافه میکند.
بینشهای عملی برای متخصصان:
- پیادهسازی ICL به عنوان یک تنظیمکننده: هنگام مواجهه با دادههای پراکنده یا پرنویز، از تابع زیان متضاد ICL به عنوان یک تنظیمکننده روی مدل SR موجود خود استفاده کنید. با یک $\lambda$ کوچک شروع کنید.
- نظارت بر انسجام خوشه: خوشهبندی را به عنوان یک جعبه سیاه در نظر نگیرید. انسجام خوشه (مثلاً از طریق امتیاز silhouette) را روی یک مجموعه hold-out ارزیابی کنید تا اطمینان حاصل کنید که "قصدهای" کشفشده معنادار هستند.
- کاوش قصد پویا: برای نشستهای طولانی یا پیچیده، آزمایش کنید که دنبالهها را قبل از خوشهبندی تقسیم کنید یا از مکانیزمهای توجه برای وزندهی آیتمها بر اساس ارتباط قصد استنباطشده استفاده کنید.
7. چشمانداز کاربرد و جهتهای آینده
کاربردهای کوتاهمدت:
- تجارت الکترونیک و خردهفروشی: مستقیماً برای توصیه محصول بعدی، تحلیل سبد خرید و بهبود توصیهها در سناریوهای کاربر جدید/شروع سرد قابل اعمال است.
- پخش محتوا: مدلسازی "قصدهای" تماشا (مانند "نویز پسزمینه"، "یادگیری عمیق"، "شب فیلم خانوادگی") میتواند توصیههای لیست پخش و ویدیوی بعدی را در پلتفرمهایی مانند Netflix یا YouTube بهبود بخشد.
جهتهای تحقیقاتی آینده:
- قصدهای سلسلهمراتبی و پویا: حرکت از یک قصد سطح دنباله واحد به سلسلهمراتبی از قصدها یا مدلسازی انتقال قصد درون یک نشست.
- ادغام با اطلاعات جانبی: در حالی که ICL از اطلاعات جانبی اجتناب میکند، ترکیب آن با سیگنالهای ضعیف (مانند دستهبندی آیتمها، زمان روز) میتواند کشف قصد را راهاندازی و بهبود بخشد.
- مبانی نظری: یک تحلیل رسمی از ویژگیهای همگرایی رویه EM تعمیمیافته و کرانهای تعمیم تابع زیان متضاد آگاه از قصد.
- انتقال قصد بین دامنهای: بررسی اینکه آیا قصدهای یادگرفتهشده در یک دامنه (مانند خرید) میتوانند به دامنه دیگر (مانند توصیه اخبار) اطلاع دهند یا منتقل شوند.
8. مراجع
- Chen, Y., Liu, Z., Li, J., McAuley, J., & Xiong, C. (2022). Intent Contrastive Learning for Sequential Recommendation. Proceedings of the ACM Web Conference 2022 (WWW '22).
- Kang, W. C., & McAuley, J. (2018). Self-attentive sequential recommendation. 2018 IEEE International Conference on Data Mining (ICDM).
- Sun, F., Liu, J., Wu, J., Pei, C., Lin, X., Ou, W., & Jiang, P. (2019). BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer. Proceedings of the 28th ACM International Conference on Information and Knowledge Management.
- Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). A simple framework for contrastive learning of visual representations. International conference on machine learning (ICML).
- Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE international conference on computer vision (ICCV).
- Xie, J., Girshick, R., & Farhadi, A. (2016). Unsupervised deep embedding for clustering analysis. International conference on machine learning (ICML).