التعلم التبايني للنية في التوصية المتسلسلة (ICLRec)

1. المقدمة

تهدف التوصية المتسلسلة (SR) إلى توقع التفاعل التالي للمستخدم بناءً على تسلسل سلوكه التاريخي. بينما حققت نماذج التعلم العميق أداءً متقدمًا، فإنها غالبًا ما تتجاهل النوايا الكامنة الأساسية التي تحرك سلوك المستخدم (مثل "التسوق لمعدات الصيد"، "التحضير لعطلة"). هذه النوايا غير ملحوظة ولكنها حاسمة لفهم دوافع المستخدم وتحسين دقة وقوة التوصية، خاصة في سيناريوهات البيانات المتناثرة أو الضوضائية.

تقدم هذه الورقة البحثية التعلم التبايني للنية (ICL)، وهو نموذج جديد يقوم بحقن متغير نية كامنة في نماذج التوصية المتسلسلة. الفكرة الأساسية هي تعلم توزيعات نية المستخدم من التسلسلات غير الموسومة وتحسين نموذج التوصية المتسلسلة باستخدام التعلم الذاتي التبايني، وذلك بمحاذاة وجهات نظر التسلسل مع نواياها المقابلة.

2. الخلفية والأعمال ذات الصلة

2.1 التوصية المتسلسلة

نماذج مثل GRU4Rec و SASRec و BERT4Rec تلتقط الديناميكيات الزمنية ولكنها عادةً ما تنمذج السلوك كتسلسل مباشر للعناصر، مما يفوت إشارات النية عالية المستوى.

2.2 نمذجة النية

غالبًا ما تعتمد نماذج الوعي بالنية السابقة على معلومات جانبية صريحة (مثل الاستعلامات، الفئات). يبتكر نموذج ICL من خلال تعلم النوايا مباشرةً من تسلسلات السلوك الضمنية.

2.3 التعلم التبايني

مستوحى من النجاحات في رؤية الحاسوب (مثل SimCLR، MoCo) ومعالجة اللغة الطبيعية، يقوم التعلم التبايني بتعظيم الاتفاق بين وجهات النظر المعززة بشكل مختلف لنفس البيانات. يقوم نموذج ICL بتكييف هذا لمحاذاة التسلسلات السلوكية مع نواياها الكامنة.

3. المنهجية: التعلم التبايني للنية (ICL)

3.1 صياغة المشكلة

بالنظر إلى مستخدم $u$ مع تسلسل تفاعل $S^u = [v_1^u, v_2^u, ..., v_t^u]$، الهدف هو توقع العنصر التالي $v_{t+1}^u$. يقدم نموذج ICL متغير نية كامنة $z$ لشرح التسلسل.

3.2 متغير النية الكامنة

يتم نمذجة النية $z$ كمتغير فئوي يمثل الدافع الأساسي للتسلسل. يتعلم النموذج توزيعًا $p(z | S^u)$.

3.3 تعلم توزيع النية عبر التجميع

يتم تجميع تمثيلات تسلسل المستخدم (على سبيل المثال، باستخدام K-means) لاكتشاف $K$ من نماذج النية الكامنة. يمثل مركز كل مجموعة نية.

3.4 التعلم الذاتي التبايني

تأتي إشارة التعلم الأساسية من دالة الخسارة التباينية. بالنسبة لتسلسل $S$، يتم إنشاء وجهتي نظر معززتين ($S_i$, $S_j$). يتم تدريب النموذج على تقريب تمثيل التسلسل وتمثيل مجموعة النية المخصصة له، مع إبعاده عن النوايا الأخرى. تعتمد دالة الخسارة التباينية للزوج الإيجابي (التسلسل، نيته) على دالة خسارة InfoNCE:

$\mathcal{L}_{cont} = -\log \frac{\exp(\text{sim}(f(S), g(z)) / \tau)}{\sum_{z' \in \mathcal{Z}} \exp(\text{sim}(f(S), g(z')) / \tau)}$

حيث $f$ هو مُشفر التسلسل، $g$ هي دالة تضمين النية، $\text{sim}$ هي دالة تشابه (مثل جيب التمام)، و $\tau$ هي معلمة درجة الحرارة.

3.5 التدريب عبر إطار EM المعمم

يتناوب التدريب بين خطوتين ضمن إطار توقع-تعظيم معمم (EM):

الخطوة E (استدلال النية): تقدير التوزيع اللاحق للنية الكامنة $z$ لكل تسلسل بالنظر إلى معلمات النموذج الحالية.
الخطوة M (تحديث النموذج): تحديث معلمات نموذج التوصية المتسلسلة عن طريق تعظيم اللوغاريتم الاحتمالي المتوقع، والذي يتضمن دالة خسارة توقع العنصر التالي القياسية ودالة الخسارة التباينية $\mathcal{L}_{cont}$.

تعمل هذه العملية التكرارية على تحسين كل من فهم النية وجودة التوصية.

4. التجارب والنتائج

4.1 مجموعات البيانات والنماذج الأساسية

أُجريت التجارب على أربع مجموعات بيانات من العالم الحقيقي: Beauty, Sports, Toys, and Yelp. شملت النماذج الأساسية نماذج توصية متسلسلة متقدمة (SASRec, BERT4Rec) وطرق التعلم الذاتي (CL4SRec).

ملخص الأداء (NDCG@10)

SASRec: 0.0452 (Beauty)
BERT4Rec: 0.0471 (Beauty)
CL4SRec: 0.0498 (Beauty)
ICL (نموذجنا): 0.0524 (Beauty)

تفوق نموذج ICL باستمرار على جميع النماذج الأساسية عبر مجموعات البيانات.

4.2 مقارنة الأداء

حقق نموذج ICL تحسينات كبيرة في مقاييس الاسترجاع و NDCG (على سبيل المثال، +5.2% NDCG@10 على مجموعة Beauty مقارنة بأفضل نموذج أساسي)، مما يظهر فعالية نمذجة النية الكامنة.

4.3 تحليل القوة

إسهام رئيسي هو تحسين القوة. أظهر نموذج ICL أداءً متفوقًا في ظل تشتت البيانات (باستخدام تسلسلات أقصر) وفي وجود تفاعلات ضوضائية (عناصر غير ذات صلة مُدرجة عشوائيًا). يوفر التعلم التبايني على مستوى النية إشارة تثبيتية أقل حساسية للعناصر الضوضائية الفردية.

4.4 دراسات الإزالة

أكدت دراسات الإزالة ضرورة كلا المكونين: (1) أدت إزالة دالة الخسارة التباينية إلى انخفاض كبير، و (2) استخدام نوايا ثابتة/عشوائية بدلاً من النوايا المتعلمة أضر أيضًا بالأداء، مما يتحقق من تصميم التعلم المشترك للنية والمحاذاة التباينية.

5. الرؤى والتحليل الرئيسية

الرؤية الأساسية: الاختراق الأساسي للورقة ليس مجرد خدعة تباينية أخرى؛ بل هو إعادة إدخال نمذجة المتغيرات الكامنة رسميًا في موصيات التسلسل العميقة الحديثة. بينما نماذج مثل SASRec هي متعلمات تسلسل قوية، إلا أنها في الأساس مُولِدات تلقائية "صندوق أسود". تكمن عبقرية نموذج ICL في إجبار النموذج على شرح التسلسل من خلال نية كامنة منفصلة وقابلة للتفسير $z$، مما يخلق عنق زجاجة يقوم بتصفية الضوضاء والتقاط "السبب" وراء "الماذا". هذا يذكرنا بالتحول الفلسفي في النماذج التوليدية مثل VAEs، ولكن يتم تطبيقه تمييزيًا للتوصية.

التدفق المنطقي: المنهجية بسيطة بأناقة. 1) تجميع التسلسلات للحصول على نماذج النية (وكيل الخطوة E). 2) استخدام هذه النماذج كـ مراسي لدالة الخسارة التباينية. 3) تقوم دالة الخسارة التباينية بتأديب مُشفر التسلسل لإنتاج تمثيلات تتماشى مع هذه المراسي الدلالية. 4) هذه المحاذاة، بدورها، تحسن المجموعات والهدف العام للتوصية. إنها حلقة حميدة من تعلم التمثيل والتجميع، مستقرة بإطار EM - فكرة كلاسيكية أصبحت قوية مع التعلم التبايني الحديث.

نقاط القوة والضعف: القوة الأساسية هي القوة التي تم إثباتها تجريبيًا. من خلال التعلم على مستوى النية، يصبح النموذج أقل هشاشة تجاه التشتت والضوضاء - وهو عيب خطير في العديد من موصيات التعلم العميق ذات المعلمات الزائدة. الإطار أيضًا محايد تجاه بنية التوصية المتسلسلة الأساسية. ومع ذلك، العيب الرئيسي هو افتراض النية الثابتة. يفترض النموذج نية كامنة واحدة لكل تسلسل، ولكن في الواقع، يمكن أن تكون جلسات المستخدم متعددة الأوجه (مثل التصفح لشراء هدية وللذات). تقدم خطوة التجميع أيضًا معلمات فائقة (عدد النوايا K) وحساسية محتملة للتهيئة، والتي تتجاهلها الورقة. مقارنة بمناهج فصل النية الديناميكية الأكثر في أبحاث التعلم المعزز أو الاستكشاف، هذا حل حبيبي نسبيًا.

رؤى قابلة للتنفيذ: بالنسبة للممارسين، الاستنتاج واضح: حقن بنية قابلة للتفسير في نماذج التعلم العميق الخاصة بك. لا ترمي محولات أكبر فقط على التسلسل. يمكن تكييف نموذج ICL خارج التوصية - أي مهمة بها مسارات مستخدم (مثل التنقل في واجهة المستخدم، المسارات التعليمية) يمكن أن تستفيد من التعلم التبايني للنية الكامنة. يجب أن تكون الخطوة التالية الفورية للباحثين هي تطوير هذا من نوايا ثابتة مفردة إلى نوايا هرمية أو متسلسلة. هل يمكننا نمذجة كيفية تطور نية المستخدم خلال الجلسة؟ علاوة على ذلك، يمكن أن يؤدي دمج هذا مع أطر الاستدلال السببي إلى فصل الإجراءات الموجهة بالنية عن تلك العرضية، مما يدفع نحو نماذج تسلسلية قابلة للتفسير وقوية حقًا. إصدار الكود هو نعمة كبيرة للتكرار والتوسع.

6. التفاصيل التقنية والصياغة الرياضية

تجمع دالة الهدف الإجمالية بين دالة خسارة توقع العنصر التالي القياسية (مثل الانتروبيا المتقاطعة) ودالة خسارة النية التباينية:

$\mathcal{L} = \mathcal{L}_{pred} + \lambda \mathcal{L}_{cont}$

حيث $\lambda$ يتحكم في وزن الحد التبايني. دالة خسارة التوقع $\mathcal{L}_{pred}$ هي:

$\mathcal{L}_{pred} = -\sum_{u} \log P(v_{t+1}^u | S_{1:t}^u, z^u)$

يتم دمج متغير النية $z$ في مُشفر التسلسل. على سبيل المثال، في مُشفر قائم على المحولات، يمكن إضافة تضمين النية $g(z)$ كرمز خاص `[INTENT]` إلى تسلسل العناصر، مما يسمح للنموذج بالاهتمام بسياق النية عند توليد التوقعات.

7. إطار التحليل: حالة مثال

السيناريو: تحليل جلسات المستخدم على منصة تجارة إلكترونية.

بدون نموذج ICL: يرى النموذج تسلسل المستخدم A: ["حذاء مشي لمسافات طويلة"، "زجاجة ماء"، "شريط طاقة"]. يتوقع "حقيبة ظهر" بناءً على أنماط التكرار المشترك.

مع نموذج ICL:

تجميع النية: تعلم النموذج مجموعة نية لـ "التحضير للأنشطة الخارجية". تم تعيين تمثيل تسلسل المستخدم A لهذه المجموعة.
التعلم التبايني: أثناء التدريب، يتم تقريب تمثيل ["حذاء مشي لمسافات طويلة"، "زجاجة ماء"، "شريط طاقة"] من تضمين نية "التحضير للأنشطة الخارجية".
التوقع المعزز: عند الاستدلال، قد يوصي النموذج، الواعي بنية "التحضير للأنشطة الخارجية"، الآن أيضًا بـ "طارد البعوض" أو "بوصلة" - وهي عناصر مرتبطة بقوة بالنية ولكن ليس بالضرورة بالتسلسل التاريخي الدقيق - مما يظهر تعميمًا أفضل وقوة تجاه البيانات المتناثرة.

8. التطبيقات المستقبلية والاتجاهات

التوصية متعددة المجالات وعبر المنصات: يمكن مشاركة النوايا الكامنة (مثل "اللياقة البدنية") عبر المجالات (سلع رياضية، تطبيقات تغذية، محتوى فيديو)، مما يتيح نقل التعلم.
الذكاء الاصطناعي القابل للتفسير (XAI): تقديم توصيات مع تسميات النية ("موصى به لأنك تبدو أنك تخطط لرحلة صيد") يمكن أن يزيد بشكل كبير من ثقة المستخدم ورضاه.
أنظمة التوصية المحادثة: يمكن أن تكون النوايا بمثابة جسر بين الحوار الطبيعي للغة وتوصية العناصر، مما يحسن تماسك الوكلاء المحادثين.
نمذجة النية الديناميكية: توسيع نموذج ICL لنمذجة انتقالات النية داخل جلسة واحدة (مثل من "البحث" إلى "الشراء") باستخدام عمليات النقطة الزمنية أو نماذج فضاء الحالة.
التكامل مع نماذج اللغة الكبيرة (LLMs): استخدام نماذج اللغة الكبيرة لتوليد أوصاف نصية غنية لمجموعات النية المتعلمة لتحسين قابلية التفسير، أو استخدام تضمينات نماذج اللغة الكبيرة لتهيئة نماذج النية.

9. المراجع

Chen, Y., Liu, Z., Li, J., McAuley, J., & Xiong, C. (2022). Intent Contrastive Learning for Sequential Recommendation. Proceedings of the ACM Web Conference 2022 (WWW '22).
Kang, W. C., & McAuley, J. (2018). Self-attentive sequential recommendation. 2018 IEEE International Conference on Data Mining (ICDM).
Sun, F., Liu, J., Wu, J., Pei, C., Lin, X., Ou, W., & Jiang, P. (2019). BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer. Proceedings of the 28th ACM International Conference on Information and Knowledge Management.
Xie, X., Sun, F., Liu, Z., Wu, S., Gao, J., Zhang, J., ... & Cui, B. (2022). Contrastive learning for sequential recommendation. 2022 IEEE 38th International Conference on Data Engineering (ICDE).
Oord, A. v. d., Li, Y., & Vinyals, O. (2018). Representation learning with contrastive predictive coding. arXiv preprint arXiv:1807.03748.
Kingma, D. P., & Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114.
Jannach, D., & Jugovac, M. (2019). Measuring the business value of recommender systems. ACM Transactions on Management Information Systems (TMIS), 10(4), 1-23.