1. المقدمة والنظرة العامة

تهدف التوصية التسلسلية (SR) إلى توقع التفاعل التالي للمستخدم بناءً على تسلسل سلوكه التاريخي. بينما حققت نماذج التعلم العميق مثل GRU4Rec وSASRec وBERT4Rec نتائج متطورة، فإنها غالبًا ما تتجاهل عاملًا حاسمًا: النوايا الكامنة التي تحرك سلوك المستخدم. قد يكون تيار النقرات الخاص بالمستخدم مزيجًا من التسوق لهدية عطلة، أو البحث عن هواية، أو إجراء عملية شراء روتينية. تطرح هذه الورقة العلمية بعنوان "التعلم التبايني للنية في التوصية التسلسلية" أن نمذجة هذه النوايا غير المرصودة بشكل صريح يمكن أن تعزز دقة التوصية بشكل كبير، والأهم من ذلك، متانة النموذج.

يقترح المؤلفون التعلم التبايني للنية (ICL)، وهو نموذج تعلم ذاتي إشراف (SSL) مبتكر. يكمن الابتكار الأساسي لـ ICL في إطار عمل يشبه خوارزمية التوقع-التعظيم (EM) من مرحلتين: (1) اكتشاف النية: استنتاج توزيع النوايا الكامنة من التسلسلات الخاصة بالمستخدم، عادةً عبر التجميع. (2) التعلم التبايني الواعي بالنية: استخدام النوايا المكتشفة لإنشاء أزواج إيجابية للتعلم الذاتي الإشراف التبايني، وتعظيم الاتفاق بين عرض التسلسل والنية المخصصة له. يسمح هذا المنهج لنموذج التوصية التسلسلية بتعلم تمثيلات تكون ثابتة تجاه الضوضاء داخل نفس مجموعة النية وتمييزية عبر النوايا المختلفة.

2. المنهجية: التعلم التبايني للنية (ICL)

يُصوغ ICL التوصية التسلسلية كمشكلة تعلم تحت متغيرات كامنة. الهدف هو تعلم معلمات نموذج التوصية التسلسلية وتوزيع النية الكامنة بشكل مشترك.

2.1 صياغة المشكلة ومتغير النية الكامنة

لنفترض أن $U$ هي مجموعة المستخدمين و $V$ هي مجموعة العناصر. بالنسبة لمستخدم $u$، فإن تاريخ تفاعله هو تسلسل $S_u = [v_1, v_2, ..., v_n]$. يقدم ICL متغير نية كامن $z$ لكل تسلسل، مُستمد من توزيع فئوي على $K$ نوايا محتملة. يتم نمذجة الاحتمال المشترك للتسلسل والنية كـ $p(S_u, z) = p(z) p_\theta(S_u | z)$، حيث $\theta$ هي معلمات نموذج التوصية التسلسلية (مثل محول Transformer).

2.2 تعلم تمثيل النية عبر التجميع

بما أن النوايا غير مرصودة، فإن ICL يستنتجها من البيانات. يولد نموذج توصية تسلسلي أولي (مثل مشفر بسيط) تمثيلات التسلسل $h_u$. ثم يتم تجميع هذه التمثيلات (باستخدام خوارزمية K-means مثلًا) لتعيين كل تسلسل $S_u$ تسمية نية زائفة $\hat{z}_u$. تقوم خطوة التجميع هذه بشكل فعال بـ اكتشاف النية غير الخاضع للإشراف، حيث تجمع التسلسلات التي تدفعها دوافع كامنة متشابهة.

2.3 التعلم الذاتي الإشراف التبايني مع النوايا

هذا هو جوهر ICL. بالنظر إلى تسلسل $S_u$ ونيته الزائفة $\hat{z}_u$، ينشئ النموذج عرضين معززين للتسلسل، $\tilde{S}_u^a$ و $\tilde{S}_u^b$ (عبر إخفاء العناصر، أو القص، أو إعادة الترتيب مثلًا). يهدف خسارة التباين إلى تقريب تمثيلات هذين العرضين من بعضهما البعض مع إبعادهما عن التسلسلات التي تنتمي إلى مجموعات نية مختلفة. تستند دالة الخسارة إلى هدف InfoNCE:

$\mathcal{L}_{cont} = -\log \frac{\exp(\text{sim}(h_u^a, h_u^b) / \tau)}{\sum_{S_k \in \mathcal{N}} \exp(\text{sim}(h_u^a, h_k) / \tau)}$

حيث $\mathcal{N}$ هي مجموعة من العينات السلبية (تسلسلات من مجموعات نية أخرى)، $\text{sim}(\cdot)$ هي دالة تشابه (جيب التمام مثلًا)، و $\tau$ هي معلمة درجة الحرارة.

2.4 التدريب عبر خوارزمية التوقع-التعظيم المعممة

يتناوب تدريب ICL بين خطوتين، تذكرنا بخوارزمية التوقع-التعظيم (EM):

  1. خطوة التوقع (استنتاج النية): تثبيت معلمات نموذج التوصية التسلسلية، واستخدام التجميع لتعيين/تحديث تسميات النية الزائفة $\hat{z}_u$ لجميع التسلسلات.
  2. خطوة التعظيم (تحسين النموذج): تثبيت تعيينات النية، وتحسين معلمات نموذج التوصية التسلسلية باستخدام خسارة مجمعة: خسارة التنبؤ بالعنصر التالي القياسية (الإنتروبيا المتقاطعة مثلًا) بالإضافة إلى خسارة التباين الواعية بالنية $\mathcal{L}_{cont}$.

تعمل هذه العملية التكرارية على تحسين كل من فهم النية وتمثيلات التسلسل.

3. التفاصيل التقنية والإطار الرياضي

دالة الهدف الشاملة لـ ICL هي خسارة متعددة المهام:

$\mathcal{L} = \mathcal{L}_{pred} + \lambda \mathcal{L}_{cont}$

حيث $\mathcal{L}_{pred}$ هي خسارة التنبؤ التسلسلي الأساسية، $\mathcal{L}_{cont}$ هي خسارة التباين المحددة أعلاه، و $\lambda$ هي معلمة فائقة للتوازن. تتكون بنية النموذج عادةً من طبقة تضمين عناصر مشتركة تليها مشفر تسلسلي (كتل محول Transformer مثلًا). يتم استخدام ناتج المشفر للموضع الأخير كتمثيل التسلسل $h_u$ لكل من التنبؤ بالعنصر التالي والتعلم التبايني.

إحدى الفروق التقنية الرئيسية هي التعامل مع خطوة التجميع. تستكشف الورقة التجميع عبر الإنترنت (تحديث المراكز أثناء التدريب) مقابل التجميع دون اتصال (إعادة تجميع دورية). يعتبر اختيار $K$، عدد النوايا، أمرًا بالغ الأهمية أيضًا وغالبًا ما يتم التعامل معه كمعامل فائق يتم ضبطه على مجموعة التحقق.

4. النتائج التجريبية والتحليل

تحقق الورقة من صحة ICL على أربع مجموعات بيانات من العالم الحقيقي: أمازون (الجمال، الرياضة)، و Yelp، و MovieLens-1M. تشمل مقاييس التقييم Recall@K و NDCG@K.

4.1 مجموعات البيانات والنماذج الأساسية للمقارنة

تشمل النماذج الأساسية للمقارنة النماذج الكلاسيكية (FPMC، GRU4Rec)، والنماذج المتطورة (SASRec، BERT4Rec)، وطرق التوصية التسلسلية الأخرى القائمة على التعلم الذاتي الإشراف (CL4SRec، CoSeRec). وهذا يؤسس مجالًا تنافسيًا قويًا.

4.2 مقارنة الأداء

يتفوق ICL باستمرار على جميع النماذج الأساسية عبر جميع مجموعات البيانات والمقاييس. على سبيل المثال، في مجموعة أمازون للجمال، يحقق ICL تحسنًا نسبيًا بنسبة ~5-8% في Recall@20 مقارنة بأقوى نموذج أساسي (BERT4Rec). تكون المكاسب ملحوظة بشكل خاص على مجموعات البيانات الأكثر تشتتًا مثل Yelp، مما يسلط الضوء على كفاءة ICL في التعلم مع بيانات محدودة.

الارتفاع الرئيسي في الأداء (مثال)

مجموعة البيانات: أمازون الرياضة
المقياس: NDCG@10
أفضل نموذج أساسي (SASRec): 0.0521
ICL: 0.0567 (+8.8%)

4.3 تحليل المتانة: التشتت والضوضاء

المساهمة الرئيسية المزعومة هي المتانة. تجري الورقة تجربتين حاسمتين:

  1. تشتت البيانات: تدريب النماذج على أجزاء أصغر تدريجيًا من البيانات. يتدهور أداء ICL بشكل أكثر رشاقة من النماذج الأساسية، مما يظهر أن مكون التعلم الذاتي الإشراف فيه يستفيد بشكل فعال من البيانات المحدودة.
  2. التفاعلات الضوضائية: حقن نقرات عشوائية بشكل مصطنع في التسلسلات. يحافظ ICL على دقة أعلى، حيث تساعد خسارة التباين القائمة على النية النموذج على التمييز بين الإشارة (العناصر الموجهة بالنية) والضوضاء.

وصف الرسم البياني (متخيل): سيظهر مخطط خطي Recall@20 مقابل نسبة بيانات التدريب. سيكون خط ICL مرتفعًا في البداية وينخفض ببطء، بينما ستبدأ خطوط SASRec وBERT4Rec من مستوى أقل وتنخفض بشكل أكثر حدة، خاصةً تحت 60% من البيانات.

4.4 دراسات الإزالة وحساسية المعاملات الفائقة

تؤكد دراسات الإزالة ضرورة كلا المكونين: إزالة خسارة التباين ($\lambda=0$) أو استبدال النوايا المتعلمة بمجموعات عشوائية يتسبب في انخفاض كبير في الأداء. يظهر النموذج حساسية معقولة لعدد مجموعات النية $K$ ووزن خسارة التباين $\lambda$، مع اختلاف القيم المثلى لكل مجموعة بيانات.

5. إطار التحليل: دراسة حالة عملية

السيناريو: تلاحظ منصة للتجارة الإلكترونية تسلسل مستخدم: ["أحذية مشي لمسافات طويلة"، "سترة مقاومة للماء"، "موقد تخييم"، "رواية"]. قد يتنبأ نموذج توصية تسلسلي قياسي بـ "خيمة" أو "حقيبة ظهر".

تطبيق إطار عمل ICL:

  1. اكتشاف النية (التجميع): تقوم وحدة التجميع في ICL بتجميع هذا التسلسل مع تسلسلات أخرى تشترك في ميزات النية الكامنة (تسلسلات تحتوي على "صنارة صيد"، "كرسي تخييم"، "مجلة خارجية" مثلًا). تقوم بتعيين تسمية نية زائفة، مثل "الاستعداد للترفيه في الهواء الطلق".
  2. التعلم التبايني: أثناء التدريب، يتم تقريب العروض المعززة لهذا التسلسل (مثل ["أحذية مشي لمسافات طويلة"، "[مخفية]", "موقد تخييم"]) من بعضها البعض في فضاء التمثيل. كما يتم إبعادها عن التسلسلات ذات النية "القراءة الترفيهية" (التي تحتوي على عناصر مثل "رواية"، "سيرة ذاتية"، "قارئ إلكتروني").
  3. التنبؤ: لأن النموذج تعلم تمثيلًا قويًا مرتبطًا بنية "الترفيه في الهواء الطلق"، يمكنه التوصية بثقة أكبر بعناصر مثل "فلتر ماء محمول" أو "مصباح رأس"، حتى لو لم تظهر بشكل متكرر مع "رواية" في البيانات الخام. إنه يفهم أن "الرواية" هي على الأرجح ضوضاء أو نية منفصلة ثانوية داخل المجموعة المهيمنة.
يوضح هذا كيف يتجاوز ICL مجرد التكرار المشترك إلى الاستدلال الواعي بالنية.

6. الفكرة الأساسية والتحليل النقدي

الفكرة الأساسية: الاختراق الأساسي للورقة ليس مجرد خسارة تباين أخرى تُضاف إلى محول Transformer. إنه التكامل الرسمي لنموذج متغير كامن (النية) في نموذج التعلم الذاتي الإشراف الحديث للتوصية التسلسلية. وهذا يربط بين قابلية التفسير ومتانة النماذج الاحتمالية الكلاسيكية مع القوة التمثيلية للتعلم العميق. إنه يتناول مباشرة "السبب" وراء إجراءات المستخدم، وليس فقط "ماذا" و"متى".

التدفق المنطقي: الحجة مقنعة: 1) النوايا موجودة ومهمة. 2) إنها كامنة. 3) التجميع هو وكيل معقول وقابل للتطوير للاكتشاف. 4) التعلم التبايني هو الآلية المثالية لحقن هذه البنية المكتشفة كإشارة إشرافية. 5) يوفر إطار عمل EM حلاً أنيقًا لمشكلة الدجاجة والبيضة المتمثلة في تعلم الاثنين معًا. تتبع التجارب منطقيًا للتحقق من الأداء وادعاء المتانة.

نقاط القوة والضعف:
نقاط القوة: المنهجية أنيقة وقابلة للتعميم — ICL هو نموذج "قابل للإضافة" يمكنه تعزيز العديد من بنى التوصية التسلسلية الأساسية. تم اختبار ادعاءات المتانة جيدًا وهي ذات قيمة عالية للنشر في العالم الحقيقي حيث تكون البيانات دائمًا فوضوية ومشتتة. يوفر الارتباط بـ EM الكلاسيكي أساسًا نظريًا غالبًا ما يكون مفقودًا في أوراق التعلم العميق البحتة.
نقاط الضعف: الفيل في الغرفة هو الدائرية في تعريف النية. يتم تعريف النوايا من خلال تجميع تمثيلات التسلسل التي يتعلمها النموذج نفسه الذي نقوم بتدريبه. وهذا يخاطر بتعزيز التحيزات الحالية للنموذج بدلاً من اكتشاف نوايا حقيقية ذات معنى دلالي. اختيار K هو استدلالي. علاوة على ذلك، بينما تكون مكاسب الأداء واضحة، كان بإمكان الورقة بذل المزيد من الجهد لتحليل النوايا المكتشفة بشعة نوعية. هل هي قابلة للتفسير البشري (مثل "تسوق الهدايا"، "تحسين المنزل") أم مجرد مجموعات مجردة؟ هذه فرصة ضائعة للحصول على رؤية أعمق، على غرار كيفية تحليل الباحثين لخرائط الانتباه في المحولات أو تصورات الميزات في الشبكات العصبية التلافيفية.

رؤى قابلة للتنفيذ: بالنسبة للممارسين، تمثل هذه الورقة تفويضًا للنظر إلى ما وراء تسلسلات التفاعل الخام. استثمر في اكتشاف النية غير الخاضع للإشراف كخطوة معالجة مسبقة أو تدريب مشترك. النتائج المتعلقة بالمتانة وحدها تبرر التعقيد الإضافي لأنظمة الإنتاج التي تواجه مستخدمين جدد أو سجلات ضوضائية. يجب أن يرى المجتمع البحثي هذا كدعوة لاستكشاف نماذج متغيرات كامنة أكثر تطوراً (هرمية، ديناميكية مثلًا) داخل أطر التعلم الذاتي الإشراف. الخطوة التالية هي الانتقال من النوايا الثابتة والعالمية إلى نماذج نية مخصصة ومتطورة، ربما مستوحاة من مسارات نمذجة الموضوعات مثل النماذج الديناميكية للموضوعات.

تحليل أصلي (300-600 كلمة): يمثل إطار عمل ICL نضجًا كبيرًا في مجال التعلم الذاتي الإشراف للتوصيات. كانت طرق SSL المبكرة في التوصية التسلسلية، مثل CL4SRec، تطبق بشكل أساسي تعزيزات عامة (إخفاء، قص) مستوحاة من معالجة اللغات الطبيعية ورؤية الكمبيوتر، وتعامل التسلسلات كبيانات سلاسل زمنية عامة. يتقدم ICL في هذا من خلال إدخال بنية دلالية خاصة بالمجال — النية — كمبدأ توجيهي لإنشاء أزواج إيجابية. هذا مشابه للتطور من SimCLR في رؤية الكمبيوتر، الذي استخدم تعزيزات عامة، إلى الطرق اللاحقة التي استخدمت معلومات الفئة الدلالية لتوجيه التعلم التبايني عند توفرها. يكمن ابتكار ICL في القيام بذلك بطريقة غير خاضعة للإشراف بالكامل للتسلسلات.

تعتبر ادعاءات المتانة في الورقة هي الجانب الأكثر إقناعًا تجاريًا. في المنصات الواقعية، كما لوحظ في دراسات من Netflix وSpotify، تشتهر بيانات تفاعل المستخدم بالتشتت والضوضاء. تاريخ المستخدم هو مزيج من عمليات الشراء المتعمدة، والنقرات الاستكشافية، والنقرات العرضية. تكافح النماذج التقليدية القائمة على الاحتمالية لفصل هذا. هدف التباين في ICL، الذي يعظم الاتفاق بين وجهات النظر المختلفة للتسلسل التي يُعتقد أنها تشترك في نفس النية، يعلم النموذج بطبيعته أن يكون ثابتًا تجاه الضوضاء داخل مجموعة النية. هذا شكل قوي من إزالة الضوضاء. وهو يتماشى مع النتائج من أدبيات المتانة الأوسع في التعلم الآلي، حيث ثبت أن التدريب المسبق التبايني يحسن استقرار النموذج ضد الأمثلة العدائية وضوضاء التسمية.

ومع ذلك، فإن النهج ليس بدون تحديات فلسفية وعملية. الاعتماد على التجميع كبديل لاكتشاف النية هو نقطة ضعفه. كما يجادل الباحثون في تعلم التمثيل غير الخاضع للإشراف، فإن جودة التجميع تعتمد تمامًا على فضاء التمثيل الأولي. تؤدي التمثيلات الأولية الضعيفة إلى مجموعات ضعيفة، والتي بدورها توجه التعلم التبايني لتعزيز تلك التمثيلات الضعيفة — مما قد يشكل حلقة تغذية مرتدة سلبية. يخفف إطار عمل EM من هذا ولكنه لا يلغي المخاطر. يمكن للعمل المستقبلي استكشاف نهج أكثر بيزية أو تغايرية لنمذجة النية، على غرار المشفرات التلقائية التغايرية (VAEs) المستخدمة في الترشيح التعاوني، ولكن متكاملة مع أهداف تباينية. اتجاه آخر هو دمج إشراف ضعيف أو معلومات جانبية (فئات المنتجات، البيانات الديموغرافية للمستخدم مثلًا) "لبذر" أو تنظيم عملية اكتشاف النية، مما يجعل المجموعات أكثر قابلية للتفسير والتنفيذ، على غرار كيفية استخدام الرسوم البيانية المعرفية لتعزيز دلالات التوصية.

في النهاية، يوضح ICL بنجاح أن حقن البنية الدلالية الكامنة في خط أنابيب التعلم الذاتي الإشراف هو اتجاه قوي. إنه ينقل المجال من تعلم تشابهات التسلسل إلى تعلم تشابهات النية، وهو تجريد أعلى مستوى من المرجح أن يكون أكثر قابلية للنقل ومتانة. يمكن أن يؤثر هذا التحول النموذجي ليس فقط على أنظمة التوصية، ولكن على أي نموذج اتخاذ قرار تسلسلي حيث تكون الأهداف أو الحالات الأساسية غير مرصودة.

7. آفاق التطبيق والاتجاهات المستقبلية

التطبيقات قصيرة المدى:

  • المنصات ذات البداية الباردة والبيانات المشتتة: ICL مثالي للمنصات الجديدة أو القطاعات المتخصصة ذات بيانات تفاعل المستخدم المحدودة.
  • التوصية متعددة المجالات/عبر المنصات: يمكن أن تكون النوايا المتعلمة بمثابة تمثيل قابل للنقل لاهتمامات المستخدم عبر الخدمات المختلفة (من التجارة الإلكترونية إلى بث المحتوى مثلًا).
  • التوصية التوضيحية: إذا أصبحت النوايا قابلة للتفسير، فيمكنها تشغيل واجهات تفسير جديدة ("موصى به لأنك في وضع 'إعداد مكتب منزلي'" مثلًا).

اتجاهات البحث المستقبلية:

  1. النوايا الديناميكية والهرمية: الانتقال من نية واحدة ثابتة لكل جلسة إلى نمذجة كيفية تطور النوايا داخل الجلسة (من "البحث" إلى "الشراء" مثلًا) أو تنظيمها هرميًا.
  2. التكامل مع المعلومات الجانبية: دمج البيانات متعددة الوسائط (التعليقات النصية، الصور) لتأسيس اكتشاف النية في دلالات أكثر ثراءً، والانتقال إلى ما وراء التجميع السلوكي البحت.
  3. التحليل النظري: تقديم ضمانات رسمية حول إمكانية تحديد النوايا أو خصائص التقارب لخوارزمية EM المقترحة.
  4. توليد التسلسل الموجه بالنية: استخدام متغير النية للتحكم في أو توجيه توليد قوائم توصية متنوعة واستكشافية، وليس فقط التنبؤ بالعنصر الفردي التالي.

8. المراجع

  1. Chen, Y., Liu, Z., Li, J., McAuley, J., & Xiong, C. (2022). Intent Contrastive Learning for Sequential Recommendation. Proceedings of the ACM Web Conference 2022 (WWW '22).
  2. Kang, W., & McAuley, J. (2018). Self-attentive sequential recommendation. 2018 IEEE International Conference on Data Mining (ICDM).
  3. Sun, F., Liu, J., Wu, J., Pei, C., Lin, X., Ou, W., & Jiang, P. (2019). BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer. Proceedings of the 28th ACM International Conference on Information and Knowledge Management.
  4. Xie, X., Sun, F., Liu, Z., Wu, S., Gao, J., Zhang, J., ... & Jiang, P. (2022). Contrastive learning for sequential recommendation. 2022 IEEE 38th International Conference on Data Engineering (ICDE).
  5. Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. Advances in neural information processing systems, 27. (مذكور للسياق حول نماذج المتغيرات الكامنة).
  6. Kingma, D. P., & Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114. (مذكور للسياق حول الطرق التغايرية للمتغيرات الكامنة).
  7. Netflix Research Blog. (2020). Recommendations for a Healthy Ecosystem. [متاح على الإنترنت]. (مذكور للسياق حول تشتت وضوضاء البيانات في العالم الحقيقي).