Microsoft وSalesforce تكشف ضعف LLMs في المحادثات المتعددة

بحث جديد من Microsoft وSalesforce يظهر أن نماذج اللغة تفشل في الحفاظ على الاتساق أثناء المحادثات المتعددة، رغم أدائها الجيد في المهام الفردية.

تفاصيل الخبر

في دراسة حديثة مشتركة، قام باحثون من Microsoft وSalesforce بتقييم أداء 15 من أبرز نماذج اللغة الكبيرة (LLMs) من المحادثات المتعددة، مثل GPT-4.1 وClaude 3.7 Sonnet وGemini 2.5 Pro، في سيناريوهات واقعية تتضمن محادثات متعددة الخطوات.

الدراسة شملت ستة أنواع من مهام التوليد لتقييم مدى فهم النموذج للتعليمات المتغيرة تدريجياً.
النماذج حققت نسبة نجاح 90٪ عند التعامل مع أوامر مفردة (single-turn).
الأداء انخفض إلى 60٪ فقط عند خوض محادثات متعددة (multi-turn).
النماذج تميل إلى الاستنتاج السريع قبل جمع المعلومات الكافية.
كثيراً ما تبني النماذج استجاباتها على إجابات خاطئة في البداية دون تصحيح لاحق.
تغيير درجة الحرارة (temperature) أو استخدام نماذج منطقية لم يُحدث فرقاً ملحوظاً في دقة الأداء عبر المحادثات الطويلة.
حتى النماذج الرائدة أظهرت تقلبات شديدة في الأداء وعدم استقرار في التفاعل مع المستخدم على مدى عدة خطوات.

الأهداف المستقبلية

تشير هذه النتائج من Microsoft وSalesforce إلى ضرورة إعادة النظر في كيفية تصميم واختبار هذه النماذج ضمن سيناريوهات أكثر واقعية.

تطوير تقنيات إدارة السياق بشكل أكثر كفاءة داخل نافذة المحادثات المتعددة الطويلة.
تحسين قدرة النماذج على التعلم التفاعلي وتعديل سلوكها بناءً على التعليمات المتغيرة تدريجياً.
تعزيز أدوات التصحيح الذاتي (self-correction) داخل النماذج لتقليل الاعتماد على الافتراضات المبكرة.
إطلاق معايير تقييم جديدة تركز على الاتساق في المحادثات متعددة الخطوات.
زيادة التعاون بين الباحثين والمطورين لتجريب حالات استخدام واقعية أكثر تعقيداً.

تسلط دراسة Microsoft وSalesforce الضوء على فجوة حرجة في أداء نماذج اللغة، إذ أن التقييم التقليدي لا يعكس تعقيد المحادثات الواقعية. من الضروري إعادة صياغة منهجيات التطوير لتواكب هذا التحدي المتنامي.