آبل: “لا دليل على التفكير الرسمي” في نماذج اللغات الكبيرة
قام باحثو آبل بنشر دراسة جديدة تكشف عن قيود كبيرة في قدرات التفكير لدى نماذج اللغات الكبيرة (LLMs)، بما في ذلك تلك من المختبرات الرائدة مثل نماذج OpenAI 4o و o1.
تفاصيل الخبر
طور علماء آبل معيارًا جديدًا يُسمى GSM-Symbolic لتقييم مهارات التفكير الرياضي لنماذج اللغات الكبيرة. وجدت الدراسة أن التغييرات البسيطة في صياغة الأسئلة أو إضافة معلومات غير ذات صلة قد تغير مخرجات النموذج بشكل كبير، مما أدى إلى انخفاض الدقة بنسبة تصل إلى 65٪. كما لاحظ الباحثون زيادة في تباين الأداء وانخفاض الدقة مع زيادة تعقيد الأسئلة. استنتج الفريق أنه لا يوجد دليل على التفكير الرسمي في النماذج التي تم اختبارها، مما يشير إلى أن السلوك هو أكثر احتمالية لمطابقة النمط الذكي.
الأهداف المستقبلية
في حين أن هناك آراء متباينة حول ما إذا كانت نماذج اللغات الكبيرة يمكن أن تفكر حقًا، تصنف هذه الدراسة الجديدة في فئة الـ “لا”. إذا كانت هذه القيود صحيحة، فإنها تثير بعض الأسئلة الكبيرة حول موثوقية ومخاطر نشر هذه النماذج في تطبيقات تزداد تعقيدًا.