هل فعلاً لا تستطيع نماذج الذكاء الاصطناعي أن "تفكر"؟

ورقة جديدة شارك في تأليفها نموذج Claude 4 Opus ترد على دراسة باحثي Apple، وتكشف أن فشل نماذج الذكا ء الاصطناعي في التخطيط لا يعود لسوء التفكير بل لتصميم الاختبارات نفسه.

انتقادات حادة لتجربة Apple حول “وهم التفكير” في النماذج اللغوية

نشرت كل من Anthropic وOpen Philanthropy تعليقًا علميًا تحت عنوان “وهم وهم التفكير”، يدحضون فيه نتائج دراسة Apple الشهيرة (Shojaee et al., 2025) والتي زعمت أن نماذج الذكاء الاصطناعي اللغوية تفشل في مهام التخطيط المعقدة مثل ألغاز “برج هانوي” و”عبور النهر”. وقد كشفت الورقة النقدية عن عدة مشاكل في منهجية الدراسة الأصلية:

تجارب “برج هانوي” تجاوزت حدود التوكنات المسموح بها للنماذج، مما أدى لانقطاع الإجابة رغم فهم النموذج للحل.
نظام التقييم الآلي لم يميز بين الفشل بسبب القيود التقنية والفشل في التفكير الحقيقي.
ألغاز “عبور النهر” احتوت على حالات غير قابلة للحل رياضيًا، ومع ذلك تم تصنيف نماذج الذكاء الاصطناعي كـ”فاشلة” في حلها.
تم استخدام تمثيل إخراجي متشدد يتطلب سرد جميع الخطوات، مما ضخم عدد التوكنات المطلوبة بشكل كبير.

وعند تغيير طريقة التقييم — مثل مطالبة نماذج الذكا ء الاصطناعي بكتابة دالة بلغة Lua تحل “برج هانوي” — أظهرت نفس النماذج أداءً عاليًا في الحالات التي سبق وصفها بالفشل.

الأهداف المستقبلية لتقييمات ذكاء الآلة

الورقة دعت إلى إعادة التفكير في الطريقة التي يتم بها تقييم قدرة نماذج الذكا ء الاصطناعي اللغوية على التفكير:

تصميم اختبارات تفصل بين قدرات التفكير الحقيقية والقيود التقنية.
التحقق من قابلية الحل قبل تقييم النماذج.
استخدام مؤشرات تعكس تعقيد الحساب والتخطيط، لا مجرد طول الحل.
السماح بتمثيلات بديلة للحلول توضح الفهم الخوارزمي بدلًا من فرض تنفيذ ميكانيكي.

تُبرز هذه الورقة أن فشل نماذج الذكا ء الاصطناعي قد لا يعني غياب التفكير، بل قد يكون نتيجة لقيود تصميمية في التجارب نفسها. فالسؤال الحقيقي ليس “هل يمكن للنموذج أن يفكر؟”، بل “هل اختباراتنا قادرة على قياس التفكير فعلاً؟”