مايكروسوفت تطلق ADeLe لتوقع فشل نماذج الذكاء الاصطناعي

كشفت مايكروسوفت عن إطار تقييم جديد للذكاء الاصطناعي يحمل اسم ADeLe، قادر على قياس صعوبة المهام بالنسبة للنماذج والتنبؤ بدقة بنجاحها أو فشلها، مما يشكل خطوة كبرى نحو تقييم أكثر شفافية وفهمًا لأداء النماذج الذكية.

ما هو ADeLe؟

ADeLe هو اختصار لـ Annotated Demand Levels، وهو إطار جديد ابتكرته مايكروسوفت لتقييم مدى صعوبة المهام بالنسبة لنماذج الذكاء الاصطناعي من خلال مقارنة قدراتها المعرفية والإدراكية مع متطلبات المهام.

يعتمد ADeLe على 18 مقياسًا معرفيًا، تشمل الانتباه، المنطق، المعرفة التخصصية، والمهارات الاجتماعية.
يُطبّق مقياسًا من 0 إلى 5 لتحديد مدى صعوبة المهمة لكل قدرة معرفية.
يمكن استخدام هذه التقييمات لإنشاء ملف قدرات لكل نموذج ذكاء اصطناعي، يوضح أين يتفوق وأين يضعف.
يقيس الأداء حتى في المهام الجديدة التي لم تُدرّب عليها النماذج، ويشرح سبب النجاح أو الفشل المتوقع.

أبرز نتائج البحث

في دراسة تضمنت تحليل 16,000 مثال من 63 مهمة و20 معيار تقييم مختلف، كشف ADeLe عن 3 نتائج رئيسية:

عيوب غير مرئية في اختبارات الذكاء الاصطناعي
- العديد من معايير التقييم لا تقيس ما تدّعي قياسه.
- بعض الاختبارات، مثل TimeQA، تفتقر إلى التنوع في مستويات الصعوبة.
بناء ملفات قدرات تفصيلية للنماذج
- تم رسم ملفات قدرات لـ15 نموذج لغة كبير (LLMs) مثل GPT-4 وLLaMA-3 وDeepSeek-Qwen.كل نموذج أظهر تباينًا واضحًا في القدرات، حيث تفوقت النماذج الأحدث في مهارات مثل الاستنتاج والمنطق والمعرفة الاجتماعية.
- تم تحديد مستوى الصعوبة الذي يصل فيه النموذج لاحتمالية نجاح 50% في كل قدرة.
التنبؤ المسبق بالنجاح أو الفشل:
- تمكن ADeLe من التنبؤ بنجاح أو فشل النماذج في مهام غير مألوفة بدقة تصل إلى 88%.
- هذا يعني أنه يمكن توقع المشكلات المحتملة قبل استخدام النموذج فعليًا، مما يدعم الثقة والسلامة في تطبيقات الذكاء الاصطناعي.

التطبيقات المستقبلية

يرى الباحثون أن ADeLe قابل للتوسعة ليشمل:

الأنظمة متعددة الوسائط (صوت، صورة، فيديو).
روبوتات الذكاء الاصطناعي المُجسّدة.
تقييم سياسات الأمان والمساءلة للذكاء الاصطناعي على مستوى حكومي وتنظيمي.

ويتماشى هذا الإطار مع توجه مايكروسوفت المستقبلي لبناء “علم تقييم الذكاء الاصطناعي”، كما ورد في ورقتي الموقف الخاصة بـSocietal AI وPsychometric AI Evaluation.

مع تسارع تطور الذكاء الاصطناعي، يمثل ADeLe أداة حيوية تضمن فهمًا أعمق للنماذج وتوقعًا دقيقًا لأدائها. هذا النهج الجديد لا يقيّم فقط ما يستطيع النموذج فعله، بل يشرح أيضًا لماذا قد ينجح أو يفشل، مما يعزز من موثوقية وتطبيق الذكاء الاصطناعي في العالم الواقعي.