Artificial Analysis تعيد تصميم AI Intelligence Index

أجرت منظمة Artificial Analysis تحديثًا جذريًا على مؤشر الذكاء الاصطناعي، مستبدلة الاختبارات التقليدية باختبارات تركز على قدرة النماذج على أداء مهام واقعية ينجزها المهنيون في الحياة العملية.

اختبار الذكاء الاصطناعي

تفاصيل الخبر

في الإصدار الجديد من مؤشرها، غيرت Artificial Analysis المنهجية المتبعة لقياس أداء نماذج الذكاء الاصطناعي، متخلّية عن بعض المعايير القديمة التي أصبح معظم النماذج يتفوّق عليها بسهولة، واستبدالها بتقييمات صُمّمت حول العمل الحقيقي والقيمة الاقتصادية للأداء.

  • تم إزالة الاختبارات المشبعة التي لم تعد تميّز بين النماذج المتقدمة.
  • أُضيفت مجموعة جديدة من الاختبارات المرتكزة على أداء النماذج في مهام مهنية حقيقية تشبه ما يقوم به البشر في وظائفهم.
  • يضم الإصدار الجديد تقييمات موزعة على أربعة محاور رئيسية: العملاء، البرمجة، الاستدلال العلمي، والمعرفة العامة.
  • من بين الاختبارات المضافة، GDPval‑AA يقيس قدرة النماذج على أداء مهام عبر نحو 44 مهنة و9 صناعات مختلفة، بما في ذلك إنتاج مستندات وتقارير وجداول بيانات.
  • أدى هذا التغيير إلى انخفاض الدرجات القصوى التي تحققها النماذج مقارنة بالإصدارات السابقة، ما يجعل المؤشر أكثر تحديًا ويفتح مجالًا للتمييز بين القدرات المتقدمة.

هذا التحديث يعكس توجهًا أوسع في الصناعة نحو قياس ما إذا كان الذكاء الاصطناعي ينتج قيمة اقتصادية فعلية بدلًا من اجتياز اختبارات نظرية يمكن تكرارها بسهولة.

الأهداف المستقبلية

تهدف إعادة تصميم المؤشر إلى جعل التقييمات أكثر واقعية وصلة بالحياة العملية:

  • قياس قدرة النماذج على أداء مهام مهنية حقيقية وليس مجرد حل أسئلة اختبار.
  • تقديم بيانات أكثر فائدة للمؤسسات التي تبحث عن نماذج قابلة للتطبيق في بيئات العمل الحقيقية.
  • إعادة خلق مجال تفاوت بين النماذج المتقدمة، بحيث تظهر الفروقات بدلاً من أن تتكدّس في نطاقات عالية متجانسة.
  • تعزيز التقييمات التي تعكس القيمة الاقتصادية لعمل الذكاء الاصطناعي في مجالات متعددة.
  • دفع مزوّدي النماذج للتركيز على الأداء العملي بدلاً من تحسين النتائج على اختبارات سهلة أو مشبعة.

تعيد إعادة تصميم Artificial Analysis Intelligence Index تشكيل كيفية قياس قدرات الذكاء الاصطناعي من مجرد القدرة على تذكر المعلومات إلى القدرة على إنجاز مهام حقيقية ينجزها البشر في العمل اليومي، ما يوفر صورة أدق وأكثر فائدة للنماذج التي يمكن أن تُستخدم عمليًا.

مقالات مشابهة