OpenAI تطلق معيارًا جديدًا لتقييم وكلاء الذكاء الاصطناعي

أعلنت OpenAI عن إطلاق MLE-bench، وهو معيار جديد مصمم لتقييم أداء وكلاء الذكاء الاصطناعي في مهام الهندسة التعلم الآلي الواقعية باستخدام مسابقات Kaggle.

تفاصيل الخبر

يتكون MLE-bench من 75 مسابقة مختارة بعناية من Kaggle، تغطي مجموعة متنوعة من مهام التعلم الآلي مثل تدريب النماذج، وتحضير البيانات، والتجريب. تُعتبر مسابقات Kaggle تحديات عبر الإنترنت يتنافس فيها علماء البيانات لحل مشكلات معقدة باستخدام التعلم الآلي للفوز بجوائز وتحقيق الاعتراف. في الأبحاث، نجحت نماذج الذكاء الاصطناعي في تطبيق التقنيات القياسية ولكنها واجهت صعوبة في المهام التي تتطلب التكيف أو الحلول الإبداعية. حقق النموذج الأفضل أداءً، وهو نموذج o1-preview من OpenAI مع إطار AIDE، ميدالية برونزية على الأقل في 16.9٪ من المسابقات.

الأهداف المستقبلية

تؤكد هذه الخطوة على أهمية تطوير معايير جديدة لتقييم قدرات وكلاء الذكاء الاصطناعي التي تتجاوز مقاييس الاختبار السابقة. من خلال التعليقات من OpenAI وموجة الشركات الناشئة التي تدفع بقدرات الوكلاء الجديدة، يبدو أن ثورة وكلاء الذكاء الاصطناعي جاهزة للانطلاق بقوة.

مقالات مشابهة