OpenAI تكشف عن مقياس SWE-Lancer لتقييم أداء الذكاء الاصطناعي
أعلنت OpenAI عن SWE-Lancer، مقياس جديد لقياس أداء الذكاء الاصطناعي في المهام البرمجية الحقيقية على منصات العمل الحر، مع جوائز مالية تصل إلى مليون دولار.

تفاصيل الخبر
مؤخراً، أطلقت OpenAI مقياسًا جديدًا يسمى “SWE-Lancer” لقياس أداء نماذج الذكاء الاصطناعي في البرمجة عبر مهام حقيقية على منصات العمل الحر مثل Upwork:
- مهام حقيقية: يتضمن المقياس أكثر من 1,400 مهمة برمجية حقيقية، بدءًا من إصلاحات الأخطاء البسيطة وصولاً إلى تنفيذ ميزات متقدمة.
- التقييم الشامل: يقيّم المقياس أداء النماذج في البرمجة واتخاذ قرارات فنية وإدارية، حيث يتعين على الذكاء الاصطناعي كتابة الكود واختيار الحلول الهندسية.
- المكافآت المالية: يتم قياس النجاح من خلال المبلغ المالي الذي يمكن للنموذج “كسبه” عند إتمام المهام بشكل صحيح، مع وجود جائزة إجمالية قدرها مليون دولار.
- أفضل أداء: من بين النماذج التي اختبرت، حصل “Claude 3.5 Sonnet” على أفضل أداء، حيث حل نصف المهام وجمع 400 ألف دولار من الجائزة الإجمالية.
الأهداف المستقبلية
تهدف OpenAI إلى:
- زيادة التحدي: سيتم تصميم المقاييس المستقبلية لتقييم النماذج المتقدمة بشكل أفضل، مع الحفاظ على التوازن بين التحدي الواقعي والقيمة المالية.
- التحول في العمل: يمثل هذا المقياس خطوة هامة نحو تحديد دور الذكاء الاصطناعي في العمل البرمجي المتقدم، خاصة مع التطور السريع في قدرات النماذج.
من خلال مقياس “SWE-Lancer”، توفر OpenAI طريقة مبتكرة لاختبار قدرة النماذج على أداء مهام حقيقية في مجال البرمجة، مما يعزز من أهمية الذكاء الاصطناعي في العمل المستقبلي للمطورين.خاتمة
