اختبار من Scale AI يكشف ضعف أداء النماذج بمهام العمل الحر
أطلقت شركة Scale AI بالتعاون مع مركز سلامة الذكاء الاصطناعي اختباراً جديداً باسم “مؤشر العمل عن بُعد”، لقياس قدرة نماذج الذكاء الاصطناعي على أداء مهام العمل الحر، وكشفت النتائج أن أداء الأنظمة ما زال بعيداً جداً عن المستوى البشري الاحترافي.

تفاصيل الخبر
فيما يلي أهم النقاط التي وردت في تقرير Scale AI:
- جمع المؤشر بيانات من 240 مهمة مكتملة من محترفين موثّقين على منصة Upwork ضمن 23 فئة عمل مختلفة، شملت التسليمات النهائية لكل مشروع.
- تم اختبار ستة أنظمة ذكاء اصطناعي على نفس المشاريع، ومقارنة مخرجاتها بمعايير الجودة التي قدّمها العاملون البشريون.
- تصدّر نموذج Manus النتائج بنسبة 2.5% فقط من المهام المنجزة بمستوى احترافي، تلاه Grok 4 وClaude Sonnet 4.5 بنسبة 2.1%، بينما فشلت نحو 97% من المخرجات في تلبية المعايير الأساسية للعملاء.
- أبرز المشكلات التي واجهتها النماذج تضمنت ضعف الجودة، وعدم اكتمال التسليمات، وملفات معطوبة، مع نجاح محدود في مهام بسيطة مثل تصميم الشعارات، مزج الصوتيات، وإنشاء الرسوم البيانية.
الأهداف المستقبلية
توضح النتائج أن الذكاء الاصطناعي ما زال بحاجة إلى تطوير كبير في سياق العمل الاحترافي:
- تحسين قدرة النماذج على إدارة المشاريع متعددة الخطوات وتقديم نتائج متكاملة.
- تطوير أدوات تقييم جودة داخلية تساعد على اكتشاف الأخطاء قبل التسليم.
- تعزيز التعاون بين الإنسان والذكاء الاصطناعي بدل الاعتماد الكامل على الأنظمة المؤتمتة.
- توجيه أبحاث الذكاء الاصطناعي نحو المهام الواقعية بدلاً من الاقتصار على الاختبارات النظرية.
يُظهر اختبار Scale AI أن الفجوة بين وعود الأتمتة والواقع العملي ما زالت كبيرة. وبينما تتطور قدرات النماذج في التحليل والمنطق، تبقى المهام المعقدة بحاجة إلى الإشراف البشري لضمان الجودة والاتساق في الأداء.
