Code Arena تعيد تعريف نماذج البرمجة في عصر الوكلاء الذكية
أطلقت LM Arena منصة Code Arena لتقييم نماذج البرمجة بآلية جديدة تعتمد على تفاعل الوكلاء الذكية في بيئات حقيقية، حيث تُبنى التطبيقات لحظة بلحظة، وتُسجَّل كل خطوة، مما يجعل الاختبار أكثر شفافية وقابلية للتتبع ويعكس التطور السريع في قدرات نماذج الذكاء الاصطناعي في تطوير البرمجيات.
تفاصيل الخبر
تقدم Code Arena جيلاً جديداً من تقييم قدرات نماذج البرمجة، حيث تتجاوز فكرة قياس صحة الأكواد لتصل إلى اختبار كيف تبني النماذج تطبيقات كاملة بشكل تفاعلي.
- نماذج البرمجة لم تعد تنتج كوداً ثابتاً، بل تبني هياكل كاملة وتتبع خطوات تطوير تشبه عمل المطورين.
- المنصة تعمل كبيئة تطوير حقيقية: كل إجراء من إنشاء ملف أو تعديله يُسجل بدقة.
- تعتمد على جلسات تفاعلية مستمرة يمكن استعادتها وزيارتها لاحقاً دون فقدان الحالة.
- توفر عرضاً مباشراً للتطبيقات أثناء بنائها، مما يتيح للمطورين رؤية النماذج وهي تُنشئ الموقع أو التطبيق لحظة بلحظة.
- كل جيل من الأكواد يتضمن بنية ملفات HTML وCSS وJS، ويمكن مشاركته عبر روابط مخصصة.
- آلية التقييم قائمة على المقارنة الثنائية بين النماذج وفق معايير الوظائف، سهولة الاستخدام، ودقة تنفيذ التصميم.
- تستخدم بنية جديدة تعتمد على التخزين السحابي Cloudflare R2 وتتبع كامل لكل نسخة ولطلب وكل تصويت بشري.
- تعتمد على منهجية علمية صارمة تشمل تتبع الانحيازات بين التحديثات والتحقق من اتساق التصويت البشري.
- تقدم بيئة تطوير موحدة حيث يتم تنفيذ المهام وتقييمها بالكامل داخل المنصة لضمان الشفافية والثبات.
- تقدم النظام الجديد بديلاً شاملاً لـ WebDev Arena، مع لوحة نتائج جديدة تعتمد على بيانات نظيفة دون دمج بيانات سابقة.
الأهداف المستقبلية
قبل الانتقال لمرحلة التطوير القادمة، تؤكد LM Arena أن Code Arena ليست منصة تقييم فقط، بل نظاماً حياً ينمو مع النماذج والمجتمع التقني.
- دعم بناء مشاريع React متعددة الملفات لمحاكاة التطوير الحقيقي.
- إضافة دعم للوكلاء المتعددين وربطهم ببيئات معزولة.
- تحسين سرعة التقييم وتقليل زمن الاستجابة في بناء المشاريع.
- دعم الإدخال متعدد الوسائط لقياس أداء النماذج عبر النصوص والصور والواجهات.
- تحويل المنصة إلى بيئة تعاون حيّة بين المطورين والنماذج لبناء مشاريع واقعية.
مع Code Arena، تنتقل LM Arena من تقييم الأكواد إلى تقييم عملية التطوير نفسها، لتصبح المنصة معياراً جديداً يقيس كيفية تفكير النماذج، تخطيطها، وبنائها في ظروف تحاكي عالم البرمجة الحقيقي.
