منصة SciArena من AI2 تقييم النماذج اللغوية بالأبحاث العلمية

أعلنت AI2 عن SciArena، منصة تقييم جديدة تهدف إلى قياس قدرات النماذج اللغوية في التعامل مع مهام معقدة ضمن الأدبيات العلمية، مع تصدر نموذج o3 الترتيب.

تفاصيل الخبر

أطلقت مؤسسة Allen Institute for AI (AI2) منصة SciArena، وهي نظام تقييم مفتوح يستهدف قياس أداء نماذج الذكاء الاصطناعي في التعامل مع مهام مرتبطة بالأدبيات العلمية، مستلهمة من فكرة Chatbot Arena.

تعتمد SciArena على مساهمات باحثين حقيقيين يقومون بمقارنة إجابات النماذج وتحديد الأفضل.
يتم عرض إجابتين مجهولتي المصدر عن سؤال علمي واحد، ليقوم المستخدم بالتصويت للأفضل من حيث الدقة والعمق.
تم تصميم النظام خصيصًا لتقييم النماذج في المجالات العلمية الدقيقة والمعقدة.
في التقييم الأولي، تم إدراج 23 نموذجًا لغويًا، وتصدر نموذج o3 من OpenAI الترتيب بفضل إجاباته التفصيلية والتقنية.
سجل نموذج Claude-4-Opus نتائج قوية في الرعاية الصحية، بينما برز DeepSeek-R1 في علوم الطبيعة.
تعتمد المنصة على نظام متقدم لاسترجاع المعلومات من الأبحاث العلمية قبل توليد الإجابات.

الأهداف المستقبلية

تسعى منصة SciArena إلى توسيع قدراتها عبر عدة خطوات مستقبلية:

إضافة نماذج جديدة باستمرار لمواكبة تطورات الذكاء الاصطناعي.
تحسين أنظمة الاسترجاع والفلترة ضمن خط أنابيب توليد الإجابات.
اختبار خيارات مختلفة للفهرسة والتحفيز لتحسين جودة المخرجات.
إشراك مطوري النماذج للمساهمة في اختبارات أكثر شمولًا ودقة.
تعزيز أدوات التقييم التلقائي لسد الفجوة بين تفضيلات البشر ودقة التقييمات الآلية.

تمثل SciArena نقلة نوعية في تقييم النماذج اللغوية ضمن الأبحاث العلمية، وتفتح المجال لمجتمع الباحثين للمشاركة في تحسين أدوات الذكاء الاصطناعي عبر تقييمات دقيقة وشفافة.