أخبار

“اختبار البشرية الأخير” يرفع معيار الذكاء الاصطناعي

26/01/202526/01/2025

أعلن مركز أمان الذكاء الاصطناعي وشركة Scale AI عن إطلاق معيار جديد يدعى “اختبار البشرية الأخير“، والذي يُعدّ الخطوة الأخيرة لقياس المعرفة الأكاديمية لنماذج اللغة الضخمة (LLM) الحالية.

تفاصيل الخبر

قدمت Scale AI بالتعاون مع مركز أمان الذكاء الاصطناعي معيارًا جديدًا لقياس إمكانيات الذكاء الاصطناعي:

يتكون المعيار من 3,000 سؤال تمت صياغتها بواسطة خبراء من أكثر من 500 مؤسسة في 50 دولة.
أظهرت النماذج المتقدمة الحالية أداءً ضعيفًا، حيث سجلت أعلى الأنظمة نسبة دقة تقل عن 10%.
تتنوع الأسئلة بين تطابق دقيق واختيار من متعدد، مع دمج نسبة 10% من التحديات التحليل المتعدد الأنماط للنصوص والصور.
يوجد جائزة قدرها 500 ألف دولار لتحفيز المشاركات عالية الجودة، حيث يكسب أفضل الأسئلة 5,000 دولار لكل منها، وفرصة للتأليف المشترك للمساهمين.

الأهداف المستقبلية

التركيز المستقبلي يكون على:

تطوير معايير أخرى لقياس تقدم الذكاء الاصطناعي بموضوعية.
تشجيع المشاركة العالمية من خلال تقديم جوائز وحوافز للابتكارات والأسئلة المتميزة.
بناء مجتمع من الباحثين والمختصين للمساهمة المستمرة في تحسين ودقة الاختبارات.

يمثل إطلاق “اختبار البشرية الأخير” خطوة حيوية في مجال تقييم إمكانيات الذكاء الاصطناعي، مما يعزز القدرة على قياس وتحليل نماذج الذكاء الاصطناعي المتقدمة بشكل دقيق وفعّال.