خبراء الذكاء الاصطناعي يسعون لإنشاء أصعب اختبار حتى الآن
بدأ مصممو اختبارات الذكاء الاصطناعي يواجهون مشكلة غير متوقعة: النماذج الحديثة تتفوق الآن في العديد من الاختبارات التي نضعها أمامها، مما يجعل من الصعب تحديد أي منها يتفوق في مهام معينة.
الآن، يسعى خبراء الذكاء الاصطناعي من مركز سلامة الذكاء الاصطناعي (CAIS) وشركة Scale AI الناشئة في مجال بيانات التدريب إلى إيجاد حل طويل الأمد: اختبار صعب للغاية يمكن أن يعيق النماذج اللغوية الكبيرة (LLMs) الذكية لسنوات قادمة. وهم يطلبون من الجمهور المساعدة في صياغة الأسئلة.
ما الذي أدى إلى هذه المبادرة؟
أولاً، نموذج OpenAI الجديد، o1، “دمر أكثر معايير التفكير شيوعًا”، كما كتب المدير التنفيذي لـ CAIS، دان هندريكس، على منصة X.
عامل آخر هو أنه مع استهلاك النماذج اللغوية الكبيرة المزيد والمزيد من البيانات، يصبح من الصعب تحديد ما إذا كانت النماذج تفكر فعلاً في المشكلات المعقدة أم أنها ببساطة تقلد ما رأته بالفعل.
هنا يأتي دور “آخر امتحان للبشرية”: الفكرة هي جمع أصعب المشكلات الممكنة، ثم تجميعها لإنشاء أصعب وأشمل اختبار للذكاء الاصطناعي في العالم.
العلوم الصاروخية، حرفياً يطلب CAIS من الجمهور “التفكير في شيء تعرفه يمكن أن يعيق الأنظمة الحالية للذكاء الاصطناعي”، ثم صياغته في شكل سؤال. يجب أن يكون سؤالك أصليًا وموضوعيًا و”صعبًا لغير الخبراء”، ويمكن أن يأتي من أي مجال، بما في ذلك الرياضيات والهندسة الصاروخية والفلسفة التحليلية.