FrontierScience من OpenAI لتقييم قدرات البحث العلمي

قدمت OpenAI FrontierScience، معياراً جديداً لتقييم قدرات الذكاء الاصطناعي في المهام البحثية العلمية، مع تصدر نموذج GPT‑5.2 الأداء في اختبارات الفيزياء والكيمياء وعلم الأحياء.

تفاصيل الخبر

يركز FrontierScience على قياس القدرة على الاستدلال العلمي المتقدم، بما يتجاوز استرجاع الحقائق إلى توليد الفرضيات، اختبارها، وربط الأفكار بين المجالات المختلفة.
أبرز مميزات هذا المعيار:

يتضمن أكثر من 700 سؤال نصي تم تصميمها والتحقق منها بواسطة خبراء في الفيزياء والكيمياء وعلم الأحياء.
يحتوي على مسارين:
- Olympiad: أسئلة مستوحاة من مسابقات الأولمبياد العلمي لتقييم الاستدلال العلمي القصير والمحدد.
- Research: مهام بحثية مفتوحة تتطلب خطوات متعددة تشبه تحديات الدكتوراه.
يُستخدم نموذج GPT‑5.2 كأفضل أداء، حيث حقق 77% في مسار Olympiad و25% في مسار Research، متفوقاً على نماذج متقدمة أخرى مثل Gemini 3 Pro وClaude Opus 4.5.
كل سؤال يتم تقييمه باستخدام معايير محددة أو روبيك يقيس الدقة في الإجابة النهائية بالإضافة إلى صحة الخطوات الوسيطة.

الأهداف المستقبلية

مع FrontierScience، تسعى OpenAI إلى:

توفير معيار موثوق لتتبع قدرات النماذج في الاستدلال العلمي على مستوى الخبراء.
تحسين الأداء في المهام البحثية المفتوحة والمعقدة، مع تقليل الأخطاء المنطقية والحسابية.
توسيع المعيار ليشمل مجالات جديدة وربط التقييم بتجارب علمية واقعية متعددة الوسائط.
دعم الباحثين من خلال نماذج ذكاء اصطناعي يمكنها تسريع البحث وتقديم رؤى أولية تساعد العلماء على التركيز على الابتكار.

يُعد FrontierScience خطوة مهمة نحو تطوير نماذج ذكاء اصطناعي يمكن الاعتماد عليها كـ شريك موثوق في البحث العلمي، مع القدرة على دعم أجزاء من العمليات البحثية وتسريعها بشكل ملموس.