إطلاق معيار CritPt لتقييم قدرات النماذج في فيزياء الدراسات العليا
قدمت شركة Artificial Analysis معيار CritPt الجديد لاختبار النماذج اللغوية على مشاكل فيزيائية متقدمة بمستوى الدراسات العليا، ويكشف عن حدود الأداء الحالي للنماذج الحديثة مثل Gemini 3 Pro.

تفاصيل الخبر
يعد CritPt معياراً فريداً يركّز على تحديات الفيزياء البحثية التي تتطلب تفكيراً متقدماً وقدرات استنتاجية عالية.
- صُمم المعيار بالتعاون مع أكثر من 60 باحثاً من 30 مؤسسة عالمية، بما في ذلك مختبر Argonne الوطني وجامعة إلينوي في أوربانا-شامبين.
- يختبر النموذج على 70 مشكلة بحثية متكاملة تغطي 11 مجالاً فيزيائياً فرعياً، منها: الفيزياء الكمومية، الفيزياء النووية، فيزياء الحالة المكثفة، الفيزياء الرياضية، الفيزياء الحيوية، والديناميكيات غير الخطية.
- أصعب من معظم النماذج الحالية: أعلى دقة تحققت حتى الآن كانت 9.1% بواسطة Gemini 3 Pro بدون استخدام أدوات مساعدة، مع فشل العديد من النماذج في حل أي مشكلة حتى بعد 5 محاولات.
- كل تحدٍ مصمم ليكون قابلاً للحل من قبل طالب دكتوراه مبتدئ، لكنه غير متاح في المصادر العامة، ما يجعله اختباراً حقيقياً للقدرات البحثية.
- CritPt يُولّد كمية كبيرة من “توكنات التفكير”، حيث استخدم Grok 4 حوالي 4.9 مليون توكن لمجموعة الاختبار، بينما Gemini 3 Pro حقق أفضل النتائج باستخدام حوالي 10% أقل من التوكنات مقارنة بـ GPT-5.1.
- المنهجية توفر مجموعة بيانات مفتوحة، بينما تبقى الإجابات والآلية الخاصة بالتقييم سرية للحفاظ على جودة الاختبار.
- يتوفر خادم التقييم عبر API لمختبرات المطورين الراغبين في اختبار نماذجهم الخاصة.
الأهداف المستقبلية
يركّز CritPt على دفع حدود الذكاء الاصطناعي في البحث العلمي وتوفير معيار موثوق لتقييم قدرات النماذج على مسائل الفيزياء المتقدمة.
- تمكين الباحثين والمطورين من اختبار نماذجهم على تحديات حقيقية في الفيزياء.
- مراقبة تقدم النماذج الحدودية وقياس أدائها في مسائل غير متاحة في المصادر العامة.
- تعزيز فهم قدرات الاستدلال والتفكير العميق للنماذج في المجالات العلمية.
- دعم التطوير المستقبلي لأدوات ذكاء اصطناعي قادرة على المساعدة في البحث العلمي المتقدم.
- توفير معيار دولي قابل للتوسع مع تحديثات مستمرة للنتائج والقياسات.
يمثل معيار CritPt خطوة متقدمة لفهم حدود الذكاء الاصطناعي في الفيزياء البحثية، ويضع تحديات حقيقية أمام النماذج الحالية ويحفز تطوير قدرات مستقبلية أكثر تقدماً.
