GPT-5.2 Pro يحطم رقمًا قياسيًا في أصعب اختبار رياضي
سجل الذكاء الاصطناعي قفزة جديدة في قدراته التحليلية بعد إعلان Epoch AI تحقيق نموذج GPT-5.2 Pro أعلى نتيجة في اختبار FrontierMath، ما يعكس تطورًا لافتًا في قدرة النماذج المتقدمة على التعامل مع مسائل رياضية شديدة التعقيد.

تفاصيل الإنجاز
أعلنت مؤسسة Epoch AI أن نموذج OpenAI GPT-5.2 Pro حقق نتيجة قياسية جديدة على مقياس FrontierMath Tier 4، وهو أصعب مستوى في هذا الاختبار، مسجلًا نسبة نجاح بلغت 31%. وتمثل هذه النتيجة قفزة كبيرة مقارنة بالرقم السابق البالغ 19%، ما يشير إلى تحسن جوهري في الأداء الرياضي للنماذج الحديثة.
FrontierMath يُعد من أكثر المعايير صرامة في تقييم قدرات الذكاء الاصطناعي الرياضية، إذ يعتمد على مسائل بحثية حقيقية صاغها رياضيون متخصصون، وليس مجرد تمارين أكاديمية تقليدية.
أبرز ما كشفه الإعلان:
- GPT-5.2 Pro ضاعف تقريبًا أعلى نتيجة سابقة على مستوى Tier 4.
- حل مسائل معقدة في نظرية الأعداد والتوافقيات التحليلية.
- مراجعات إيجابية من رياضيين بارزين للحلول المقدمة.
- الإشادة بسلامة النتائج، مع ملاحظات حول ضعف الصياغة البرهانية أحيانًا.
- استخدام بعض الحلول لاختصارات عددية لم تكن مقصودة من واضعي المسائل.
- استمرار وجود مسائل لم يتمكن الذكاء الاصطناعي من حلها حتى الآن.
وأشار بعض واضعي المسائل إلى أن النماذج أحيانًا تفشل بسبب افتراضات منطقية تبدو صحيحة، لكنها غير مثبتة، وهو ما يكشف الفارق بين الوصول إلى نتيجة صحيحة وبين بناء برهان رياضي صارم.
الدلالات والأهداف المستقبلية
يمثل هذا الإنجاز خطوة مهمة في مسار تطور الذكاء الاصطناعي الرياضي، ويفتح الباب أمام عدة تحولات محتملة، من أبرزها:
- اقتراب النماذج اللغوية من المساهمة في أبحاث رياضية حقيقية.
- دعم الباحثين في استكشاف حلول أولية لمسائل معقدة.
- تحسين الفهم البنيوي للبرهان وليس فقط الوصول للإجابة.
- تطوير نماذج أكثر حرصًا على إثبات الافتراضات بدل تجاوزها.
- رفع سقف التوقعات حول دور الذكاء الاصطناعي في العلوم النظرية.
ورغم هذا التقدم، لا يزال الاختبار يكشف عن حدود واضحة، خصوصًا في المسائل التي تتطلب حدسًا رياضيًا عميقًا وتحليلًا دقيقًا للافتراضات.
إن تسجيل GPT-5.2 Pro رقمًا قياسيًا في FrontierMath لا يعني نهاية التحدي، بل يؤكد أن الذكاء الاصطناعي بدأ يدخل مرحلة جديدة من الفهم الرياضي، مرحلة تقترب فيها الآلة من منطق الباحث، لكنها لم تصل بعد إلى دقته الكاملة.
