Epoch AI: النماذج الصينية تتأخر 7 أشهر في اختبارات الرياضيات
كشفت اختبارات حديثة أجرتها Epoch AI أن النماذج الصينية مفتوحة الوزن في مجال الرياضيات تتأخر بنحو 7 أشهر مقارنة بأحدث النماذج الرائدة عالميًا.

تفاصيل الاختبارات
نشرت Epoch AI نتائج تقييم النماذج الصينية مفتوحة الوزن باستخدام معيار FrontierMath للرياضيات. وأظهرت النتائج أن هذه النماذج تتأخر تقريبًا سبعة أشهر عن النماذج الحدودية (frontier models) في المستويات الأساسية والمتوسطة (Tiers 1-3).
أبرز ما كشفت عنه الاختبارات:
- النماذج الصينية لم تتمكن من التفوق على النماذج الحدودية في معظم مستويات Tiers 1-3.
- على مستوى Tier 4 الأكثر صعوبة، نجح فقط نموذج DeepSeek-V3.2 (Thinking) في حل مسألة واحدة من أصل 48، أي حوالي 2%.
- تم استخدام مزودي خدمات أمريكيين خارجيين لضمان أمان البيانات في عملية التقييم.
- استخدمت API من طرف ثالث فقط إذا حققت نتائج مشابهة لـ API المطور على معيار OTIS Mock AIME.
- بيانات FrontierMath خاصة بشكل كبير، مع امتلاك OpenAI الوصول الحصري لمعظم المسائل والحلول.
وأشارت Epoch AI إلى أن هذه النتائج متاحة للمهتمين عبر مركز التقييمات الخاص بها، مع توضيح أنه تم حجز بعض المسائل والحلول لمزيد من الدراسات.
الأهداف المستقبلية
تسعى Epoch AI من خلال هذه الاختبارات إلى:
- تحديد الفجوات بين النماذج الصينية مفتوحة الوزن والنماذج الرائدة.
- تحسين أداء النماذج في مهام الرياضيات الصعبة.
- تعزيز معايير تقييم دقيقة وشفافة للمجتمع البحثي.
- دعم تطوير نماذج جديدة قادرة على المنافسة عالمياً في المجالات المعرفية الدقيقة.
توضح نتائج Epoch AI أن النماذج الصينية لا تزال بحاجة للتطوير للحاق بالمستوى العالمي في الرياضيات، مما يعكس أهمية البحث المستمر في تحسين قدرات النماذج مفتوحة الوزن.
