تسريبات Grok 4 تكشف تفوقًا في HLE وGPQA وSWE‑Bench
انتشرت مؤخرًا تسريبات تظهر أداء Grok 4 المذهل من xAI على أهم اختبارات الذكاء الاصطناعي، مما يشير إلى قفزة نوعية في التفكير والتحليل.

نتائج Grok 4 في اختبارات الذكاء
كشفت التسريبات المنشورة عبر TestingCatalog وReddit وX عن الأرقام التالية:
- Humanity’s Last Exam (HLE): سجل Grok 4 نسبة 45% في وضع “reasoning”، مقابل 21% لنموذج Gemini 2.5 Pro، أي بفارق 24 نقطة مئوية.
- GPQA: وهو اختبار علمي متقدم، حقق فيه Grok 4 نتيجة بين 87–88%.
- SWE‑Bench: الخاص بالبرمجة، بلغ أداء النموذج 72–75% في إصدار Grok 4 Code.
- AIME’25: في اختبار الرياضيات، وصلت النتيجة إلى 95% مقارنة بـ93.3% في Grok 3.
ما أهمية هذه النتائج؟
تشير هذه الأرقام إلى أن Grok 4 لا يُعد مجرد تحديث، بل يمثل قفزة استراتيجية:
- أداءه العالي في HLE يعكس قدرته على الفهم العميق والتحليل النقدي.
- نتائجه في GPQA وAIME تؤكد امتلاكه لمهارات علمية ورياضية متقدمة.
- تفوقه في SWE‑Bench يعني أن Grok 4 Code سيكون أداة قوية للمبرمجين.
ماذا تعني هذه التسريبات في سياق المنافسة؟
توقيت التسريبات ليس عشوائيًا، فالسوق في ترقب لإطلاق نموذج Grok 4:
- يُتوقع أن يُطلق النموذج رسميًا بعد 4 يوليو، مع دعم واسع للمطورين من خلال API.
- الأداء المُسرب يضع xAI في منافسة مباشرة مع GPT‑5 وGemini 3.0.
- النموذج قد يعيد تشكيل خارطة الترتيب بين نماذج اللغة الكبرى في 2025.
إذا ثبتت صحة هذه التسريبات، فإن نموذج Grok 4 سيكون محطة تحول في سباق النماذج الذكية. تفوقه في التفكير البشري، التحليل العلمي، والبرمجة قد يجعل منه منافسًا شرسًا في المرحلة القادمة. ننتظر الإطلاق الرسمي لتأكيد هذه القفزة النوعية.