تسريبات Grok 4 تكشف تفوقًا في HLE وGPQA وSWE‑Bench

انتشرت مؤخرًا تسريبات تظهر أداء Grok 4 المذهل من xAI على أهم اختبارات الذكاء الاصطناعي، مما يشير إلى قفزة نوعية في التفكير والتحليل.

نتائج Grok 4 في اختبارات الذكاء

كشفت التسريبات المنشورة عبر TestingCatalog وReddit وX عن الأرقام التالية:

  • Humanity’s Last Exam (HLE): سجل Grok 4 نسبة 45% في وضع “reasoning”، مقابل 21% لنموذج Gemini 2.5 Pro، أي بفارق 24 نقطة مئوية.
  • GPQA: وهو اختبار علمي متقدم، حقق فيه Grok 4 نتيجة بين 87–88%.
  • SWE‑Bench: الخاص بالبرمجة، بلغ أداء النموذج 72–75% في إصدار Grok 4 Code.
  • AIME’25: في اختبار الرياضيات، وصلت النتيجة إلى 95% مقارنة بـ93.3% في Grok 3.

ما أهمية هذه النتائج؟

تشير هذه الأرقام إلى أن Grok 4 لا يُعد مجرد تحديث، بل يمثل قفزة استراتيجية:

  • أداءه العالي في HLE يعكس قدرته على الفهم العميق والتحليل النقدي.
  • نتائجه في GPQA وAIME تؤكد امتلاكه لمهارات علمية ورياضية متقدمة.
  • تفوقه في SWE‑Bench يعني أن Grok 4 Code سيكون أداة قوية للمبرمجين.

ماذا تعني هذه التسريبات في سياق المنافسة؟

توقيت التسريبات ليس عشوائيًا، فالسوق في ترقب لإطلاق نموذج Grok 4:

  • يُتوقع أن يُطلق النموذج رسميًا بعد 4 يوليو، مع دعم واسع للمطورين من خلال API.
  • الأداء المُسرب يضع xAI في منافسة مباشرة مع GPT‑5 وGemini 3.0.
  • النموذج قد يعيد تشكيل خارطة الترتيب بين نماذج اللغة الكبرى في 2025.

إذا ثبتت صحة هذه التسريبات، فإن نموذج Grok 4 سيكون محطة تحول في سباق النماذج الذكية. تفوقه في التفكير البشري، التحليل العلمي، والبرمجة قد يجعل منه منافسًا شرسًا في المرحلة القادمة. ننتظر الإطلاق الرسمي لتأكيد هذه القفزة النوعية.

مقالات مشابهة