OpenAI تطلق MRC لتحسين استقرار تدريب نماذج الذكاء الاصطناعي

أعلنت OpenAI بالتعاون مع AMD وIntel وNVIDIA وMicrosoft وBroadcom عن إطلاق بروتوكول MRC مفتوح المصدر لتحسين شبكات الحواسيب العملاقة المستخدمة في تدريب نماذج الذكاء الاصطناعي.

تفاصيل الخبر

تسعى شركات الذكاء الاصطناعي إلى معالجة واحدة من أكبر المشكلات في تدريب النماذج العملاقة، وهي تعطل الشبكات أو الأجهزة أثناء عمليات التدريب الضخمة.

البروتوكول الجديد يحمل اسم MRC أو Multipath Reliable Connection.
تم تطويره لتحسين أداء واستقرار نقل البيانات بين وحدات معالجة الرسوميات داخل مراكز البيانات العملاقة.
تعتمد أنظمة تدريب الذكاء الاصطناعي الحديثة على ملايين عمليات نقل البيانات بين وحدات GPU في كل خطوة تدريب.
أي تأخير أو انقطاع في الشبكة قد يؤدي إلى توقف كامل لعملية التدريب أو فقدان ساعات طويلة من العمل.
MRC يسمح بتوزيع البيانات عبر مئات المسارات المختلفة داخل الشبكة بدلاً من الاعتماد على مسار واحد فقط.
التقنية الجديدة تستطيع تجاوز الأعطال وإعادة توجيه البيانات خلال أجزاء من الثانية.
البروتوكول يعتمد على تقنيات SRv6 لتحديد مسارات الحزم بشكل مباشر دون الحاجة لأنظمة التوجيه التقليدية المعقدة.
OpenAI أكدت أن النظام مستخدم بالفعل داخل حواسيبها العملاقة المعتمدة على معالجات NVIDIA GB200.
من بين مواقع التشغيل الحالية مراكز بيانات تابعة لـ Oracle Cloud Infrastructure في ولاية Texas.
البروتوكول الجديد يقلل استهلاك الطاقة وعدد مكونات الشبكة المطلوبة مقارنة بالتصاميم التقليدية.
OpenAI أوضحت أن MRC ساعد على استمرار عمليات التدريب حتى أثناء حدوث أعطال فعلية في الروابط والشبكات.
الشركة قررت نشر مواصفات البروتوكول عبر Open Compute Project لدعم استخدامه في القطاع بالكامل.

الأهداف المستقبلية

تعكس هذه الخطوة أهمية البنية التحتية والشبكات في مستقبل تطوير الذكاء الاصطناعي واسع النطاق.

تهدف OpenAI إلى تقليل توقفات التدريب المكلفة داخل مشاريع الذكاء الاصطناعي العملاقة.
التقنية الجديدة تساعد على تشغيل مئات الآلاف من وحدات GPU بكفاءة أعلى واستقرار أكبر.
البروتوكول قد يصبح معياراً جديداً لشبكات مراكز بيانات الذكاء الاصطناعي مستقبلاً.
تقليل استهلاك الطاقة وعدد مكونات الشبكات قد يخفض تكاليف تشغيل الحواسيب العملاقة.
التعاون بين الشركات الكبرى يعكس توجهاً متزايداً نحو بناء معايير مفتوحة للبنية التحتية الخاصة بالذكاء الاصطناعي.

في النهاية، يظهر بروتوكول MRC كيف أصبحت الشبكات عاملاً أساسياً في سباق الذكاء الاصطناعي، حيث لم يعد التحدي مقتصراً على قوة النماذج فقط، بل يشمل أيضاً القدرة على إبقاء الحواسيب العملاقة تعمل بكفاءة واستقرار أثناء تدريب الأنظمة المستقبلية.