Alibaba Cloud تقلل استخدام وحدات Nvidia بنسبة 82%

أعلنت Alibaba Cloud عن نظام حوسبة جديد يُعرف باسم Aegaeon، نجح في تقليص الاعتماد على وحدات معالجة الرسوميات Nvidia GPUs بنسبة 82%، ما يمثل إنجازًا تقنيًا قد يعيد تشكيل طريقة تشغيل نماذج الذكاء الاصطناعي الكبيرة عالميًا، وفقًا لتقرير نشره موقع South China Morning Post (SCMP).

تفاصيل النظام

كشفت شركة Alibaba Cloud أن نظام Aegaeon خضع لاختبارات تجريبية لمدة ثلاثة أشهر في سوق النماذج الخاصة بها، وأظهر نتائج مذهلة:

قلل عدد وحدات Nvidia H20 GPUs المطلوبة لتشغيل عشرات النماذج (حتى 72 مليار معلمة) من 1,192 وحدة إلى 213 وحدة فقط.
تم عرض نتائج البحث خلال Symposium on Operating Systems Principles (SOSP) في سيول، كوريا الجنوبية.
يهدف النظام إلى معالجة مشكلة الكفاءة في تشغيل مهام LLM المتزامنة، التي غالبًا ما تؤدي إلى هدر موارد ضخمة.

الابتكار التقني

أوضح الباحثون من جامعة بكين وAlibaba Cloud أن Aegaeon يمثل أول نظام يكشف عن تكاليف التشغيل الزائدة الناتجة عن تشغيل النماذج اللغوية الكبيرة في وقت واحد.

يعتمد النظام على مفهوم تجميع موارد GPU (GPU Pooling)، مما يسمح باستخدام وحدة GPU واحدة لخدمة عدة نماذج في وقت متزامن.
أظهرت الدراسة أن 17.7% من وحدات GPU كانت تُستخدم لتلبية 1.35% فقط من الطلبات في سوق النماذج لدى علي بابا قبل تطبيق النظام الجديد.
هذا التوزيع غير المتكافئ دفع الشركة إلى تصميم آلية ديناميكية لإعادة توزيع الطاقة الحاسوبية حسب الاستخدام الفعلي.

الأهداف المستقبلية

تطمح Alibaba Cloud من خلال Aegaeon إلى:

خفض تكاليف التشغيل المرتبطة بخدمات الذكاء الاصطناعي.
تعزيز كفاءة استهلاك الطاقة في مراكز البيانات.
تمكين تشغيل عدد أكبر من النماذج باستخدام موارد أقل، مما يجعل البنية التحتية أكثر استدامة.

يمثل نظام Aegaeon خطوة استراتيجية نحو جعل الذكاء الاصطناعي أكثر كفاءة وأقل تكلفة، خصوصًا في ظل الارتفاع الهائل في الطلب على وحدات GPU عالميًا. ومع استمرار الأبحاث المشتركة بين Alibaba Cloud وجامعة بكين، قد يصبح هذا النظام معيارًا جديدًا لتشغيل نماذج اللغة الضخمة على نطاق واسع.