LLM-D يحل أزمة اختناقات استدلال الذكاء الاصطناعي
مع توسّع استخدام النماذج اللغوية الكبيرة داخل الشركات، لم يعد التحدي في دقة النموذج بل في تشغيله بكفاءة. وهنا يبرز LLM-D كحل بنيوي ذكي لمعالجة ازدحام الاستدلال وتكاليفه.
تفاصيل الخبر
يركّز طرح LLM-D على معالجة مشكلة أساسية تواجه المؤسسات عند تشغيل النماذج اللغوية على نطاق واسع، وهي فوضى حركة طلبات الاستدلال وعدم تساويها.
- قدّم سيدريك كليبورن، كبير دعاة المطورين في Red Hat، شرحًا لحل مفتوح المصدر يُدعى LLM-D (Large Language Model – Distributed).
- يعتمد الحل على التوجيه الذكي للطلبات بدل التوزيع العشوائي أو الدائري التقليدي.
- يقيّم النظام كل طلب وفق الحمل الحالي، وزمن الاستجابة المتوقع، وإمكانية الاستفادة من التخزين المؤقت.
- يعمل LLM-D كبوابة استدلال تشبه برج مراقبة الحركة الجوية، حيث يوجّه كل طلب إلى المورد الأنسب له.
- يفصل عملية الاستدلال إلى مرحلتين مستقلتين:
- مرحلة Pre-fill كثيفة الذاكرة.
- مرحلة Decode تسلسلية وقابلة للتوسّع الأفقي.
- يتيح هذا الفصل استخدام العتاد بكفاءة أعلى ومشاركة ذاكرة KV cache بين الطلبات المتشابهة.
- أظهرت النتائج تحسنًا ملحوظًا، منها خفض زمن P90 ثلاث مرات وتسريع زمن أول رمز حتى 57 مرة.
الأهداف المستقبلية
يُتوقع أن يلعب LLM-D دورًا محوريًا في بنية الذكاء الاصطناعي المؤسسية:
- تمكين تشغيل النماذج اللغوية على نطاق واسع بتكلفة أقل.
- تحسين الالتزام باتفاقيات مستوى الخدمة (SLO وQoS).
- زيادة كفاءة استهلاك وحدات GPU في البيئات الإنتاجية.
- دعم الانتقال من النماذج التجريبية إلى خدمات ذكاء اصطناعي موثوقة.
الخاتمة:
يمثل LLM-D تحولًا في طريقة التفكير ببنية تشغيل النماذج اللغوية، حيث ينتقل التركيز من مجرد تشغيل النموذج إلى تشغيله بكفاءة واستدامة في ظروف العالم الحقيقي.
