LLM-D يحل أزمة اختناقات استدلال الذكاء الاصطناعي

مع توسّع استخدام النماذج اللغوية الكبيرة داخل الشركات، لم يعد التحدي في دقة النموذج بل في تشغيله بكفاءة. وهنا يبرز LLM-D كحل بنيوي ذكي لمعالجة ازدحام الاستدلال وتكاليفه.

تفاصيل الخبر

يركّز طرح LLM-D على معالجة مشكلة أساسية تواجه المؤسسات عند تشغيل النماذج اللغوية على نطاق واسع، وهي فوضى حركة طلبات الاستدلال وعدم تساويها.

  • قدّم سيدريك كليبورن، كبير دعاة المطورين في Red Hat، شرحًا لحل مفتوح المصدر يُدعى LLM-D (Large Language Model – Distributed).
  • يعتمد الحل على التوجيه الذكي للطلبات بدل التوزيع العشوائي أو الدائري التقليدي.
  • يقيّم النظام كل طلب وفق الحمل الحالي، وزمن الاستجابة المتوقع، وإمكانية الاستفادة من التخزين المؤقت.
  • يعمل LLM-D كبوابة استدلال تشبه برج مراقبة الحركة الجوية، حيث يوجّه كل طلب إلى المورد الأنسب له.
  • يفصل عملية الاستدلال إلى مرحلتين مستقلتين:
    • مرحلة Pre-fill كثيفة الذاكرة.
    • مرحلة Decode تسلسلية وقابلة للتوسّع الأفقي.
  • يتيح هذا الفصل استخدام العتاد بكفاءة أعلى ومشاركة ذاكرة KV cache بين الطلبات المتشابهة.
  • أظهرت النتائج تحسنًا ملحوظًا، منها خفض زمن P90 ثلاث مرات وتسريع زمن أول رمز حتى 57 مرة.

الأهداف المستقبلية

يُتوقع أن يلعب LLM-D دورًا محوريًا في بنية الذكاء الاصطناعي المؤسسية:

  • تمكين تشغيل النماذج اللغوية على نطاق واسع بتكلفة أقل.
  • تحسين الالتزام باتفاقيات مستوى الخدمة (SLO وQoS).
  • زيادة كفاءة استهلاك وحدات GPU في البيئات الإنتاجية.
  • دعم الانتقال من النماذج التجريبية إلى خدمات ذكاء اصطناعي موثوقة.

الخاتمة:
يمثل LLM-D تحولًا في طريقة التفكير ببنية تشغيل النماذج اللغوية، حيث ينتقل التركيز من مجرد تشغيل النموذج إلى تشغيله بكفاءة واستدامة في ظروف العالم الحقيقي.

مقالات مشابهة