Z.ai تطلق GLM-4.5V مفتوح المصدر لأفضل أداء في التفكير البصري

قدمت شركة الذكاء الاصطناعي الصينية Z.ai نموذج GLM-4.5V مفتوح المصدر المتفوق في مهام الفهم البصري من خلال تحقيق أداء قياسي في أكثر من 40 معيارًا بصريًا، متاح الآن عبر GitHub وأدوات المشاركة.

تفاصيل الخبر

طرحت Z.ai (المعروفة سابقًا باسم Zhipu AI) نموذجًا مرئيًا قائمًا على الذكاء الاصطناعي يُدعى GLM-4.5V، ويأتي بالمزايا التالية:

يتصدّر النموذج الأرشيف المفتوح في مهام التفكير البصري، محققًا أداءًا متميزًا عبر أكثر من 41 معيارًا متنوعًا.
النموذج يحتوي على 106 مليار معلمة بإجمالي معلمات نشطة يبلغ 12 مليارًا، ويمكنه معالجة صور وفيديوهات بشكل تفاهمي عميق.
المعمارية تشمل وحدة ترميز بصري، ومهايئ MLP، ومفكك لغوي، مدعوم بتقنيات مثل الترميز المواضعي الثلاثي الأبعاد (3D-RoPE)، وقدرة على التعامل مع سياقات طويلة تصل إلى 64K رمز.
يتفوق النموذج في مهام متعددة تشمل الفهم العلمي، توليد الكود من الصور، تحليل المخططات وجداول PDF، وحتى التفاعل مع الواجهات الرسومية.
النموذج متاح كمصدر مفتوح عبر منصات مثل GitHub وHugging Face، بموجب ترخيص MIT، مما يسمح بالاستخدام التجاري والتطوير.

الأهداف المستقبلية

تهدف Z.ai من خلال GLM-4.5V إلى:

رفع مستوى النماذج البصرية المفتوحة لتقارب قدرات النماذج المغلقة كـ GPT-4o.
دعم التطبيقات متعددة الوسائط كالويب، التعليم، الأبحاث، والتصميم من خلال نموذج واحد قادِر ومعتمد.
تعزيز شفافية البحث عبر مشاركة الكود والمعلمات لتشجيع الابتكار المجتمعي.
تمكين عمليات التشغيل محليًا وتطوير تجاري حر بموارد معقولة بدل الاعتماد على البنى التحتية التقليدية المكلفة.

باستخدام GLM-4.5V، تعيد Z.ai كتابة قواعد اللعب في عالم النماذج متعددة الوسائط المفتوحة، حيث تقدم أداءً عصريًا مع إتاحة تامة، ما يُوقع نموذجها ضمن رواد المستقبل المرئي للذكاء الاصطناعي.