Baidu تكشف عن ERNIE-4.5-VL-28B-A3B-Thinking

أعلنت شركة Baidu عن نموذجها الأحدث ERNIE-4.5-VL-28B-A3B-Thinking، وهو نموذج متعدد الوسائط يجمع بين النص والصورة والفيديو، ويستهدف تحسين قدرات التفكير البصري-اللغوي والتحليل العميق للمحتوى.

أبرز مميزات النموذج

يأتي النموذج الجديد بتقنيات حديثة تجعل منه منافسًا جديًا لأقوى نماذج الذكاء الاصطناعي الحالية:

بنية Mixture of Experts (MoE): يضم نحو 30 مليار معاملة، مع تفعيل 3 مليارات فقط لكل استدلال بفضل مفتاح A3B، ما يزيد من الكفاءة ويقلل التكلفة.
تدريب بصري-لغوي متقدّم: تم تدريبه على نطاق واسع من البيانات التي تربط بين النصوص والصور لرفع مستوى الفهم الدلالي.
تقنيات GSPO وIcePop: لتعزيز التعلم المعزّز وتحسين التفكير مع الصور، بما يشمل التكبير (zoom-in) والبحث البصري.
قدرات تحليلية متنوعة: من تحليل الرسوم البيانية والمخططات إلى تتبع التغيّرات الزمنية في الفيديو.
استخدام الأدوات: يمكن للنموذج تنفيذ عمليات مثل بحث الصور عند الحاجة إلى معرفة متخصصة أو تفاصيل دقيقة.

الأداء والموقع التنافسي

بعد استعراض مميزات النموذج التقنية، برز أداء ERNIE-4.5-VL-28B-A3B-Thinking كأحد أبرز نقاط قوته مقارنة بالمنافسين:

أعلنت Baidu أن النموذج يتفوّق على GPT-5 (High) وGemini 2.5 Pro في عدد من اختبارات الرؤية والفهم البصري.
يتميّز بقدرته على تحقيق نتائج عالية باستخدام معاملاته النشطة فقط، مما يقلل التكلفة التشغيلية دون التأثير على الأداء.
يهدف إلى الجمع بين الفهم العميق للوسائط وقدرة التفكير التحليلي، ما يجعله خطوة نحو وكلاء متعددين الوسائط أكثر ذكاءً واستقلالية.

الأهداف المستقبلية

مع هذا الإصدار، تسعى Baidu إلى:

تطوير نماذج قادرة على التفكير البصري-اللغوي المتكامل لتطبيقات التعليم والتحليل الصناعي والتقني.
تعزيز الكفاءة في تشغيل النماذج الضخمة دون التضحية بالجودة.
دعم تطوير وكلاء ذكيين متعددين الوسائط قادرين على فهم وتفسير العالم الواقعي بمستوى يشبه الإنسان.
المساهمة في سباق عالمي لتقنيات التحليل متعدد الوسائط التي تمزج بين اللغة والرؤية والفيديو.

يمثل نموذج ERNIE-4.5-VL-28B-A3B-Thinking خطوة جديدة في سباق الذكاء الاصطناعي متعدد الوسائط، مؤكدًا أن المنافسة المقبلة لن تُقاس بعدد المعاملات فقط، بل بمدى عمق الفهم والتحليل بين النص والصورة والفيديو.