Baidu تكشف عن ERNIE-4.5-VL-28B-A3B-Thinking
أعلنت شركة Baidu عن نموذجها الأحدث ERNIE-4.5-VL-28B-A3B-Thinking، وهو نموذج متعدد الوسائط يجمع بين النص والصورة والفيديو، ويستهدف تحسين قدرات التفكير البصري-اللغوي والتحليل العميق للمحتوى.

أبرز مميزات النموذج
يأتي النموذج الجديد بتقنيات حديثة تجعل منه منافسًا جديًا لأقوى نماذج الذكاء الاصطناعي الحالية:
- بنية Mixture of Experts (MoE): يضم نحو 30 مليار معاملة، مع تفعيل 3 مليارات فقط لكل استدلال بفضل مفتاح A3B، ما يزيد من الكفاءة ويقلل التكلفة.
- تدريب بصري-لغوي متقدّم: تم تدريبه على نطاق واسع من البيانات التي تربط بين النصوص والصور لرفع مستوى الفهم الدلالي.
- تقنيات GSPO وIcePop: لتعزيز التعلم المعزّز وتحسين التفكير مع الصور، بما يشمل التكبير (zoom-in) والبحث البصري.
- قدرات تحليلية متنوعة: من تحليل الرسوم البيانية والمخططات إلى تتبع التغيّرات الزمنية في الفيديو.
- استخدام الأدوات: يمكن للنموذج تنفيذ عمليات مثل بحث الصور عند الحاجة إلى معرفة متخصصة أو تفاصيل دقيقة.
الأداء والموقع التنافسي
بعد استعراض مميزات النموذج التقنية، برز أداء ERNIE-4.5-VL-28B-A3B-Thinking كأحد أبرز نقاط قوته مقارنة بالمنافسين:
- أعلنت Baidu أن النموذج يتفوّق على GPT-5 (High) وGemini 2.5 Pro في عدد من اختبارات الرؤية والفهم البصري.
- يتميّز بقدرته على تحقيق نتائج عالية باستخدام معاملاته النشطة فقط، مما يقلل التكلفة التشغيلية دون التأثير على الأداء.
- يهدف إلى الجمع بين الفهم العميق للوسائط وقدرة التفكير التحليلي، ما يجعله خطوة نحو وكلاء متعددين الوسائط أكثر ذكاءً واستقلالية.
الأهداف المستقبلية
مع هذا الإصدار، تسعى Baidu إلى:
- تطوير نماذج قادرة على التفكير البصري-اللغوي المتكامل لتطبيقات التعليم والتحليل الصناعي والتقني.
- تعزيز الكفاءة في تشغيل النماذج الضخمة دون التضحية بالجودة.
- دعم تطوير وكلاء ذكيين متعددين الوسائط قادرين على فهم وتفسير العالم الواقعي بمستوى يشبه الإنسان.
- المساهمة في سباق عالمي لتقنيات التحليل متعدد الوسائط التي تمزج بين اللغة والرؤية والفيديو.
يمثل نموذج ERNIE-4.5-VL-28B-A3B-Thinking خطوة جديدة في سباق الذكاء الاصطناعي متعدد الوسائط، مؤكدًا أن المنافسة المقبلة لن تُقاس بعدد المعاملات فقط، بل بمدى عمق الفهم والتحليل بين النص والصورة والفيديو.
