بايدو تطلق ERNIE-Image نموذج صور قوي بحجم صغير
أعلنت Baidu عن إطلاق نموذج ERNIE-Image، وهو نموذج توليد صور من النصوص بحجم 8 مليارات معامل فقط، لكنه يحقق أداءً قريباً من أقوى النماذج المنافسة رغم حجمه الصغير.

تفاصيل الخبر
يأتي نموذج ERNIE-Image الجديد بتصميم يركز على الكفاءة والدقة، مع تحسينات ملحوظة في فهم التعليمات وإنتاج الصور.
- يعتمد على بنية Diffusion Transformer ضمن إطار latent diffusion
- يحتوي على أداة “Prompt Enhancer” لتحسين الأوامر النصية تلقائياً
- يقدم أداءً منافساً لنماذج أكبر حجماً على عدة اختبارات معيارية
- يتميز بدقة عالية في عرض النصوص داخل الصور (بالإنجليزية والصينية وغيرها)
- يدعم إنشاء تصاميم معقدة مثل الملصقات والقصص المصورة متعددة الإطارات
- قادر على تنفيذ أوامر معقدة تشمل عدة عناصر وعلاقات بينها
كما يتميز بسهولة التشغيل مقارنة بالنماذج الضخمة، حيث يمكن تشغيله على أجهزة بموارد محدودة نسبياً.
الأهداف والتوجهات المستقبلية
تعكس هذه الخطوة توجهاً متزايداً نحو نماذج أكثر كفاءة بدلاً من الاعتماد فقط على الحجم.
- إتاحة تقنيات توليد الصور المتقدمة لشريحة أوسع من المطورين
- تقليل تكلفة تشغيل وتدريب نماذج الذكاء الاصطناعي
- تحسين قابلية التحكم في مخرجات الصور
- دعم استخدامات عملية مثل التصميم والإعلانات والمحتوى البصري
- تعزيز المنافسة في سوق النماذج مفتوحة الأوزان
كما يشير إلى تحول في الصناعة نحو نماذج “أصغر ولكن أذكى”، بدلاً من التركيز فقط على زيادة عدد المعاملات.
يثبت ERNIE-Image أن الأداء العالي لم يعد مرتبطاً بالحجم الضخم فقط، بل بالكفاءة في التصميم والتدريب. ومع هذا التوجه، قد نشهد انتشاراً أوسع لأدوات توليد الصور القوية على الأجهزة العادية وفي التطبيقات اليومية.
