ByteDance تطلق BAGEL: نموذج ذكاء صناعي متعدد الوسائط

كشفت شركة ByteDance عن نموذج BAGEL مفتوح المصدر بقدرات مذهلة في فهم وتوليد النصوص والصور والفيديو، متفوقًا على نماذج رائدة مثل Qwen2.5-VL وInternVL.

تفاصيل الخبر

أعلنت شركة ByteDance عن إطلاق نموذج BAGEL (ByteDance Adaptive Generative Language Model) من خلال فريق Seed، كنموذج متعدد الوسائط يعتمد على بنية Mixture of Experts (MoE) ويحتوي على 1.4 مليار معلمة، منها 700 مليون نشطة فقط أثناء التشغيل.

  • متوفر الآن على Hugging Face وGitHub للمطورين.
  • يتفوق على Qwen2.5-VL وInternVL-2.5 في اختبار GAIA المعياري بنسبة 82.42 نقطة.
  • يولّد صورًا بجودة مماثلة لـ Stable Diffusion 3 (SD3) وFLUX.1، بما في ذلك مشاهد ليلية لمدن “Cyberpunk” خلال 3 ثوانٍ فقط.
  • يدعم توليد صور 4K، والتحرير الحر، والتنبؤ بالإطارات المستقبلية، وتوليد ثلاثي الأبعاد.
  • يتميز بكفاءة تشغيل عالية ويدعم “Chain of Thought” للتفكير التسلسلي.

الأهداف المستقبلية

مع إطلاق BAGEL، تسعى ByteDance إلى تحقيق الأهداف التالية:

  • تعزيز الإبداع الرقمي: عبر تقديم أدوات لإنشاء صور وفيديوهات ومواقع تفاعلية بجودة احترافية.
  • دعم التعليم والبحث: من خلال توليد تقارير تعليمية وفهم مستندات طويلة مع تحسين كفاءة البحث بنسبة تصل إلى 30%.
  • نشر الذكاء الاصطناعي مفتوح المصدر: وخفض الحواجز أمام المطورين باستخدام نموذج يمكن تشغيله على GPU واحد.
  • المنافسة العالمية: عبر تقديم بديل قوي ومفتوح للنماذج الكبرى مثل GPT-4o وGemini 2.0.

نموذج BAGEL من ByteDance يمثل فصلًا جديدًا في مسيرة الذكاء الاصطناعي مفتوح المصدر. قدراته العالية وتكلفته المنخفضة تجعله محط أنظار المطورين، ومن المتوقع أن يُحدث ثورة في مجالات الإبداع الرقمي والتعليم والبحث.

مقالات مشابهة