ByteDance تطلق Seedream 3.0 نموذج صور ثوري ينافس GPT-4o

أعلنت شركة ByteDance عبر منصتها Dreamina عن إطلاق Seedream 3.0، نموذج مميز لتوليد الصور الثنائي اللغة بدقة 2K وسرعة فائقة، محتلاً المركز الثاني عالميًا خلف GPT-4o.

تفاصيل الخبر

كشف فريق Seed التابع لـByteDance عن Seedream 3.0، الجيل الجديد من نماذج تحويل النص إلى صورة، مع تحسينات تقنية كبيرة.

فيما يلي أبرز الميزات التقنية لنموذج Seedream 3.0:

يعمل بنظام ثنائي اللغة (إنجليزي-صيني) لتحسين توليد النصوص المعقدة في اللغات المختلفة.
يوفر مخرجات بدقة أصلية تصل إلى 2048×2048 (2K) دون حاجة لمعالجة لاحقة.
زمن توليد متوسط للصورة يصل إلى 3 ثوانٍ فقط، مما يعزز من سرعة وكفاءة الإبداع الفني.
يستخدم آليات مثل RoPE الدوراني ومتدرب متعدد الدقة لتحسين المحاذاة بين النص والصورة والتباين المرئي.
توسعت مجموعة بيانات التدريب بنسبة تقارب 100% مع آلية عينات ديناميكية لتحسين التنوع والتمثيل اللغوي والبصري.
حقق تقييمًا بـ ELO 1138 على لوحة التقييم العالمية، محتلاً المركز الثاني مباشرة خلف GPT-4o.

الأهداف المستقبلية

تسعى ByteDance من خلال Seedream 3.0 وخططها المستقبلية إلى:

توسيع التكامل واسع المستوى إلى منصات Dreamina وJimeng AI لتوفير النموذج لمجتمع أوسع من المبدعين والمصممين.
إجراء أبحاث على تصميم هيكلي أكثر كفاءة لتقليل زمن الاستجابة وتسريع مراحل التوليد بما يتوافق مع متطلبات الإنتاج الصناعي.
تطوير قدرات التحرير المدمجة عبر SeedEdit لتوفير أدوات ذكية لتعديل الصور الناتجة بدقة أعلى وتحكم أكبر.
استكشاف تأثيرات زيادة حجم البيانات والنموذج على الأداء ودراسة ظواهر التوسيع لضمان تحسين قدرات الإبداع الآلي مستقبلًا.

مع إطلاق Seedream 3.0، تؤكد ByteDance مكانتها كأحد أبرز مطوري نماذج تحويل النص إلى صورة، وتُبرز التنافس الحاد بين كبرى الشركات AI على قيادة المشهد البصري المستقبلي.