ByteDance’s يحقق نجاحًا كبيرًا بإصدار OmniHuman-1

أعلنت شركة ByteDance عن تطويرها لنموذج الذكاء الاصطناعي “OmniHuman-1“، وهو إطار عمل متعدد الوسائط قادر على إنشاء مقاطع فيديو واقعية للبشر استنادًا إلى صورة واحدة وإشارات حركة متعددة.

تفاصيل الخبر

يُعتبر “OmniHuman-1” نموذجًا متقدمًا في مجال إنشاء مقاطع الفيديو البشرية، حيث يمكنه توليد مقاطع فيديو واقعية استنادًا إلى صورة واحدة وإشارات حركة متعددة، مثل الصوت أو الفيديو أو مزيج من كليهما.

المميزات الرئيسية لـ “OmniHuman-1”:

  • دعم المدخلات المتعددة: يدعم النموذج المدخلات المتعددة مثل النص والصوت والوضعية، مما يوفر مرونة أكبر في توليد الحركة.
  • بنية Diffusion Transformer: يعتمد النموذج على بنية Diffusion Transformer (DiT)، مما يحسن جودة توليد الفيديو وكفاءة التدريب.
  • تدريب متعدد الشروط: يقدم استراتيجية تدريب متعددة الشروط، مما يسمح بتوسيع البيانات وتحسين دقة الحركة والتفاعل مع الأجسام.
  • دقة عالية في التزامن والتعبير: يتفوق النموذج في دقة التزامن مع الصوت والتعبير الحركي، مما يضمن حركات طبيعية وواقعية.
  • تفاعل واقعي مع الأجسام: يتعامل النموذج بفعالية مع التفاعلات المعقدة مع الأجسام وحركات الجسم المتنوعة.
  • توافق مع أنماط متعددة: يدعم النموذج إنشاء مقاطع فيديو بأساليب فوتوغرافية، كرتونية، وأسلوبية، مما يجعله مناسبًا لتطبيقات إبداعية وتجارية متنوعة.

الأهداف المستقبلية

تهدف ByteDance من خلال تطوير “OmniHuman-1” إلى:

  • تحسين التفاعل البشري في التطبيقات الرقمية: تمكين إنشاء محتوى تفاعلي وواقعي في مجالات مثل الألعاب، التعليم، والترفيه.
  • توسيع استخدامات الذكاء الاصطناعي في الوسائط المتعددة: تقديم حلول مبتكرة في إنشاء المحتوى الرقمي باستخدام الذكاء الاصطناعي.
  • تعزيز التخصيص والتفاعل في التطبيقات التجارية: توفير أدوات لتخصيص المحتوى وتفاعله بما يتناسب مع احتياجات المستخدمين.
  • توسيع نطاق التطبيقات في الصناعات الإبداعية: دعم الصناعات الإبداعية في إنتاج محتوى مبتكر وجذاب.

يُعد “OmniHuman-1” خطوة هامة نحو تطوير تقنيات الذكاء الاصطناعي في إنشاء المحتوى البشري، مما يفتح آفاقًا واسعة لتطبيقات متعددة في مختلف الصناعات.

مقالات مشابهة