ByteDance تطلق USO نموذج مفتوح لتخصيص الصور بالأسلوب والهوية

أعلنت ByteDance عن إطلاق نموذج جديد مفتوح المصدر باسم USO (Unified Style-Subject Optimized)، يجمع بين الحفاظ على هوية الموضوع وتطبيق أنماط فنية مختلفة بشكل واقعي.

ما الذي يقدمه USO؟

النموذج يفتح آفاقاً جديدة في تخصيص الصور عبر المزايا التالية:

  • القدرة على الحفاظ على هوية الموضوع بدقة عالية.
  • تطبيق أنماط فنية جديدة بحرية مع الحفاظ على واقعية الصورة.
  • التخلص من المظهر “البلاستيكي” أو غير الطبيعي الذي كانت تعاني منه النماذج السابقة.

آلية العمل

تم تطوير USO عبر مراحل تدريب متسلسلة تضمن الجمع بين الهوية والأسلوب:

  • المرحلة الأولى: تدريب على محاذاة الأسلوب باستخدام SigLIP embeddings لاكتساب قدرة على التعامل مع الأنماط الفنية.
  • المرحلة الثانية: تدريب على فصل المحتوى عن الأسلوب باستخدام ثلاثيات (محتوى، أسلوب، وصور محافظة على الهوية).
  • الخطوة النهائية: تطبيق Style-Reward Learning (SRL) للإشراف على المرحلتين وزيادة مستوى الواقعية والأداء.

المعايير والاختبارات

لإثبات جدارة النموذج، تم تطوير أداة تقييم خاصة:

  • إطلاق USO-Bench، أول معيار لتقييم النماذج من حيث الحفاظ على الهوية وتشابه الأسلوب معاً.
  • أظهر USO نتائج رائدة بين النماذج مفتوحة المصدر، وفقاً للاختبارات.

الإصدار المفتوح

حرصت ByteDance على دعم المجتمع البحثي من خلال توفير:

  • شيفرات التدريب والتنفيذ.
  • أوزان النماذج الجاهزة.
  • مجموعات البيانات المستخدمة.
  • جميعها تحت رخصة Apache 2.0.

التطبيقات المحتملة

يمكن الاستفادة من النموذج في مجالات متعددة، منها:

  • إنشاء أفاتارات شخصية بأساليب متنوعة.
  • إعادة إنتاج الأعمال الفنية بهويات مختلفة.
  • تعديلات تحافظ على هوية الشخص للاستخدام في الإعلام والتصميم.

التحديات والاعتبارات الأخلاقية

رغم قوته التقنية، يوصي الفريق باستخدام النموذج بشكل مسؤول:

  • معظم الصور المستخدمة في التدريب اصطناعية أو من مجموعات بيانات مفتوحة.
  • التحذير من إساءة الاستخدام مع التأكيد على احترام تراخيص النماذج الأساسية.

يمثل USO من ByteDance خطوة متقدمة في دمج الهوية والأسلوب داخل الصور المولدة بالذكاء الاصطناعي. ومع الانفتاح على المجتمع البحثي عبر الإصدار المفتوح، قد يصبح أداة أساسية لتخصيص الصور بشكل إبداعي ومسؤول.

مقالات مشابهة