Tencent تطرح HunyuanImage 2.1 لتوليد صور عالية الجودة

أعلنت شركة Tencent عن إصدار HunyuanImage 2.1، نموذج مفتوح المصدر لتوليد الصور يتميز بالدقة العالية، القدرة على اتباع التعليمات النصية، وتحسين عرض النصوص داخل الصور، لدعم الاستخدامات الإبداعية المتقدمة.

تفاصيل الخبر

إليك أبرز مميزات HunyuanImage 2.1:

فهم المعاني المعقدة: يدعم نصوصًا طويلة تصل إلى 1000 توكن مع القدرة على توليد عناصر متعددة ضمن مشهد واحد بدقة عالية.
تحكم دقيق بالنصوص والتفاصيل: تحسين جودة الرسم للنصوص والمشاهد لتقليل الأخطاء وزيادة دقة الفهم.
أنماط فنية متعددة: يمكن توليد صور بأساليب متنوعة تشمل الواقعية، الكرتونية، ورسوم الشخصيات الصغيرة (chibi)، مع الحفاظ على جمالية عالية.
تقنية متقدمة: يعتمد على ترميز نصي ثنائي القناة وفهم متعدد الوسائط، إضافةً إلى هيكل VLM + خبراء لتحسين الاستجابة للمعاني المعقدة.
هيكلية نموذج ثنائية المرحلة: النموذج الأساسي لتوليد الصور، مع نموذج Refiner لتحسين الجودة وتقليل التشوهات.
تسريع التدريب والاستدلال: باستخدام VAE مضغوط بنسبة 32 مرة وتقنيات MeanFlow لتقليل خطوات الاستدلال بشكل كبير.
تحسين النصوص التوضيحية (Prompt Enhancer): نظام صناعي لإعادة صياغة النصوص لتعزيز الدقة والاتساق بين الوصف والناتج البصري، مع دعم اللغة الصينية والإنجليزية.

الأهداف المستقبلية

المنصة تسعى لتحقيق أهداف استراتيجية واضحة:

تقديم أدوات توليد صور عالية الجودة لمصممين وفنانين ومطورين بشكل مفتوح المصدر.
دعم النصوص الطويلة والمعقدة لتوليد مشاهد دقيقة ومتعددة العناصر.
تحسين التحكم في التفاصيل والنصوص داخل الصور لتعزيز الإنتاجية الإبداعية.
توسيع الاستخدامات لتشمل الواقع الافتراضي، الألعاب، الإعلانات، والفن الرقمي.

مع HunyuanImage 2.1، تقدم Tencent نموذجًا متقدمًا لتوليد الصور، يجمع بين الدقة العالية، القدرة على معالجة التعليمات المعقدة، وتحسين النصوص داخل الصور، مما يفتح آفاقًا واسعة للإبداع والتطبيقات المهنية.