Tencent تطلق HunyuanImage 3.0 لتوليد الصور بالذكاء الاصطناعي

أطلقت Tencent نسختها الجديدة من نموذج النص إلى الصورة HunyuanImage 3.0 مفتوح المصدر، وهو نموذج يهدف لمنافسة أفضل النماذج المغلقة في الصناعة مع أداء قوي وإمكانيات متعددة الوسائط.

تفاصيل الخبر

يتميز HunyuanImage 3.0 بعدة مزايا رئيسية تجعله متقدماً في توليد الصور بالذكاء الاصطناعي:

  • الهندسة المعمارية متعددة الوسائط الموحدة: إطار autoregressive موحد يدمج النص والصورة بشكل مباشر لتحقيق مخرجات دقيقة وغنية بالسياق.
  • أكبر نموذج MoE لتوليد الصور مفتوح المصدر: يحتوي على 64 خبيرًا و80 مليار معلمة، مع تفعيل 13 مليار لكل توكن لتعزيز الأداء والسعة.
  • أداء متفوق في توليد الصور: توازن مثالي بين الدقة الدلالية والجودة البصرية مع مخرجات فوتوريالية وتفاصيل دقيقة.
  • قدرات استدلال معرفي متقدم: يستخدم النموذج معرفته العالمية لتفسير نوايا المستخدم وتوسيع الموجهات البسيطة تلقائياً لإنتاج صور أكثر اكتمالاً ودقة.
  • تحسين الأداء: يمكن استخدام FlashAttention وFlashInfer لتسريع عملية الاستنتاج حتى 3 مرات بعد التهيئة الأولية.

نظام التشغيل المدعوم: Linux، مع متطلبات GPU قوية (≥3×80GB) وبيئة Python وPyTorch متوافقة مع CUDA 12.8. يمكن تثبيت النموذج عبر HuggingFace أو تشغيله محلياً باستخدام تعليمات Tencent الرسمية.

الأهداف المستقبلية

تهدف Tencent من خلال HunyuanImage 3.0 إلى:

  • تقديم نموذج مفتوح المصدر عالي الأداء يمكن أن ينافس أفضل الخيارات التجارية.
  • تمكين المطورين والفنانين من توليد صور فوتوريالية بسهولة من نصوص وصفية.
  • تعزيز البحث والتطوير في الذكاء الاصطناعي متعدد الوسائط وتحسين تقنيات الاستدلال والمعالجة البصرية.
  • توفير أدوات تقييم دقيقة مثل SSAE لقياس توافق الصورة مع النصوص والموجهات.

مع إطلاق HunyuanImage 3.0، تؤكد Tencent التزامها بالابتكار المفتوح في الذكاء الاصطناعي، مما يوفر للمطورين والمبدعين نموذجاً قوياً ومتقدماً لتوليد الصور من النصوص بدقة عالية وجودة بصرية متميزة.

مقالات مشابهة