HunyuanImage 3.0 من Tencent يتصدر نماذج تحويل النص لصورة

أعلن Tencent عن وصول نموذجها المفتوح المصدر HunyuanImage 3.0 إلى المركز الأول في LM Arena لتحويل النص إلى صورة، متفوقًا على أبرز النماذج المغلقة في الصناعة.

تفاصيل الخبر

نموذج HunyuanImage 3.0 يمثل طفرة في توليد الصور من النصوص، مع قدرات واسعة تلبي احتياجات المبدعين والمصممين.

أهم النقاط:

  • المركز الأول: أصبح HunyuanImage 3.0 النموذج الأفضل عالميًا والمفتوح المصدر على LM Arena، متجاوزًا Seedream 4 وGemini 2.5 Flash Image Preview.
  • الإمكانيات التقنية: يحتوي على أكثر من 80 مليار معامل، منها 13 مليار مفعل لكل وحدة أثناء الاستدلال، مع أداء يقارن بنماذج مغلقة المصدر الرائدة.
  • البنية الفريدة: يعتمد على هندسة MoE باستخدام نهج Transfusion لدمج تدريب النماذج متعددة الوسائط مع توليد الصور.
  • تدريب هائل: استُخدم في التدريب 5 مليارات زوج صورة-نص، إطارات فيديو، بيانات مختلطة، و6 تريليونات كلمة من النصوص، ما يمنح النموذج قدرة عالية على فهم وتوليد المحتوى المعقد.
  • الاستخدامات العملية: مناسب للمصممين، illustrators، والمبدعين، لتوليد نصوص داخل الصور، رسوم تعليمية، رموز تعبيرية، وكميديا دقيقة بسرعة عالية.

الأهداف المستقبلية

تركز Tencent على:

  • توسيع القدرات: دعم تحويل الصورة إلى صورة، وتحرير الصور، والتفاعل متعدد الأدوار.
  • تعزيز الإنتاجية: تقليل وقت العمل من ساعات إلى دقائق للمبدعين.
  • تطوير الذكاء الاصطناعي المفتوح: توفير أدوات مفتوحة المصدر تنافس النماذج المغلقة.

مع HunyuanImage 3.0، تقدم Tencent نموذجًا مفتوح المصدر متفوقًا في توليد الصور من النصوص، مما يفتح آفاقًا جديدة للإبداع والتطبيقات التعليمية والفنية.

مقالات مشابهة