Qwen-Image: نموذج ثوري لتحرير الصور بدقة ونصوص معقدة
كشفت شركة Qwen عن نموذجها الجديد Qwen-Image بقدرة 20 مليار بارامتر، ليوفر تجربة رائدة في تحرير الصور وتوليد النصوص البصرية الدقيقة بلغات متعددة.

تفاصيل نموذج Qwen-Image الجديد
في 4 أغسطس 2025، أعلن فريق Qwen عن إطلاق Qwen-Image، وهو نموذج أساسي للصور متعددة الوسائط (MMDiT) يضم 20 مليار بارامتر، ويتميز بقدرات متقدمة في توليد النصوص المعقدة وتحرير الصور بدقة عالية. أبرز ميزاته تشمل:
- عرض نصوص معقدة بدقة عالية: يدعم تنسيقات متعددة مثل الفقرات والنصوص متعددة الأسطر بكل من اللغات الأبجدية (كالإنجليزية) والرمزية (كالصينية).
- تحرير صور متسق وواقعي: بفضل التدريب متعدد المهام، يحافظ النموذج على المعنى البصري والدقة أثناء التعديلات.
- تفوق على معايير الأداء العامة: حقق Qwen-Image أداءً متقدمًا في اختبارات عامة مثل GenEval، DPG، OneIG-Bench، إضافةً إلى Benchmarks متخصصة في التعديل مثل GEdit وImgEdit.
- قدرات نصية مذهلة: تفوق على نماذج رائدة في اختبارات مثل LongText-Bench وChineseWord وTextCraft، خصوصًا في توليد النصوص باللغة الصينية بدقة استثنائية.
- تجارب واقعية مبهرة: عرض النموذج لوحات نصية معقدة، تصاميم إنفوجرافيك، ملصقات أفلام، وصفحات عرض PPT واقعية، وكلها بنصوص واضحة قابلة للقراءة.
الأهداف المستقبلية للنموذج
يأمل فريق Qwen من خلال هذا النموذج إلى دفع حدود الذكاء الاصطناعي البصري لتحقيق:
- تمكين منشئي المحتوى من تصميم ملصقات، عروض تقديمية، ومنشورات تسويقية باحتراف.
- تقليل الحواجز التقنية أمام تحرير الصور وتوليد المحتوى البصري.
- دعم الاستخدامات متعددة اللغات، لا سيما في البيئات التي تجمع بين الإنجليزية والصينية.
- توفير أدوات قوية لتحرير الصور تشمل تعديل الأسلوب، إضافة العناصر، تعديل الوضعيات، وتحرير النصوص.
- تحفيز المجتمع للمشاركة في تطوير بيئة توليد صور مفتوحة ومستدامة.
Qwen-Image ليس مجرد نموذج لتوليد الصور، بل يمثل نقلة نوعية في فهم اللغة البصرية وتقديم أدوات تحرير دقيقة ومرنة. بفضل دعمه للنصوص المعقدة والتحرير المتقدم، يُتوقع أن يكون محركًا رئيسيًا لمستقبل المحتوى البصري بالذكاء الاصطناعي.
