FireEdit: نظام Tencent الجديد لتعديل الصور بالدقة والتحديد

قدم Tencent نظام FireEdit، أول إطار عمل لتعديل الصور بناءً على تعليمات دقيقة مع نماذج رؤية لغوية مدركة للمناطق في الصورة، ما يتيح تحكمًا أفضل في تحرير المشاهد المعقدة.

تفاصيل الخبر

من خلال FireEdit، يعالج Tencent ثلاث تحديات رئيسية في تقنيات تعديل الصور المدعومة بالذكاء الاصطناعي: دقة تحرير المناطق، الحفاظ على الاتساق الدلالي، وفهم التعليمات المعقدة. ويعتمد FireEdit على نموذج رؤية لغوية (VLM) يدمج رموزًا إقليمية إضافية، ما يقوي القدرة على استشعار التفاصيل الدقيقة في المناطق المحددة ضمن الصورة.

كما يضيف إطار العمل وحدتيّ تحكّم خاصتين:

Time-Aware Target Injection: تضبط قوة التوجيه عبر مراحل إزالة التشويش، بدمج معلومات التوقيت مع التعليمات النصية.
Hybrid Visual Cross Attention: تعزز التفاصيل البصرية أثناء التحرير، وتحافظ على الاتساق الدلالي بين الصورة الأصلية والمعدلة.

وبالاعتماد على خوارزمية الانتشار الزمني الموجه بنموذج VLM المحسن، حقق FireEdit نتائج تتفوق على أفضل الأساليب الحالية في تجارب مقارنة شاملة.

يتوفر المشروع مفتوح المصدر على GitHub مع رخصة MIT، إضافةً إلى صفحة تفاعلية للمعاينة على موقع الباحثين.

الأهداف المستقبلية

يسعى Tencent من خلال FireEdit إلى:

تعميق التكامل بين اللغة والصورة للوصول إلى تحرير أكثر طبيعية وواقعية.
دعم تطبيقات تجارية وإبداعية مثل صناعة الإعلانات والألعاب وتصميم المحتوى.
تمكين المطورين والباحثين من إضافة وحدات تحكم مخصصة بناءً على الأفكار الجديدة.
التوسع إلى نماذج أكبر مع تحسين كفاءة التنفيذ لتطبيقات الهواتف والأجهزة الطرفية.

يمثل إطلاق FireEdit خطوة مهمة في تطوير أدوات تحرير الصور بالذكاء الاصطناعي، إذ يجمع بين الدقة والفهم العميق لتعليمات المستخدم، ويؤسس لتحرير مرن يصب في خدمة الإبداع والتطبيقات العملية.