Tavus تطلق نموذج Hummingbird-0 لمزامنة الشفاه بدون تدريب

كشفت Tavus عن Hummingbird-0، أول نموذج “صفر تدريب” لمزامنة حركة الشفاه مع الصوت، محققًا تفوقًا ملحوظًا بجودة الصورة ودقة التزامن والحفاظ على الهوية.

تفاصيل الخبر

أعلنت شركة Tavus عن إطلاق نموذج Hummingbird-0 الجديد، وهو متاح حاليًا بنسخة استعراضية عبر واجهة برمجة التطبيقات (API) ومنصة Fal. يتميز هذا النموذج بأداء استثنائي في عدة محاور رئيسية.

من أبرز ميزات النموذج:

  • يعتمد على أسلوب “zero-shot” دون الحاجة لأي تدريب مسبق.
  • يتيح للمستخدمين رفع ملف صوتي ولقطة فيديو قصيرة لإنتاج مقطع متزامن عالي الجودة.
  • يستخدم مكونات Phoenix-3 الخاصة بـ Tavus لتحقيق تعابير وجه طبيعية وتفادي مظهر “الوادي الغريب” (uncanny valley).
  • تفوق على النماذج الأخرى بنسبة 37% في جودة الصورة، و7% في دقة المزامنة، و7% في الحفاظ على هوية المتحدث.
  • يوفر نتائج فورية بدون الحاجة إلى إعدادات معقدة، بمجرد رفع ملفات MP3 وMP4.

الأداء التقني والمعايير

  • جودة الصورة (FID): حقق Hummingbird-0 درجة 63.92، أي أفضل بنسبة 37% مقارنة بأقرب منافس.
  • دقة مزامنة الشفاه (LSE-D): سجل 6.74، متفوقًا بنسبة 7% على النماذج الأخرى.
  • الحفاظ على الهوية (ArcFace): بلغ 0.84، مع تحسّن بنسبة 7% مقارنة بالحلول المنافسة.
    هذه الأرقام تجسد التفوق العالمي لـ Hummingbird-0 في ثلاثة أبعاد رئيسية، ما يجعله أفضل نموذج متوفّر حاليًا لمزامنة الشفاه.

حالات الاستخدام والتكامل

  • تحرير الفيديو: إمكانية تعديل لقطات حوارية موجودة دون الحاجة لإعادة التصوير، مع نتائج تبدو طبيعية تمامًا.
  • التوطين والترجمة: دبلجة المحتوى بلغات مختلفة مع مزامنة شفاه دقيقة، ما يسهّل الوصول لجمهور عالمي دون فقدان المصداقية.
  • الإعلانات ومحتوى المؤثرين: إعادة استخدام فردوسي لفيديو واحد لإنشاء آلاف الإصدارات الشخصية، مع الحفاظ على هوية المتحدث والتعابير.
  • منصات أفلام AI: تكامل مع نماذج توليد الفيديو مثل Sora وVeo وRunway لإضافة الحوار المفقود بشكل آلي .

يُعد Hummingbird-0 خطوة كبيرة نحو تطوير أدوات متقدمة لتحرير الفيديو والترجمة والدبلجة الذكية.

الأهداف المستقبلية

تسعى Tavus من خلال Hummingbird-0 إلى تحقيق مجموعة من الأهداف المهمة:

  • تمكين منشئي المحتوى من تحرير الفيديو بسهولة وفعالية.
  • دعم التوطين والدبلجة عالية الدقة لمختلف اللغات مع الحفاظ على المصداقية البصرية.
  • تقديم حلول للإعلانات والمحتوى المخصص للمؤثرين باستخدام نسخة فيديو واحدة.
  • التكامل مع أنظمة توليد الفيديو الذكية مثل Sora وVeo وRunway لتعزيز المحتوى التفاعلي.
  • توسيع نطاق التوفر لتشمل المطورين والباحثين عبر واجهات مرنة وسهلة الاستخدام.

مع إطلاق Hummingbird-0، تضع Tavus معايير جديدة في تكنولوجيا مزامنة الشفاه بالذكاء الاصطناعي، مما يفتح المجال أمام استخدامات أوسع وأكثر احترافية في صناعة المحتوى الرقمي.

مقالات مشابهة