Tavus تطلق نموذج Hummingbird-0 لمزامنة الشفاه بدون تدريب
كشفت Tavus عن Hummingbird-0، أول نموذج “صفر تدريب” لمزامنة حركة الشفاه مع الصوت، محققًا تفوقًا ملحوظًا بجودة الصورة ودقة التزامن والحفاظ على الهوية.

تفاصيل الخبر
أعلنت شركة Tavus عن إطلاق نموذج Hummingbird-0 الجديد، وهو متاح حاليًا بنسخة استعراضية عبر واجهة برمجة التطبيقات (API) ومنصة Fal. يتميز هذا النموذج بأداء استثنائي في عدة محاور رئيسية.
من أبرز ميزات النموذج:
- يعتمد على أسلوب “zero-shot” دون الحاجة لأي تدريب مسبق.
- يتيح للمستخدمين رفع ملف صوتي ولقطة فيديو قصيرة لإنتاج مقطع متزامن عالي الجودة.
- يستخدم مكونات Phoenix-3 الخاصة بـ Tavus لتحقيق تعابير وجه طبيعية وتفادي مظهر “الوادي الغريب” (uncanny valley).
- تفوق على النماذج الأخرى بنسبة 37% في جودة الصورة، و7% في دقة المزامنة، و7% في الحفاظ على هوية المتحدث.
- يوفر نتائج فورية بدون الحاجة إلى إعدادات معقدة، بمجرد رفع ملفات MP3 وMP4.
الأداء التقني والمعايير
- جودة الصورة (FID): حقق Hummingbird-0 درجة 63.92، أي أفضل بنسبة 37% مقارنة بأقرب منافس.
- دقة مزامنة الشفاه (LSE-D): سجل 6.74، متفوقًا بنسبة 7% على النماذج الأخرى.
- الحفاظ على الهوية (ArcFace): بلغ 0.84، مع تحسّن بنسبة 7% مقارنة بالحلول المنافسة.
هذه الأرقام تجسد التفوق العالمي لـ Hummingbird-0 في ثلاثة أبعاد رئيسية، ما يجعله أفضل نموذج متوفّر حاليًا لمزامنة الشفاه.
حالات الاستخدام والتكامل
- تحرير الفيديو: إمكانية تعديل لقطات حوارية موجودة دون الحاجة لإعادة التصوير، مع نتائج تبدو طبيعية تمامًا.
- التوطين والترجمة: دبلجة المحتوى بلغات مختلفة مع مزامنة شفاه دقيقة، ما يسهّل الوصول لجمهور عالمي دون فقدان المصداقية.
- الإعلانات ومحتوى المؤثرين: إعادة استخدام فردوسي لفيديو واحد لإنشاء آلاف الإصدارات الشخصية، مع الحفاظ على هوية المتحدث والتعابير.
- منصات أفلام AI: تكامل مع نماذج توليد الفيديو مثل Sora وVeo وRunway لإضافة الحوار المفقود بشكل آلي .
يُعد Hummingbird-0 خطوة كبيرة نحو تطوير أدوات متقدمة لتحرير الفيديو والترجمة والدبلجة الذكية.
الأهداف المستقبلية
تسعى Tavus من خلال Hummingbird-0 إلى تحقيق مجموعة من الأهداف المهمة:
- تمكين منشئي المحتوى من تحرير الفيديو بسهولة وفعالية.
- دعم التوطين والدبلجة عالية الدقة لمختلف اللغات مع الحفاظ على المصداقية البصرية.
- تقديم حلول للإعلانات والمحتوى المخصص للمؤثرين باستخدام نسخة فيديو واحدة.
- التكامل مع أنظمة توليد الفيديو الذكية مثل Sora وVeo وRunway لتعزيز المحتوى التفاعلي.
- توسيع نطاق التوفر لتشمل المطورين والباحثين عبر واجهات مرنة وسهلة الاستخدام.
مع إطلاق Hummingbird-0، تضع Tavus معايير جديدة في تكنولوجيا مزامنة الشفاه بالذكاء الاصطناعي، مما يفتح المجال أمام استخدامات أوسع وأكثر احترافية في صناعة المحتوى الرقمي.