Tencent تُصدر HunyuanVideo-Foley لإنشاء مؤثرات صوتية
أعلنت Tencent عن HunyuanVideo-Foley، إطار عمل مفتوح المصدر جديد يحوّل النص والفيديو إلى صوت بجودة احترافية، مع مزامنة دقيقة بين المشاهد والمؤثرات الصوتية، ما يتيح للمبدعين إنتاج موسيقى وتأثيرات صوتية متقنة للفيديوهات والألعاب.

تفاصيل الخبر
أهم ميزات HunyuanVideo-Foley:
- توليد صوت متقدم (Text-Video-to-Audio): تحويل المشاهد والفيديوهات والنصوص إلى مؤثرات صوتية عالية الجودة بدقة زمنية وسمية مثالية.
- تعلم واسع النطاق: تم التدريب على أكثر من 100 ألف ساعة من البيانات متعددة الوسائط لتوليد صوت متناسب مع مشاهد طبيعية، رسوم متحركة، وألعاب.
- هندسة مبتكرة (MMDiT): مولّد متعدد الوسائط يوازن بين مدخلات الفيديو والنص لتوليد مؤثرات صوتية غنية ومتعددة الطبقات.
- جودة صوت احترافية: باستخدام دالة فقدان REPA و Audio VAE، يوفر النظام صوتًا نظيفًا ومستقرًا خالٍ من الضوضاء والخلل.
- أفضل النتائج في السوق المفتوح: يتفوق على جميع النماذج المفتوحة الأخرى في جودة الصوت، ومواءمة النص والفيديو، والتزامن الزمني.
الأهداف المستقبلية
تركز Tencent على:
- تمكين صانعي الأفلام والألعاب من إنتاج مؤثرات صوتية دقيقة دون الحاجة إلى خبرة هندسية عميقة.
- تحسين أدوات إنتاج الصوت لتكون متاحة كمصدر مفتوح للمجتمع الإبداعي.
- توسيع دعم المشاهد المعقدة والسيناريوهات التفاعلية.
- تشجيع البحث والتطوير في مزامنة الصوت والفيديو عبر المشاريع مفتوحة المصدر.
HunyuanVideo-Foley يفتح آفاقًا جديدة لإنشاء مؤثرات صوتية متقدمة ومتزامنة مع المشاهد، مما يجعل عملية إنتاج الفيديو والألعاب أكثر سرعة واحترافية للمبدعين.
