مايكروسوفت تطلق نموذج VibeVoice للصوتيات الطويلة
أطلقت مايكروسوفت نموذج VibeVoice مفتوح المصدر لتحويل النص إلى كلام، قادر على توليد محادثات صوتية طويلة تصل إلى 90 دقيقة بأربع أصوات مختلفة.

تفاصيل الخبر
VibeVoice يمثل قفزة نوعية في تكنولوجيا النص إلى كلام:
- النموذج قادر على توليد محادثات بجودة البودكاست تصل إلى 90 دقيقة، مع الحفاظ على خصائص كل متحدث.
- يدعم أربع أصوات مختلفة في حوار طويل، مما يسمح بمحاكاة محادثات جماعية طبيعية.
- حسّن فريق مايكروسوفت كفاءة معالجة البيانات الصوتية، مع ضغط بيانات يصل إلى 80 ضعفًا، مما يمكّن تشغيل التقنية على الأجهزة الاستهلاكية.
- دمجت الشركة نموذج Qwen2.5 لضمان التفاعل الطبيعي بين المتحدثين والالتزام بالسياق في الحوارات الطويلة.
- تضمنت ميزات أمان تلقائية، مثل إضافة عبارة “generated by AI” وعلامات مائية مخفية للتحقق من أصل المحتوى الصوتي.
الأهداف المستقبلية
تهدف مايكروسوفت من خلال VibeVoice إلى:
- الانتقال من النماذج التقليدية القصيرة إلى حوارات صوتية طويلة متعددة المتحدثين.
- إتاحة هذه التقنية للمستخدمين والمطورين عبر نموذج مفتوح المصدر يمكن تشغيله على الأجهزة الاستهلاكية.
- تعزيز التجارب الصوتية في البودكاست والمحتوى التعليمي والترفيهي باستخدام AI.
- إنشاء أدوات أكثر طبيعية وتفاعلية لتوليد محتوى صوتي متعدد الأصوات دون الحاجة لمعدات متقدمة أو موارد ضخمة.
VibeVoice يفتح آفاقًا جديدة لإنشاء محتوى صوتي طويل ومعقد، مع ضمانات أمان ومفتوح المصدر، مما يعزز قدرة المطورين والمبدعين على استخدام الذكاء الاصطناعي لإنشاء حوارات صوتية طبيعية ومتكاملة.
