Dia: نموذج صوتي مفتوح المصدر يتفوق على الكبار

في إنجاز مذهل، أطلق طالبان جامعيان من كوريا الجنوبية نموذج “Dia” لتحويل النص إلى كلام، يتفوق بحسب الاختبارات على شركات كبرى مثل ElevenLabs وSesame، بدون تمويل أو دعم مؤسسي.

تفاصيل إطلاق نموذج Dia الصوتي من Nari Labs

في إعلان جريء يعيد رسم حدود الابتكار في الذكاء الاصطناعي، كشفت شركة Nari Labs الناشئة عن نموذجها الصوتي المفتوح المصدر “Dia”، الذي يقدم أداءً مذهلاً رغم بساطة الظروف التي وُلد فيها.
أبرز مواصفات النموذج:

  • يعتمد على 1.6 مليار معامل (parameters)
  • يدعم النبرات العاطفية المتنوعة
  • يتيح التنقل بين أصوات متعددة عبر خاصية speaker tags
  • يتعرف على الإشارات غير اللفظية مثل الضحك والسعال والصراخ
  • يتفوق على ElevenLabs وSesame في التفاعل الزمني والتعبير الصوتي

الأهداف المستقبلية لمشروع Dia

تهدف Nari Labs إلى البناء على هذا النجاح المبكر، مع خطة طموحة لإطلاق تطبيق استهلاكي يركز على إنشاء المحتوى الاجتماعي والتلاعب الإبداعي بالصوت. ويأتي هذا التوجه مدعوماً بفلسفة واضحة:

  • تمكين الأفراد من صناعة محتوى صوتي فريد
  • الاستفادة من التقنيات المفتوحة لبناء أدوات سهلة الوصول
  • تحفيز الإبداع بدون الحاجة لرأس مال كبير
  • استخدام الذكاء الاصطناعي كوسيلة تعلم وتطوير شخصي وتقني
  • تقديم بديل مجاني قوي للبرمجيات التجارية المدفوعة

“Dia” ليس مجرد نموذج صوتي، بل قصة نجاح تلهم جيلاً جديداً من المطورين الطموحين، وتؤكد أن المستقبل في متناول من يملك الشغف والتعلم، لا المال فقط.

مقالات مشابهة