Hume AI تطلق نموذج TADA لتوليد الصوت بسرعة

أعلنت شركة Hume AI عن إطلاق نموذج جديد مفتوح المصدر لتوليد الصوت باسم TADA، وهو نظام يعتمد على مزامنة النص مع الإشارات الصوتية بشكل مباشر لتقليل أخطاء الذكاء الاصطناعي أثناء تحويل النص إلى كلام. ويهدف هذا النموذج إلى تقديم صوت طبيعي وسريع مع تقليل ظاهرة الكلمات الوهمية التي تظهر أحيانًا في أنظمة تحويل النص إلى صوت.

تفاصيل الخبر

يقدم نموذج TADA نهجًا مختلفًا مقارنة بالأنظمة التقليدية لتحويل النص إلى كلام، حيث يعتمد على فكرة المزامنة المباشرة بين النص والصوت داخل النموذج، مما يسمح بإنتاج صوت أكثر دقة وأسرع في الوقت نفسه.

أهم المعلومات حول التقنية الجديدة تشمل:

يعتمد النموذج على تقنية Text-Acoustic Dual Alignment التي تربط كل رمز نصي بإطار صوتي واحد.
يتيح هذا الأسلوب تزامن النص والصوت خطوة بخطوة داخل النموذج.
يستطيع النظام توليد الصوت بسرعة أكبر بخمس مرات مقارنة بالأنظمة المنافسة.
يعمل بسرعة زمنية تعادل 0.09 من الوقت الحقيقي عند توليد الصوت.
حقق النموذج معدل هلوسة يساوي صفر في الاختبارات على أكثر من 1000 عينة صوتية.
حصل على تقييم جودة صوت 4.18 من 5 في اختبار تشابه المتحدث.
النموذج خفيف بما يكفي ليعمل مباشرة على الهواتف والأجهزة الطرفية دون الاعتماد على الحوسبة السحابية.
تم نشر النماذج مفتوحة المصدر بأحجام 1 مليار و3 مليارات معلمات.

كما يتيح التصميم الجديد للنموذج إنتاج مقاطع صوتية طويلة بكفاءة أعلى، حيث يمكنه معالجة ما يصل إلى نحو 700 ثانية من الصوت داخل نفس حدود الذاكرة التي تسمح بها الأنظمة التقليدية.

الأهداف المستقبلية

تسعى Hume AI من خلال إطلاق TADA إلى تسريع تطوير تقنيات الذكاء الاصطناعي الصوتي وجعلها أكثر موثوقية وكفاءة.

ومن أبرز الأهداف المستقبلية لهذه التقنية:

دعم تشغيل أنظمة الصوت الذكية مباشرة على الأجهزة المحمولة.
تطوير تطبيقات المساعدات الصوتية والمحادثات الطويلة.
تحسين جودة السرد الصوتي والكتب الصوتية.
تقليل الأخطاء في الأنظمة الصوتية المستخدمة في القطاعات الحساسة مثل التعليم والطب والمال.
توسيع دعم اللغات وإطلاق نماذج أكبر وأكثر قوة.

يمثل نموذج TADA خطوة مهمة في تطوير تقنيات تحويل النص إلى كلام، حيث يقدم مزيجًا من السرعة والجودة والموثوقية، وهي عناصر كانت غالبًا ما تتعارض في الأنظمة التقليدية.

في النهاية، قد يساهم فتح مصدر هذه التقنية في تسريع الابتكار في مجال الذكاء الاصطناعي الصوتي، خاصة مع تزايد الحاجة إلى واجهات صوتية طبيعية وسريعة في التطبيقات الحديثة.