Eleven v3 من ElevenLabs يغادر المرحلة التجريبية

أعلنت ElevenLabs عن خروج نموذجها الأكثر تعبيراً “Eleven v3” من مرحلة “ألفا” ليصبح متاحاً تجارياً للجميع. يتميز هذا الإصدار بقدرة فائقة على محاكاة المشاعر الإنسانية المعقدة والتحكم الدقيق في نبرة الصوت، مما يجعله المعيار الجديد في عالم تحويل النص إلى كلام (TTS).

تفاصيل الإطلاق والميزات لنموذج Eleven v3

يقدم Eleven v3 تجربة صوتية غير مسبوقة بفضل هندسته التي تدعم التفاعل البشري الطبيعي:

  • نظام العلامات الصوتية (Audio Tags): يتيح النموذج للمستخدمين إدراج أوامر بين الأقواس مثل [excited] أو [whispers] أو [laughs] للتحكم المباشر في الأداء والمشاعر داخل النص.
  • دعم اللغات العالمي: توسع النموذج ليدعم أكثر من 70 لغة بلهجات متنوعة، مما يجعله الأداة الأقوى للوصول إلى جماهير عالمية بنبرة محلية أصلية.
  • وضع الحوار (Dialogue Mode): يدعم النموذج إنشاء محادثات طبيعية بين عدة متحدثين في ملف صوتي واحد، مع قدرة مذهلة على التعامل مع المقاطعات وتداخل الأصوات.
  • استقرار ودقة محسنة: شهد الإصدار النهائي تحسينات جذرية في استقرار الصوت وتقليل التقطع مقارنة بالنسخة التجريبية، مع الحفاظ على نطاق ديناميكي واسع.
  • التوافر على الأجهزة المحمولة: النموذج متاح الآن عبر تطبيق الهاتف، مما يتيح للمبدعين توليد أصوات بجودة استوديو من أي مكان وفي أي وقت.
  • محاكاة اللهجات: بفضل العلامات الصوتية، يمكن للمستخدمين تغيير لهجة المتحدث (مثل البريطانية أو الأمريكية أو الفرنسية) داخل نفس الجملة دون تغيير نموذج الصوت.

الأهداف المستقبلية

تسعى ElevenLabs من خلال هذا الإصدار إلى قيادة مستقبل الإنتاج الصوتي المعتمد على الذكاء الاصطناعي:

  • دمج الذكاء العاطفي: الوصول إلى نماذج قادرة ليس فقط على محاكاة الصوت، بل فهم السياق الدرامي للنصوص لتقديم أداء تمثيلي كامل.
  • تحسين استنساخ الأصوات الاحترافية: العمل على تحسين جودة “النسخ الصوتي الاحترافي” (PVC) ليتوافق تماماً مع قدرات التعبير العالي في v3.
  • تقليل وقت الاستجابة (Latency): بالرغم من أن v3 مصمم حالياً للمحتوى المسجل، تهدف الشركة لتطوير نسخة “Real-time” منه لاستخدامها في المساعدات الشخصية الذكية.
  • توسيع مكتبة الأصوات المجتمعية: تمكين المستخدمين من تصميم أصوات مخصصة قادرة على أداء أدوار معقدة مثل “صوت القرصان” أو “صوت الروبوت” بمرونة عالية.

مع Eleven v3، لم يعد الذكاء الاصطناعي مجرد آلة تقرأ النصوص، بل أصبح “ممثلاً صوتياً” يمتلك القدرة على الضحك والبكاء والهمس. هذا التحول سيغير قواعد اللعبة لمؤلفي الكتب الصوتية، ومطوري الألعاب، وصناع المحتوى الذين يبحثون عن لمسة إنسانية حقيقية.

مقالات مشابهة