ElevenLabs تطلق Scribe: نموذج لتحويل الكلام إلى نص

كشفت ElevenLabs عن Scribe، نموذجها الجديد لتحويل الكلام إلى نص، والذي تدّعي أنه الأكثر دقة عالميًا، متفوقًا على نماذج كبرى مثل Whisper v3 من OpenAI و Gemini 2.0 Flash من جوجل.

تفاصيل التقنية الجديدة

يوفرScribe ميزات متقدمة تجعل منه أداة قوية في مجال التعرف على الكلام وتحليل الصوتيات.

دعم واسع للغات: يتعرف على 99 لغة، مع دقة تفوق 95% في أكثر من 25 لغة، بما في ذلك الإنجليزية والإيطالية والإسبانية.
تحسين اللغات غير المدعومة سابقًا: يقدم دقة متفوقة في لغات تعاني من نقص في تقنيات التعرف على الصوت مثل الصربية، الكانتونية، والمالايالامية.
خصائص إضافية: يشمل تمييز المتحدثين، طوابع زمنية للكلمات، والتعرف على الأصوات غير اللفظية مثل الضحك والموسيقى.
التكلفة: 0.40 دولار لكل ساعة من الصوت المسجل، مع إصدار منخفض التأخير سيتم إطلاقه قريبًا للتطبيقات الفورية.

الأهداف المستقبلية

مع إطلاق Scribe، تهدف ElevenLabs إلى تحسين تجربة المستخدمين في مجالات مختلفة من خلال قدرات تحليل الصوت المتقدمة.

رفع مستوى دقة الترجمة الفورية: تقديم نصوص أكثر دقة للترجمات المباشرة في الاجتماعات والمؤتمرات.
دعم المحتوى المرئي والمسموع: تحسين إنتاج الترجمات التلقائية للأفلام والبودكاست.
إتاحة التكنولوجيا للغات النادرة: دعم أفضل للغات منخفضة الموارد التي تعاني من قلة أدوات التعرف على الصوت.
تحقيق التكامل مع تطبيقات الذكاء الاصطناعي: دمج التكنولوجيا مع منصات مثل يوتيوب، نتفليكس، وخدمات التعليم الإلكتروني.

يعد Scribe نقلة نوعية في مجال تحويل الكلام إلى نص، مما يفتح المجال أمام تجربة استخدام أكثر دقة وسلاسة، خصوصًا للغات التي لم تكن مدعومة سابقًا، ما يجعله أداة مثالية لمستقبل المحتوى الرقمي.