ElevenLabs تطلق Scribe v2 بأدق نموذج تحويل صوت إلى نص

أعلنت ElevenLabs عن إطلاق Scribe v2، وهو نموذج جديد ومتقدم للتعرف على الكلام، تؤكد الشركة أنه يحقق أقل معدل أخطاء على معايير الصناعة، مع دعم واسع للغات وميزات احترافية للاستخدامات الفورية والمتقدمة.

تفاصيل الخبر

كشفت ElevenLabs عن Scribe v2 كنموذج تحويل صوت إلى نص من الجيل الجديد، مصمم لتقديم دقة عالية جدًا عبر أكثر من 90 لغة، مع إمكانيات متقدمة لتحليل الصوت والسياق.

  • دقة رائدة في السوق: يوفر Scribe v2 نسخًا نصيًا عالي الدقة مع طوابع زمنية على مستوى كل كلمة، ما يجعله مناسبًا للتطبيقات الاحترافية.
  • تمييز المتحدثين: يدعم النموذج Speaker Diarization لتحديد المتحدثين في التسجيلات متعددة الأصوات بدقة.
  • وسوم صوتية ذكية: يضيف Dynamic Audio Tagging سياقًا إضافيًا مثل الضحك، التوقفات، أو الضوضاء المحيطة.
  • دعم لغوي واسع: يعمل بكفاءة عبر أكثر من 90 لغة، مع الحفاظ على جودة التعرف في البيئات متعددة اللغات.
  • ميزات متقدمة: يشمل اكتشاف الكيانات، وتوجيه الكلمات المفتاحية، ما يعزز دقة النسخ في المجالات المتخصصة.

Scribe v2 Realtime

إلى جانب الإصدار الأساسي، أطلقت ElevenLabs نسخة Scribe v2 Realtime المصممة للتعامل مع الكلام المباشر بزمن استجابة منخفض للغاية.

  • زمن استجابة فائق الانخفاض: يقدم نسخًا جزئيًا في حوالي 150 مللي ثانية فقط، ما يجعله مناسبًا للمحادثات الحية.
  • دعم البث المباشر: استقبال الصوت على دفعات مع إرجاع النص بشكل فوري.
  • تعدد صيغ الصوت: يدعم PCM بمعدلات من 8kHz إلى 48kHz إضافة إلى μ-law.
  • اكتشاف النشاط الصوتي: تقسيم تلقائي للكلام اعتمادًا على فترات الصمت.
  • تحكم يدوي كامل: إمكانية تحديد متى يتم اعتماد المقاطع النصية النهائية.

الأهداف المستقبلية

تعكس هذه الإصدارات توجه ElevenLabs نحو:

  • ترسيخ موقعها في سوق التعرف على الكلام الاحترافي بدقة تتجاوز المعايير الحالية.
  • دعم الوكلاء الذكيين والتطبيقات التفاعلية التي تتطلب فهمًا لحظيًا للكلام.
  • توسيع استخدام الذكاء الاصطناعي الصوتي عالميًا عبر دعم لغات متعددة بدقة عالية.
  • دمج الصوت في أنظمة التحليل والأتمتة بشكل أعمق وأكثر موثوقية.

يمثل إطلاق Scribe v2 وScribe v2 Realtime خطوة مهمة في تطور تقنيات التعرف على الكلام، حيث تجمع ElevenLabs بين الدقة العالية، السرعة، والدعم متعدد اللغات، ما يفتح الباب أمام جيل جديد من التطبيقات الصوتية الذكية.

مقالات مشابهة