Scribe v2 Realtime: النسخة الأسرع والأدق لتحويل الكلام لنص

أطلقت ElevenLabs نموذج Scribe v2 Realtime، لتقديم دقة قياسية وتحويل الكلام الحي إلى نص في 90 لغة مع استجابة فورية تصل إلى 150 مللي ثانية، ما يرفع كفاءة وكلاء المحادثات والتطبيقات الصوتية.

تفاصيل الإطلاق

يقدم Scribe v2 Realtime إمكانيات متقدمة لتلبية احتياجات التطبيقات الصوتية ووكالات الدعم المباشر:

  • دقة عالية: تم تدريبه على بيانات متنوعة حول العالم مع ضبط دقيق لفهم الكلام الطبيعي، محققًا أقل معدلات الخطأ في الكلمات مقارنة بالمنافسين.
  • زمن استجابة منخفض جدًا: استلام النصوص المترجمة خلال ~150 مللي ثانية، ما يتيح الفهم اللحظي للمحادثات والاجتماعات.
  • دعم 90 لغة: يغطي جميع اللهجات واللكنات المختلفة، مع التعامل مع الظروف الصوتية المعقدة بسهولة.
  • تنسيقات صوتية متعددة: يدعم PCM وμ-law لضمان التوافق مع الأنظمة الهاتفية والمتصفحات والاستوديوهات.
  • تحكم كامل للمطورين: ميزات مثل اكتشاف نشاط الصوت والتحكم اليدوي في الالتزام بالنصوص لتحسين دقة البث المباشر.
  • أمان وامتثال على مستوى المؤسسات: التشفير أثناء النقل والتخزين، دعم HIPAA، SOC 2، وGDPR، مع خيارات تخزين بيانات في الاتحاد الأوروبي وعدم الاحتفاظ بالمعلومات.

الأهداف المستقبلية

مع إطلاق Scribe v2 Realtime، تهدف ElevenLabs إلى:

  • تمكين وكلاء المحادثات والتطبيقات الصوتية من الفهم والاستجابة بشكل أسرع وأكثر دقة.
  • تسهيل دمج التحويل الصوتي إلى نص في التطبيقات باستخدام واجهات WebSocket وREST API.
  • تقديم دعم للمصطلحات المتخصصة والأسماء الفنية والطبية والمالية لضمان دقة النصوص في جميع المجالات.
  • توسيع نطاق استخدام التكنولوجيا من الشركات الناشئة إلى الفرق الكبيرة بمرونة في التسعير والبنية التحتية.

يضع Scribe v2 Realtime معيارًا جديدًا في تحويل الكلام إلى نص الفوري، ويعزز تجربة المستخدمين عبر التطبيقات الصوتية والوكالات الذكية في العالم كله.

مقالات مشابهة