Transcribe من Cohere لأعلى دقة تحويل الصوت لنص مفتوح المصدر

قدمت Cohere نموذجًا جديدًا للتعرف على الكلام تلقائيًا، متاح كمصدر مفتوح، ويتصدر حاليًا قائمة HuggingFace لأعلى دقة تحويل الصوت إلى نص، مما يفتح آفاقًا جديدة لتطبيقات الذكاء الاصطناعي الصوتي.

تفاصيل الخبر

أعلنت Cohere عن نموذج Transcribe، المصمم لتقديم دقة عالية في تحويل الصوت إلى نص عبر 14 لغة مختلفة.

  • نموذج Conformer-Transformer يترجم الصوت إلى نص بدقة عالية
  • تم تدريبه من الصفر مع التركيز على تقليل معدل الخطأ في الكلمات (WER)
  • يدعم اللغات الأوروبية مثل الإنجليزية، الفرنسية، الألمانية، الإسبانية، والبرتغالية
  • يدعم أيضًا لغات آسيا والمحيط الهادئ مثل الصينية، اليابانية، الكورية، الفيتنامية
  • يغطي منطقة الشرق الأوسط وشمال إفريقيا عبر اللغة العربية
  • يتصدر Transcribe قائمة HuggingFace Open ASR Leaderboard بمعدل خطأ 5.42%
  • أداء النموذج ثابت في البيئات الواقعية مثل الاجتماعات متعددة المتحدثين أو الأوضاع الصوتية الصعبة
  • متاح للاستخدام المفتوح مع إمكانية التشغيل على GPU محلي أو عبر منصة Model Vault الخاصة بـ Cohere

الأهداف المستقبلية

يسعى Cohere Transcribe إلى أن يصبح أساسًا لتطبيقات الذكاء الاصطناعي الصوتي على مستوى المؤسسات.

  • دمج النموذج مع منصة North لأتمتة الذكاء الصوتي
  • تمكين الشركات من استخدام التعرف على الصوت في عملياتها اليومية
  • دعم إنتاج محتوى صوتي بدقة عالية وسرعة كبيرة
  • تسهيل استخدام الذكاء الاصطناعي في خدمة العملاء والتحليلات الصوتية
  • تقديم قاعدة موثوقة لتطوير تطبيقات الذكاء الاصطناعي الصوتي المستقبلية

في النهاية، يمثل Transcribe خطوة نوعية نحو جعل الصوت أحد أهم وسائط العمل في الذكاء الاصطناعي، مع أداء موثوق ومتاح للجميع كمصدر مفتوح.

مقالات مشابهة