Microsoft تطلق MAI-Transcribe-1 بدقة قياسية للتفريغ الصوتي

أعلنت شركة Microsoft عن إطلاق نموذجها MAI-Transcribe-1 الجديد في مرحلة المعاينة العامة، ليقدم مستوى غير مسبوق من دقة تحويل الصوت إلى نص عبر 25 لغة مختلفة.

تفاصيل نموذج MAI-Transcribe-1 الجديد

يمثل هذا النموذج خطوة كبيرة في تطوير تقنيات التعرف على الكلام، حيث يجمع بين الدقة العالية والسرعة والكفاءة في بيئات الاستخدام الواقعية.

  • يحقق أفضل دقة في السوق وفق معيار Word Error Rate (WER) عبر 25 لغة
  • يتفوق على نماذج منافسة مثل Whisper-large-v3 وGemini 3.1 Flash
  • يسجل متوسط خطأ منخفض يصل إلى 3.9% فقط (كلما كان أقل كان أفضل)
  • يدعم مجموعة واسعة من اللغات واللهجات مع أداء ثابت
  • أسرع بمعدل 2.5 مرة مقارنة بحلول Microsoft السابقة
  • مصمم للعمل بكفاءة في البيئات الصعبة مثل الضوضاء أو تداخل الأصوات
  • متاح عبر Microsoft Foundry ويدعم التكامل مع تطبيقات متعددة
  • تكلفة الاستخدام تبلغ حوالي 0.36 دولار لكل ساعة صوت

الأهداف المستقبلية لتقنيات الصوت في Microsoft

تسعى Microsoft من خلال هذا النموذج إلى تطوير بنية متكاملة لتجارب الصوت المدعومة بالذكاء الاصطناعي.

  • تحسين دقة المساعدات الصوتية مثل Copilot
  • دعم تطبيقات الاجتماعات مثل التفريغ التلقائي داخل Microsoft Teams
  • تمكين بناء وكلاء صوتيين (Voice Agents) أكثر ذكاءً وفعالية
  • تسهيل تحليل بيانات مراكز الاتصال واستخراج insights
  • دعم إنشاء الترجمة الفورية والنصوص التوضيحية للفيديوهات
  • تطوير تجارب تفاعلية تعتمد على الصوت في الوقت الحقيقي

في النهاية، يعزز MAI-Transcribe-1 مكانة مايكروسوفت في سباق الذكاء الاصطناعي الصوتي، ويمهد الطريق لتطبيقات أكثر دقة وسرعة في التعامل مع اللغة البشرية.

مقالات مشابهة