Microsoft تطلق MAI-Transcribe-1 بدقة قياسية للتفريغ الصوتي
أعلنت شركة Microsoft عن إطلاق نموذجها MAI-Transcribe-1 الجديد في مرحلة المعاينة العامة، ليقدم مستوى غير مسبوق من دقة تحويل الصوت إلى نص عبر 25 لغة مختلفة.

تفاصيل نموذج MAI-Transcribe-1 الجديد
يمثل هذا النموذج خطوة كبيرة في تطوير تقنيات التعرف على الكلام، حيث يجمع بين الدقة العالية والسرعة والكفاءة في بيئات الاستخدام الواقعية.
- يحقق أفضل دقة في السوق وفق معيار Word Error Rate (WER) عبر 25 لغة
- يتفوق على نماذج منافسة مثل Whisper-large-v3 وGemini 3.1 Flash
- يسجل متوسط خطأ منخفض يصل إلى 3.9% فقط (كلما كان أقل كان أفضل)
- يدعم مجموعة واسعة من اللغات واللهجات مع أداء ثابت
- أسرع بمعدل 2.5 مرة مقارنة بحلول Microsoft السابقة
- مصمم للعمل بكفاءة في البيئات الصعبة مثل الضوضاء أو تداخل الأصوات
- متاح عبر Microsoft Foundry ويدعم التكامل مع تطبيقات متعددة
- تكلفة الاستخدام تبلغ حوالي 0.36 دولار لكل ساعة صوت
الأهداف المستقبلية لتقنيات الصوت في Microsoft
تسعى Microsoft من خلال هذا النموذج إلى تطوير بنية متكاملة لتجارب الصوت المدعومة بالذكاء الاصطناعي.
- تحسين دقة المساعدات الصوتية مثل Copilot
- دعم تطبيقات الاجتماعات مثل التفريغ التلقائي داخل Microsoft Teams
- تمكين بناء وكلاء صوتيين (Voice Agents) أكثر ذكاءً وفعالية
- تسهيل تحليل بيانات مراكز الاتصال واستخراج insights
- دعم إنشاء الترجمة الفورية والنصوص التوضيحية للفيديوهات
- تطوير تجارب تفاعلية تعتمد على الصوت في الوقت الحقيقي
في النهاية، يعزز MAI-Transcribe-1 مكانة مايكروسوفت في سباق الذكاء الاصطناعي الصوتي، ويمهد الطريق لتطبيقات أكثر دقة وسرعة في التعامل مع اللغة البشرية.
