Mistral AI تطلق Voxtral: ثورة جديدة في فهم الكلام

أطلقت Mistral AI عائلة Voxtral مفتوحة المصدر لفهم الكلام، بقدرات متقدمة للتفريغ الصوتي والإجابة على الأسئلة، مع تكلفة منخفضة ومرونة كبيرة للنشر.

تفاصيل الخبر

في خطوة جريئة لدعم واجهات الصوت المتقدمة، أعلنت Mistral AI عن Voxtral كنموذج جديد ومفتوح المصدر لفهم الكلام. يتميز هذا النموذج بعدة مزايا رئيسية:

  • متاح بحجمين مختلفين: 24B للتطبيقات الإنتاجية و 3B للنشر المحلي أو على الحافة.
  • يقدم تفريغ صوتي متطور مع دقة تفوق Whisper وGemini 2.5 Flash.
  • يدعم اللغات المتعددة تلقائيًا مثل الإنجليزية والإسبانية والفرنسية والألمانية والهندية وغيرها.
  • إمكانية طرح الأسئلة مباشرة على المحتوى الصوتي أو إنتاج ملخصات بدون دمج نماذج إضافية.
  • يتيح استدعاء الوظائف من الصوت لتحويل الأوامر الصوتية إلى إجراءات مباشرة.
  • يعمل بتراخيص مفتوحة (Apache 2.0) مع دعم عبر API بسعر يبدأ من 0.001 دولار للدقيقة.

الأهداف المستقبلية

تعمل Mistral AI على تطوير Voxtral ليصبح منصة متكاملة أكثر قوة وتنوعًا، وتشمل خططهم:

  • إضافة تمييز المتحدثين ودعم التعرف على العواطف.
  • دعم الطوابع الزمنية لكل كلمة وتحليل الأصوات غير الكلامية.
  • توسيع النماذج لتشمل سياقات أطول ودمج أعمق مع الأنظمة المؤسسية.
  • توفير أدوات تكييف خاصة بالصناعات مثل المجالات الطبية والقانونية.

Voxtral من Mistral AI يفتح آفاقًا جديدة للتفاعل الصوتي، ويجعل الذكاء الصوتي المتقدم متاحًا ومرنًا للجميع. ترقب المزيد من ابتكارات Mistral قريبًا!

مقالات مشابهة