إطلاق Kimi-Audio: نموذج صوتي مفتوح المصدر من Moonshot AI

أطلقت شركة Moonshot AI نموذج Kimi-Audio مفتوح المصدر، يُعدّ من أحدث نماذج الذكاء الاصطناعي الصوتي المتقدمة، والمتفوقة في التعرف على الكلام، وتحويل الصوت إلى نص، والمحادثات الصوتية المباشرة باستخدام الصوت الطبيعي.

تفاصيل الخبر

فيما يلي أبرز ما جاء حول إطلاق Kimi-Audio:

  • نموذج صوتي أساسي شامل: صُمّم Kimi-Audio كنموذج صوتي أساسي مفتوح المصدر بقدرات متعددة، تشمل فهم الصوت، وتوليد الصوت، وإجراء المحادثات الصوتية الديناميكية.
  • معايير قياسية حديثة (SOTA): يتفوق على أهم النماذج الحالية في benchماركات التعرف على الكلام وتحويل الصوت للنصّ والاستجابة الصوتية.
  • حجم البيانات الضخم: بُني النموذج باستخدام أكثر من 13 مليون ساعة من بيانات الصوت المتنوعة (خطابية، موسيقية، بيئية) مما عزز قدرته على التعميم عبر مختلف السيناريوهات.
  • بنية هجينة مبتكرة: يعتمد النموذج على معمارية تجمع بين التوكنر الصوتي بتردد 12.5 هرتز وطبقات معالجة متسلسلة مستمدة من LLM، مع وحدات detokenizer متدفقة لتوليد صوت عالي الجودة.
  • إصدار Kimi-Audio-7B: أُطلقت أوزان الإصدار Instruct التي تتيح استخدام النموذج في تطبيقات تدعم الأوامر الصوتية المباشرة مع أدوات تقييم مفتوحة المصدر.
  • أدوات التقييم مفتوحة المصدر: نزّل الفريق مجموعة أدوات Kimi-Audio-Evalkit لتكرار نتائج القياس والمقارنات مع النماذج المرجعية بسهولة.
  • مدى الاستجابة الفورية: يتمتع Kimi-Audio بقدرة على التعامل مع المحادثات الصوتية في الزمن الحقيقي، مما يفتح الباب لتطبيقات مثل المساعدات الافتراضية وخدمات الدعم الصوتي.

الأهداف المستقبلية

يسعى فريق Moonshot AI من خلال النموذج إلى تحقيق عدة رؤى واستراتيجيات مستقبلية:

  • توسيع نطاق النشر عبر دمج Kimi-Audio في منصات الهواتف الذكية والتطبيقات السحابية منخفضة التكلفة.
  • تحسين النماذج الصوتية بإصدار إصدارات أكبر وأصغر حجمًا لتلبية احتياجات الأجهزة ذات الموارد المختلفة.
  • دعم الأبحاث والتطوير من خلال توفير شيفرة المصدر والأوزان والأدوات، ما يحفز المجتمع العلمي لتطوير تطبيقات جديدة قائمة على الصوت.
  • التكامل مع أنظمة الذكاء الاصطناعي متعددة الوسائط لتمكين المحادثات الصوتية المرئية والأنظمة التفاعلية التي تجمع بين الصوت والصورة والنص.

يمثل إطلاق خطوة مهمة نحو democratization حقيقة لتقنيات الذكاء الاصطناعي الصوتي، حيث يُمكّن المطورين والباحثين من الوصول إلى نموذج متكامل وقوي مجانًا، ما يعزز الابتكار ويسرّع تبنّي الخدمات الصوتية الذكية.

مقالات مشابهة