Kyutai تطلق Kyutai TTS ونظام Unmute كبرمجيات مفتوحة المصدر
أعلنت Kyutai Labs عن إطلاق نموذج Kyutai TTS لتحويل النص إلى كلام ونظام Unmute (للتكامل بين صوت ونص)، كلاهما الآن مفتوح المصدر ومتوافق للاستخدام الفوري.

ما الجديد من Kyutai؟
تم إصدار أدوات صوتية جديدة ومبتكرة للمجتمع التقني:
- Kyutai TTS: نموذج لتحويل النص إلى كلام يتميز بـ:
- زمن تأخير أولي يبلغ حوالي 220 مللي ثانية، ويخدم 32 مستخدمًا بتأخير 350 مللي ثانية على بطاقة L40S.
- القدرة على التدفق في الوقت الحقيقي مع النص الناتج من LLM، مما يلغي الحاجة لوجود النص كامل في البداية.
- دعم استخراج طوابع كلمات وقتية لإنشاء ترجمات فورية وتجاوز التداخل عند الردود الصوتية .
- دعم نسخ صوتي عبر عينات مدتها 10 ثوانٍ مع احترام إعلام وموافقة المستخدم .
- Unmute: نظام صوتي متكامل يجعل أي نموذج نصي كبير قادرًا على الاستماع والتحدث:
- يجمع بين TTS وSTT المبنية داخل حاويات، مدعومة بواسطة واجهة واجهات برمجة نصوص أُكشفت مفتوحة المصدر .
- يسمح بإدخال صوت المستخدم، تحويله إلى نص، ثم إخراج رد صوتي عبر النموذج النصي .
- قيد الترخيص MIT ومستضاف على GitHub تحت اسم “unmute”.
لماذا يُهم هذا الاعلان؟
تحرير هذه الأدوات كمصادر مفتوحة يُمثل تغييرًا مهمًا في عالم TTS وصوتيات الذكاء الاصطناعي:
- يقدم حل صوتي كامل مفتوح المصدر يمكن لأي مطور تشغيله على جهاز GPU واحد.
- سرعة النظام تجعلها مناسبة للتفاعلات المباشرة، الدردشة الصوتية، أو مساعدات شخصية ذكية.
- كون النموذج مفتوحًا يعني إمكانية التخصيص والاندماج في مشاريع متعددة دون قيود ترخيصية.
مجتمع r/LocalLLaMA أشار إلى أن Kyutai TTS يعد “أول نموذج TTS مفتوح المصدر يدعم التدفق النصي”، ويشيد بقدرته على التعامل مع جمل طويلة دون مشكلة.
كيف تبدأ؟
للبدء فورًا مع هذه الأدوات:
- زر صفحات GitHub وKyutai.org للحصول على ملفات الأكواد والنماذج:
- نموذج Kyutai TTS عبر مستودع
delayed-streams-modeling
. - نظام Unmute عبر مستودع
unmute
.
- نموذج Kyutai TTS عبر مستودع
- يمكنك تثبيت وتشغيل الخدمات باستخدام Docker Compose أو توزيعات حسب احتياجك.
- الاختبار التجريبي على Unmute.sh مباشر عبر المتصفح.
طرح Kyutai TTS وUnmute كمشاريع مفتوحة المصدر يمثل تقدمًا كبيرًا في مجال تحويل النص إلى كلام والتفاعل الصوتي في الوقت الحقيقي. بفضل سرعته ومرونته، يمكن تطوير مساعدات صوتية متقدمة بسهولة. المطورون وصناع المحتوى يمكنهم الآن دمجه في مشاريعهم لتقديم تجارب صوتية أكثر واقعية وتفاعلية.