Canopy Labs تطلق Orpheus 3B: نموذج لتحويل النص لكلام بAI

تقنية جديدة تقدم تجربة صوتية طبيعية وواقعية مع إمكانيات استثنائية في الاستنساخ الفوري والتحكم في العاطفة.

أعلنت Canopy Labs عن إصدار نموذج Orpheus 3B 0.1 Finetuned، وهو نموذج ذكاء اصطناعي قائم على Llama مصمم لتقديم تجربة متقدمة في تحويل النص إلى كلام (TTS). يهدف هذا النموذج إلى تحقيق مستوى غير مسبوق من الواقعية في الصوت، مع أداء سريع يناسب التطبيقات التي تتطلب البث في الوقت الفعلي.

أبرز الميزات

أبرز ميزات Orpheus 3B من Canopy Labs:

نطق طبيعي ومحاكاة بشرية: يوفر إيقاعًا ونبرة صوت واقعية تتفوق على النماذج المغلقة المنافسة.
استنساخ صوتي فوري: يمكنه محاكاة الأصوات دون الحاجة إلى تدريب إضافي، مما يتيح استخدامات واسعة.
تحكم في العاطفة والتنغيم: يتيح للمستخدمين توجيه النبرة والمشاعر باستخدام علامات بسيطة لتعزيز التعبير الصوتي.
زمن استجابة منخفض: يحقق 200 مللي ثانية في وضع البث المباشر، مع إمكانية تقليلها إلى 100 مللي ثانية عبر تدفق الإدخال.

إمكانيات التشغيل المحلي

لمحبي التشغيل المحلي، يوفر مجتمع المطورين عميلًا خفيف الوزن متوافقًا مع LM Studio، لا يحتاج لأكثر من 3 جيجابايت من الذاكرة، ويدعم أصواتًا متعددة دون الحاجة لاستخدام مفاتيح API السحابية.

كيفية الوصول إلى النموذج

يتوفر Orpheus 3B عبر Hugging Face، حيث يمكن للمستخدمين تنزيله بعد الموافقة على الشروط والأحكام. يمكن أيضًا العثور على إرشادات التنفيذ في مستودعات GitHub وColab inference notebook، والتي توفر خطوات تفصيلية لتشغيل النموذج محليًا.

المسؤولية الأخلاقية

يُحذر المستخدمون من استخدام النموذج في تقليد الأصوات دون موافقة أصحابها، أو لنشر المعلومات المضللة أو لأي أغراض غير قانونية. باستخدام هذا النموذج، يوافق المستخدمون على الامتثال لجميع القوانين والمعايير الأخلاقية المعمول بها.