Bland تطلق تقنية صوتية ثورية مدعومة بالذكاء الاصطناعي
شركة Bland تعلن عن محرك تحويل النص إلى كلام جديد كلياً، يوفر صوتاً بشرياً واقعياً وتحكماً غير مسبوق في الأسلوب والعاطفة باستخدام نماذج LLM.

تفاصيل الخبر
أعلنت شركة Bland عن إطلاق نظام TTS جديد يعتمد على نماذج اللغة الكبيرة (LLMs) لتوليد أصوات واقعية تتميز بالعاطفة والدقة.
- النظام الجديد يتجاوز الأساليب التقليدية في تحويل النص إلى كلام ويستخدم نموذجاً يتوقع الصوت مباشرة من النص.
- يعتمد على بيانات ضخمة تحتوي على محادثات بصوتين مع تسميات دقيقة وتواقيت متزامنة.
- يتم تدريب النموذج على ربط النص بأنماط صوتية محددة بدقة شديدة باستخدام وحدة ترميز صوتية SNAC.
- يوفر النظام إمكانية تقليد الأصوات بدقة عالية من خلال 3 إلى 6 أمثلة فقط للصوت المطلوب.
- يدعم تأثيرات صوتية غير كلامية مثل <barking>، مما يفتح المجال لدمج المؤثرات بسلاسة.
- يسمح بنقل الأسلوب من متحدث لآخر، ويدعم اللغات المتعددة وتكييف النطق حسب المجال الصناعي.
- يشمل آليات حماية من التكرار الصوتي وتحسينات في الأداء الفوري والتعامل مع جودة الصوت.
الأهداف المستقبلية
تسعى شركة Bland إلى تطوير النظام عبر عدة مسارات تقنية متقدمة:
- تطوير ترميز هرمي متعدد المستويات لتحسين جودة الصوت وتقليل استخدام الذاكرة.
- دمج السياق البصري والبيئي في عملية توليد الكلام لتحسين الطبيعة البشرية في التفاعل.
- بناء أنظمة تعليم مستمر تسمح للنموذج بتحسين أدائه من خلال الاستخدام الفعلي دون المساس بالخصوصية.
- الموازنة بين التخصيص العام للنموذج والتكيف حسب المجالات المتخصصة لتحقيق أفضل أداء في الاستخدامات الصناعية.
يمثل هذا الإنجاز من Bland خطوة كبيرة نحو جعل التواصل الصوتي مع الحواسيب أكثر إنسانية وتعبيراً. التقنية الجديدة لا تغيّر الصوت فقط، بل تعيد تعريف كيفية تفاعلنا مع التكنولوجيا.