Hume تكشف عن EVI 3: نموذج صوتي يتفوق على GPT-4o
كشفت شركة Hume عن نموذج EVI 3 الجديد، الذي يقدّم تجربة تفاعلية صوتية مخصصة ويتفوّق على GPT-4o في اختبارات التعبير والتفاعل.

تفاصيل إطلاق النموذج من Hume
في خطوة جديدة نحو التفاعل الصوتي الطبيعي مع الذكاء الاصطناعي، أعلنت شركة Hume عن الجيل الثالث من نماذجها الصوتية EVI 3، وهو نموذج لغوي صوتي يجمع بين الفهم، اللغة، والصوت في وقت واحد.
- تجربة تفاعلية كاملة بالصوت: يتيح للمستخدم التحدث مع الذكاء الاصطناعي بالصوت، ليتلقى ردًا بصوت واقعي ومعبّر في زمن استجابة قريب من اللحظة.
- أداء يفوق GPT-4o: تفوق على GPT-4o في سبعة معايير: جودة الصوت، التعاطف، الأسلوب، الانقطاع، السرعة، التعبير الطبيعي، والمرح في الحوار.
- أكثر من 100 ألف صوت مخصص:
يمكن لـ EVI 3 التحدث بأي صوت أو شخصية يتم إنشاؤها من خلال التعليمات النصية، دون الحاجة لتدريب خاص لكل صوت. - تحكم عاطفي وصوتي متقدم:
يستطيع النموذج التعبير عن أكثر من 30 نمطًا من المشاعر والنبرات مثل: الغضب، السخرية، الهمس، الفخر، والمرح. - فهم نبرة المستخدم:
تم اختباره في التعرف على نبرة صوت المستخدم لتحديد المشاعر بدقة مثل الحزن، الفرح، الغضب، المفاجأة وغيرها. - استجابة سريعة بزمن منخفض:
يقدّم النموذج ردودًا صوتية بزمن استجابة يتراوح بين 0.9 إلى 1.4 ثانية، متفوقًا على GPT-4o وGemini.
الأهداف المستقبلية لنموذج EVI 3
تسعى Hume إلى تطوير EVI 3 ليكون حجر الأساس في التفاعل الصوتي الذكي:
- دعم لغات إضافية مثل الفرنسية، الألمانية، والإسبانية قريبًا
- إطلاق واجهات API للمطورين خلال الأسابيع القادمة
- تحسين الأداء في المحادثات المعقدة والتفاعلات الطويلة
- تعزيز قدرات النموذج في التفاعل مع أدوات البحث والاستدلال أثناء المحادثة
مع إطلاق النموذج، تضع Hume معيارًا جديدًا لمستقبل التفاعل الصوتي، مقدّمة نموذجًا ذكيًا ومعبّرًا يتفوق على أكبر منافسيه في تجربة المحادثة.