Hume تكشف عن EVI 3: نموذج صوتي يتفوق على GPT-4o

كشفت شركة Hume عن نموذج EVI 3 الجديد، الذي يقدّم تجربة تفاعلية صوتية مخصصة ويتفوّق على GPT-4o في اختبارات التعبير والتفاعل.

تفاصيل إطلاق النموذج من Hume

في خطوة جديدة نحو التفاعل الصوتي الطبيعي مع الذكاء الاصطناعي، أعلنت شركة Hume عن الجيل الثالث من نماذجها الصوتية EVI 3، وهو نموذج لغوي صوتي يجمع بين الفهم، اللغة، والصوت في وقت واحد.

تجربة تفاعلية كاملة بالصوت: يتيح للمستخدم التحدث مع الذكاء الاصطناعي بالصوت، ليتلقى ردًا بصوت واقعي ومعبّر في زمن استجابة قريب من اللحظة.
أداء يفوق GPT-4o: تفوق على GPT-4o في سبعة معايير: جودة الصوت، التعاطف، الأسلوب، الانقطاع، السرعة، التعبير الطبيعي، والمرح في الحوار.
أكثر من 100 ألف صوت مخصص:
يمكن لـ EVI 3 التحدث بأي صوت أو شخصية يتم إنشاؤها من خلال التعليمات النصية، دون الحاجة لتدريب خاص لكل صوت.
تحكم عاطفي وصوتي متقدم:
يستطيع النموذج التعبير عن أكثر من 30 نمطًا من المشاعر والنبرات مثل: الغضب، السخرية، الهمس، الفخر، والمرح.
فهم نبرة المستخدم:
تم اختباره في التعرف على نبرة صوت المستخدم لتحديد المشاعر بدقة مثل الحزن، الفرح، الغضب، المفاجأة وغيرها.
استجابة سريعة بزمن منخفض:
يقدّم النموذج ردودًا صوتية بزمن استجابة يتراوح بين 0.9 إلى 1.4 ثانية، متفوقًا على GPT-4o وGemini.