OpenAI تطلق نماذج صوتية جديدة بقدرات تفكير متقدمة

أعلنت OpenAI عن إطلاق مجموعة جديدة من النماذج الصوتية ضمن واجهات API، تشمل GPT-Realtime-2 وGPT-Realtime-Translate وGPT-Realtime-Whisper، بهدف تطوير جيل أكثر ذكاءً وطبيعية من الوكلاء الصوتيين المعتمدين على الذكاء الاصطناعي.

تفاصيل الخبر

تواصل OpenAI تعزيز تقنيات الصوت والحديث المباشر، مع التركيز على جعل التفاعل مع الذكاء الاصطناعي أكثر سلاسة وقرباً من المحادثات البشرية الطبيعية.

  • النموذج الجديد GPT-Realtime-2 يقدم قدرات تفكير بمستوى قريب من GPT-5 أثناء المحادثات الصوتية المباشرة.
  • النظام يستطيع استخدام عدة أدوات في الوقت نفسه خلال الحوار الصوتي.
  • النموذج يمكنه التحدث أثناء التفكير وتنفيذ المهام دون الحاجة لتوقفات طويلة داخل المحادثة.
  • OpenAI حسّنت التحكم في نبرة الصوت وطريقة الحديث لزيادة الواقعية.
  • في اختبار Big Bench Audio حقق النموذج نسبة 96.6% مقارنة بـ 81.4% للإصدار السابق.
  • الشركة أطلقت أيضاً GPT-Realtime-Translate للترجمة الصوتية الفورية بأكثر من 70 لغة.
  • نموذج GPT-Realtime-Whisper يوفر تحويل الكلام إلى نص بشكل مباشر عبر البث الحي.
  • التحديثات الجديدة تمنح المطورين مجموعة متكاملة لبناء وكلاء صوتيين قادرين على التفاعل وتنفيذ المهام المعقدة.
  • شركات مثل Zillow وPriceline وDeutsche Telekom بدأت بالفعل استخدام النماذج الجديدة.
  • الاستخدامات الحالية تشمل وكلاء عقاريين ذكيين، إدارة الحجوزات الصوتية، وخدمات دعم العملاء التفاعلية.

الأهداف المستقبلية

تعكس هذه الخطوة تحولاً واضحاً في مستقبل الذكاء الاصطناعي نحو التفاعل الصوتي الطبيعي بدلاً من الاعتماد الكامل على النصوص.

  • OpenAI تسعى إلى تطوير مساعدين صوتيين قادرين على التفكير وتنفيذ المهام بشكل فوري.
  • النماذج الجديدة قد تقلل الفجوة بين المحادثات البشرية والتفاعل مع الذكاء الاصطناعي.
  • الشركة تستهدف قطاعات مثل خدمة العملاء، السفر، الترجمة، والعقارات عبر حلول صوتية متقدمة.
  • تقنيات الترجمة الفورية قد تفتح الباب لتواصل أسهل بين المستخدمين بمختلف اللغات.
  • التطوير المستمر في الذكاء الصوتي يشير إلى أن الجيل القادم من الوكلاء الذكيين سيكون قائماً على الحديث المباشر أكثر من الكتابة التقليدية.

في النهاية، تؤكد تحديثات OpenAI أن مستقبل الذكاء الاصطناعي يتجه نحو التفاعل الصوتي الذكي والمتواصل، حيث تصبح المحادثة الطبيعية وتنفيذ المهام في الوقت الحقيقي جزءاً أساسياً من تجربة المستخدم اليومية.

مقالات مشابهة