OpenAI تطلق gpt-realtime لتعزيز قدرات وكلاء الصوت

أعلنت OpenAI عن إصدار gpt-realtime من واجهة Realtime API مع نموذج حديث للصوت، مزود بإدراك الإشارات غير اللفظية ودعم الصور، لتعزيز تفاعل الوكلاء الصوتيين مع المستخدمين.

تفاصيل الخبر

أبرز ميزات الإصدار الجديد:

  • gpt-realtime يتيح التفاعل الصوتي اللحظي مع اكتشاف الإشارات غير اللفظية وتغيير اللغة بسلاسة.
  • حقق النموذج دقة 82.8% في اختبارات فهم الصوت مقارنة بـ 65.6% في الإصدار السابق.
  • دعم Model Context Protocol (MCP) لربط الوكلاء الصوتيين بمصادر بيانات وأدوات خارجية بدون تكاملات مخصصة.
  • إمكانية التعامل مع مدخلات الصور مثل الصور الفوتوغرافية أو لقطات الشاشة لتفسير المعلومات المرئية ضمن الحوار.
  • يتيح التحديث دمج الوكلاء الصوتيين بسهولة في خدمات دعم العملاء والتطبيقات الصوتية المخصصة.

الأهداف المستقبلية

تركز OpenAI على:

  • تعزيز قدرات التفاعل البشري الطبيعي للوكلاء الصوتيين في مختلف اللغات والسيناريوهات.
  • تمكين المطورين والشركات من دمج الذكاء الاصطناعي الصوتي بسلاسة مع البيانات الخارجية والأدوات الأخرى.
  • توسيع الوظائف لتشمل تفسير الصور والفيديوهات في الوقت الحقيقي داخل المحادثات.
  • دعم الاعتماد التجاري للوكلاء الصوتيين في مجالات مثل خدمة العملاء والتطبيقات التعليمية والصحية.

إطلاق gpt-realtime يمثل خطوة كبيرة نحو جعل الوكلاء الصوتيين أكثر ذكاءً وتفاعلاً، مما يفتح المجال لتطبيقات عملية واسعة في قطاع الأعمال وخدمة العملاء.

مقالات مشابهة