OpenAI تطلق gpt-realtime لتعزيز قدرات وكلاء الصوت
أعلنت OpenAI عن إصدار gpt-realtime من واجهة Realtime API مع نموذج حديث للصوت، مزود بإدراك الإشارات غير اللفظية ودعم الصور، لتعزيز تفاعل الوكلاء الصوتيين مع المستخدمين.

تفاصيل الخبر
أبرز ميزات الإصدار الجديد:
- gpt-realtime يتيح التفاعل الصوتي اللحظي مع اكتشاف الإشارات غير اللفظية وتغيير اللغة بسلاسة.
- حقق النموذج دقة 82.8% في اختبارات فهم الصوت مقارنة بـ 65.6% في الإصدار السابق.
- دعم Model Context Protocol (MCP) لربط الوكلاء الصوتيين بمصادر بيانات وأدوات خارجية بدون تكاملات مخصصة.
- إمكانية التعامل مع مدخلات الصور مثل الصور الفوتوغرافية أو لقطات الشاشة لتفسير المعلومات المرئية ضمن الحوار.
- يتيح التحديث دمج الوكلاء الصوتيين بسهولة في خدمات دعم العملاء والتطبيقات الصوتية المخصصة.
الأهداف المستقبلية
تركز OpenAI على:
- تعزيز قدرات التفاعل البشري الطبيعي للوكلاء الصوتيين في مختلف اللغات والسيناريوهات.
- تمكين المطورين والشركات من دمج الذكاء الاصطناعي الصوتي بسلاسة مع البيانات الخارجية والأدوات الأخرى.
- توسيع الوظائف لتشمل تفسير الصور والفيديوهات في الوقت الحقيقي داخل المحادثات.
- دعم الاعتماد التجاري للوكلاء الصوتيين في مجالات مثل خدمة العملاء والتطبيقات التعليمية والصحية.
إطلاق gpt-realtime يمثل خطوة كبيرة نحو جعل الوكلاء الصوتيين أكثر ذكاءً وتفاعلاً، مما يفتح المجال لتطبيقات عملية واسعة في قطاع الأعمال وخدمة العملاء.
