Alibaba تطلق Qwen3.5-Omni: نموذج ذكاء اصطناعي متعدد الوسائط

أعلنت Alibaba عن إصدار Qwen3.5-Omni، نموذج ذكاء اصطناعي متعدد الوسائط قادر على معالجة النصوص والصور والصوت والفيديو، مع ميزة فريدة تسمى Audio-Visual Vibe Coding لبناء التطبيقات مباشرة من المدخلات الصوتية والمرئية.

تفاصيل الخبر

يُعد Qwen3.5-Omni الجيل الأحدث من سلسلة Qwen، ويتميز بدعم كامل للوسائط المتعددة، مع تحسينات كبيرة في القدرات اللغوية والتفاعلية:

معالجة متعددة الوسائط: النموذج قادر على التعامل مع النصوص والصور والصوت والفيديو، ويستوعب أكثر من 10 ساعات من الصوت و400 ثانية من المحتوى المرئي بدقة 720p.
التدريب الضخم: تم تدريبه مسبقًا على بيانات نصية وبصرية وصوتية تزيد عن 100 مليون ساعة، مما يعزز قدراته على الفهم والتوليد عبر جميع الوسائط.
قدرات لغوية واسعة: يدعم التعرف على الكلام بـ113 لغة ولهجة، وتوليد الصوت بـ36 لغة ولهجة.
ميزات متقدمة: تشمل إنشاء تسميات توضيحية مفصلة، وصف شخصيات وفصل زمني للوسائط، وأداء الترميز المباشر من التعليمات الصوتية والمرئية عبر Audio-Visual Vibe Coding.
واجهة API فورية وغير متصلة: تتيح إمكانيات البحث عبر الويب، التحكم الصوتي الكامل، نسخ الصوت، والتحكم في أسلوب ومظهر الحوار.
تحسين التفاعلية الصوتية: تقنية ARIA تساعد على تحسين التزامن بين النص والصوت أثناء التفاعل الحي، ما يقلل من الأخطاء ويزيد من طبيعية الكلام.
أداء متفوق: تفوق Qwen3.5-Omni على Gemini-3.1 Pro في مهام الفهم الصوتي والمرئي، مع نتائج متقدمة في جميع اختبارات S2TT والترجمة والتعرف على الكلام.

الأهداف المستقبلية

تركز Alibaba من خلال Qwen3.5-Omni على:

تطوير قدرات الذكاء الاصطناعي متعددة الوسائط: توفير أدوات متكاملة لفهم وإنشاء محتوى نصي، بصري، وصوتي.
تحسين التفاعل الفوري: تمكين المستخدمين من التواصل مع AI بطريقة طبيعية وسلسة مع التحكم الكامل في الصوت والأسلوب.
تمكين الابتكار الصوتي والمرئي: بناء تطبيقات مباشرة من التعليمات الصوتية والمرئية دون الحاجة للبرمجة التقليدية.
توسيع نطاق اللغات: دعم لغات ولهجات متعددة لتعزيز الوصول العالمي واستخدام AI في مختلف الأسواق.

مع Qwen3.5-Omni، تتقدم Alibaba في مجال الذكاء الاصطناعي متعدد الوسائط، مما يفتح آفاقًا جديدة لبناء تطبيقات وتفاعلات غنية تعتمد على الصوت والفيديو والنصوص في تجربة واحدة.