Alibaba تطلق Qwen3.5-Omni: نموذج ذكاء اصطناعي متعدد الوسائط
أعلنت Alibaba عن إصدار Qwen3.5-Omni، نموذج ذكاء اصطناعي متعدد الوسائط قادر على معالجة النصوص والصور والصوت والفيديو، مع ميزة فريدة تسمى Audio-Visual Vibe Coding لبناء التطبيقات مباشرة من المدخلات الصوتية والمرئية.

تفاصيل الخبر
يُعد Qwen3.5-Omni الجيل الأحدث من سلسلة Qwen، ويتميز بدعم كامل للوسائط المتعددة، مع تحسينات كبيرة في القدرات اللغوية والتفاعلية:
- معالجة متعددة الوسائط: النموذج قادر على التعامل مع النصوص والصور والصوت والفيديو، ويستوعب أكثر من 10 ساعات من الصوت و400 ثانية من المحتوى المرئي بدقة 720p.
- التدريب الضخم: تم تدريبه مسبقًا على بيانات نصية وبصرية وصوتية تزيد عن 100 مليون ساعة، مما يعزز قدراته على الفهم والتوليد عبر جميع الوسائط.
- قدرات لغوية واسعة: يدعم التعرف على الكلام بـ113 لغة ولهجة، وتوليد الصوت بـ36 لغة ولهجة.
- ميزات متقدمة: تشمل إنشاء تسميات توضيحية مفصلة، وصف شخصيات وفصل زمني للوسائط، وأداء الترميز المباشر من التعليمات الصوتية والمرئية عبر Audio-Visual Vibe Coding.
- واجهة API فورية وغير متصلة: تتيح إمكانيات البحث عبر الويب، التحكم الصوتي الكامل، نسخ الصوت، والتحكم في أسلوب ومظهر الحوار.
- تحسين التفاعلية الصوتية: تقنية ARIA تساعد على تحسين التزامن بين النص والصوت أثناء التفاعل الحي، ما يقلل من الأخطاء ويزيد من طبيعية الكلام.
- أداء متفوق: تفوق Qwen3.5-Omni على Gemini-3.1 Pro في مهام الفهم الصوتي والمرئي، مع نتائج متقدمة في جميع اختبارات S2TT والترجمة والتعرف على الكلام.
الأهداف المستقبلية
تركز Alibaba من خلال Qwen3.5-Omni على:
- تطوير قدرات الذكاء الاصطناعي متعددة الوسائط: توفير أدوات متكاملة لفهم وإنشاء محتوى نصي، بصري، وصوتي.
- تحسين التفاعل الفوري: تمكين المستخدمين من التواصل مع AI بطريقة طبيعية وسلسة مع التحكم الكامل في الصوت والأسلوب.
- تمكين الابتكار الصوتي والمرئي: بناء تطبيقات مباشرة من التعليمات الصوتية والمرئية دون الحاجة للبرمجة التقليدية.
- توسيع نطاق اللغات: دعم لغات ولهجات متعددة لتعزيز الوصول العالمي واستخدام AI في مختلف الأسواق.
مع Qwen3.5-Omni، تتقدم Alibaba في مجال الذكاء الاصطناعي متعدد الوسائط، مما يفتح آفاقًا جديدة لبناء تطبيقات وتفاعلات غنية تعتمد على الصوت والفيديو والنصوص في تجربة واحدة.
