Hunyuan-Large-Vision من Tencent يدخل قائمة أقوى نماذج الرؤية
أطلقت Tencent نموذج Hunyuan-Large-Vision متعدد الوسائط بقدرات متقدمة، ليحجز المرتبة السادسة عالميًا في Vision Arena بجانب نماذج مثل GPT-4.5.

تفاصيل الخبر
كشفت Tencent عن نموذجها الجديد Hunyuan-Large-Vision، وهو نموذج فهم متعدد الوسائط يعتمد على بنية Mixture of Experts (MoE) ويضم 52 مليار معلم مفعّل، ما يمنحه توازناً بين الأداء والكفاءة.
يتميز النموذج بدمج قدرات معالجة الصور والفيديو وبيانات ثلاثية الأبعاد، مع دعم مدخلات بدقة مختلفة دون الحاجة لتهيئة أو تحجيم مسبق.
- بنية MoE توفر أداءً قويًا مع كفاءة في استخدام الموارد.
- دعم لمعالجة الصور، الفيديو، وبيانات 3D بمرونة عالية.
- مشفر بصري (ViT) مع وصلات MLP آلية لزيادة دقة الفهم.
- تدريب على أكثر من 400 مليار رمز متعدد الوسائط لتحسين الاستجابة.
- إدراج رسمي في المرتبة السادسة في Vision Arena حسب تحديث 10 أغسطس 2025.
الأهداف المستقبلية
تسعى Tencent إلى تعزيز مكانتها في سوق النماذج متعددة الوسائط عبر تطوير مستمر لقدرات الفهم والتحليل البصري.
- تحسين دقة الاستجابة للمدخلات المعقدة والمتنوعة.
- دعم تطبيقات في مجالات الواقع المعزز وتحليل الفيديو المتقدم.
- المنافسة المباشرة مع نماذج OpenAI وAnthropic في مجال الرؤية.
- توسيع نطاق البيانات التدريبية لتعزيز قدرات الاستدلال متعدد الوسائط.
يضع Hunyuan-Large-Vision من Tencent معيارًا جديدًا في سباق النماذج متعددة الوسائط، معززًا موقع الشركة بين عمالقة الذكاء الاصطناعي على الساحة العالمية.
