Hugging Face

SmolVLM2 أصغر نموذج ذكاء اصطناعي لفهم الفيديو من Hugging Face

أعلنت Hugging Face عن SmolVLM2، وهو أصغر نموذج ذكاء اصطناعي لتحليل وفهم الفيديو محليًا على الهواتف وأجهزة الكمبيوتر دون الحاجة إلى خوادم قوية أو اتصال سحابي.

تفاصيل الخبر

قدّم فريق Hugging Face عائلة SmolVLM2 كنقلة نوعية في تشغيل نماذج الفيديو المتقدمة على الأجهزة اليومية.

  • تتضمن العائلة نماذج بحجم 256 مليون معامل، رغم صغر حجمها، فإنها تضاهي أداء الأنظمة الأكبر.
  • تم تطوير تطبيق عملي للآيفون يسمح بالتحليل المحلي للفيديو دون الحاجة للاتصال بالإنترنت.
  • تتضمن المنظومة تكاملًا مع أنظمة الملاحة عبر الفيديو باستخدام اللغة الطبيعية.
  • الطراز الرئيسي بسعة 2.2 مليار معامل يتفوق على النماذج المشابهة في الاختبارات القياسية، ويعمل على أجهزة محدودة الإمكانيات.
  • النماذج متاحة بعدة تنسيقات، بما في ذلك MLX لأجهزة Apple، مع دعم Python وSwift لسهولة النشر الفوري.

الأهداف المستقبلية

يهدف فريق Hugging Face إلى تعزيز دور SmolVLM2 في:

  • تحسين تشغيل نماذج الذكاء الاصطناعي على الأجهزة الشخصية دون الحاجة للسحابة.
  • دعم تطبيقات تحليل الفيديو مع الحفاظ على الخصوصية وحماية البيانات.
  • تطوير تكامل أوسع مع أنظمة الهواتف الذكية لتقديم تجربة أكثر ذكاءً وسلاسة.
  • توفير دعم إضافي للمطورين لتوسيع نطاق التطبيقات التي تستفيد من هذه التقنية.

مع SmolVLM2، تقترب Hugging Face من جعل الذكاء الاصطناعي أكثر كفاءة على الأجهزة المحمولة، فهل نشهد مستقبلًا يعتمد على التحليل المحلي للفيديو دون الحاجة إلى الإنترنت؟

مقالات مشابهة