AI2 تطلق Molmo 2: نموذج مفتوح لفهم الفيديو وتتبع الأحداث بدقة
أعلن معهد Allen Institute for AI (AI2) عن إطلاق Molmo 2، الجيل الجديد من عائلة نماذج Molmo المفتوحة، والذي يقدّم قفزة نوعية في فهم الفيديو، التتبع الزمني، العدّ، وتحديد اللحظات الدقيقة داخل المقاطع. يأتي هذا الإصدار امتداداً لنجاح Molmo الأول في فهم الصور، لكنه ينقل القدرات نفسها إلى مستوى الفيديو متعدد الإطارات والزمن.

ما هو Molmo 2؟
هو نموذج ذكاء اصطناعي متعدد الوسائط (صور + فيديو + نص) قادر على:
- تتبع الأجسام عبر الإطارات حتى مع الاختفاء والعودة
- عدّ الأحداث مع إرجاع أدلة مرئية مكانية وزمنية
- تحديد لحظات دقيقة داخل الفيديو (متى وأين حدث شيء ما)
- الإجابة على أسئلة معقدة تتطلب فهم التغير عبر الزمن
إصدارات Molmo 2
يتوفر Molmo 2 بثلاثة إصدارات تخدم احتياجات مختلفة:
- Molmo 2 (8B): أقوى نسخة إجمالاً، مبنية على Qwen 3، ومتفوقة في التتبع والفهم المكاني والزمني
- Molmo 2 (4B): نسخة أخف وأكثر كفاءة مع أداء قريب جداً من 8B
- Molmo 2-O (7B): نسخة مفتوحة بالكامل مبنية على OLMo، تمنح الباحثين تحكماً كاملاً في كل مكونات النموذج
اللافت أن Molmo 2 (8B) يتفوق على Molmo القديم (72B) في العديد من اختبارات التوجيه المكاني والتتبع، مع كفاءة أعلى بكثير.
أداء متقدم على اختبارات الفيديو
حقق Molmo 2 نتائج رائدة بين النماذج المفتوحة في:
- تتبع الفيديو: الأفضل إجمالاً، متفوقاً على نماذج مفتوحة ومتخصصة، بل وتجاوز أنظمة مغلقة مثل Gemini 3 Pro
- العدّ المعتمد على التوجيه: لا يقدّم رقماً فقط، بل يُظهر نقاطاً زمنية ومكانية لكل حدث
- فهم الصور المتعددة والفيديو القصير: أداء قريب من GPT-5 وGPT-5 mini، ومتقدم على Gemini 2.5 Pro
- تفضيل المستخدمين: يتصدر النماذج المفتوحة، متجاوزاً GPT-5 وClaude Sonnet 4.5 في هذا التقييم
من الإشارة في الصور إلى الذكاء الزمني
بينما اشتهر Molmo الأول بميزة “الإشارة داخل الصورة”، يوسّع مولمو 2 هذا المفهوم ليشمل المكان والزمان معاً.
على سبيل المثال:
- سؤال: كم مرة أمسك الروبوت بالمكعب الأحمر؟
يعيد النموذج نقاطاً وإطارات زمنية لكل عملية إمساك - سؤال: متى سقط الكوب؟
يعيد وقت السقوط ومكانه داخل الفيديو
هذا يفتح الباب لتطبيقات مثل:
- تتبع الأجسام مع معرفات ثابتة
- وصف فيديو كثيف وقابل للبحث
- اكتشاف الشذوذ والأخطاء
- تحليل الفيديوهات الصناعية والعلمية
بيانات وتدريب عالي الجودة
تم تدريب مولمو 2 على أكثر من 9.19 مليون فيديو فقط، أي أقل من ثُمن البيانات المستخدمة في نماذج منافسة مثل Meta PerceptionLM، مع الاعتماد على تنظيم دقيق للبيانات والتوجيه المكاني.
كما أطلق AI2 تسع مجموعات بيانات جديدة مفتوحة، تشمل توصيفاً كثيفاً للفيديو، تتبعاً زمنياً، وعدّاً موجهاً.
يمثل Molmo 2 خطوة مهمة نحو نماذج فيديو مفتوحة تفهم ما يحدث، وأين، ومتى، وليس فقط وصف ما يظهر في إطار واحد.
