MIT يكشف عن نموذج ذكاء اصطناعي جديد يربط بين الصوت والرؤية
طور باحثون من MIT نموذج ذكاء اصطناعي يتعلم ربط الصوت والصورة من مقاطع الفيديو دون تدخل بشري، ما يفتح آفاقًا جديدة للروبوتات والتطبيقات الذكية.

تفاصيل الخبر
في خطوة رائدة، طوّر فريق بحثي من معهد MIT نموذج تعلم آلي قادر على فهم العلاقة بين الصوت والرؤية من مقاطع الفيديو بدون الحاجة لتسميات بشرية.
أهم النقاط التي تميز النموذج الجديد:
- النموذج الجديد يسمى CAV-MAE Sync ويعتمد على تحسينات دقيقة على النسخة السابقة CAV-MAE.
- يعتمد على تقسيم الصوت إلى نوافذ صغيرة لربط كل إطار فيديو بمقطع الصوت المقابل بدقة عالية.
- يستخدم أهدافًا تعليمية مزدوجة: هدف تقاربي لربط البيانات المتشابهة، وهدف إعادة بناء لتحديد تفاصيل دقيقة في المحتوى.
- تم إدخال رموز مخصصة (Tokens) مثل “global tokens” و”register tokens” لتحسين أداء النموذج في المهام المختلفة.
- تفوق على النماذج المعقدة الأخرى التي تتطلب بيانات تدريب أكبر.
- يمكنه تحديد مشهد مثل “إغلاق باب” أو “عزف آلة موسيقية” بدقة من خلال الصوت أو الفيديو فقط.
- يعزز قدرة استرجاع مقاطع الفيديو بناءً على استعلام صوتي.
الأهداف المستقبلية
يتطلع الفريق البحثي من MIT إلى تطوير هذا النموذج من خلال:
- دمج نماذج تمثيلية جديدة للحصول على أداء أعلى.
- تمكين النموذج من معالجة البيانات النصية أيضًا، ما يمهد الطريق نحو إنشاء نموذج لغوي مرئي صوتي متكامل.
- استخدامه في تطبيقات مثل الروبوتات التفاعلية، والإنتاج الإعلامي الذكي، والأبحاث متعددة الوسائط.
هذا الإنجاز من MIT يعكس تقدم الذكاء الاصطناعي نحو الفهم البشري للعالم، حيث يشكل الجمع بين الصوت والرؤية خطوة أساسية نحو أنظمة أكثر ذكاءً وتفاعلاً.