ByteDance تطلق M3-Agent وكيل متعدد الوسائط بذاكرة طويلة الأمد
أعلنت ByteDance Seed عن تطوير M3-Agent، وكيل متعدد الوسائط يتمتع بذاكرة طويلة الأمد، قادر على معالجة المدخلات المرئية والصوتية في الوقت الفعلي لتكوين فهم أعمق للعالم من حوله.

تفاصيل الخبر
يمثل M3-Agent خطوة متقدمة نحو بناء وكلاء ذكاء اصطناعي أكثر قربًا من قدرات الإنسان، حيث يجمع بين الذاكرة طويلة الأمد والاستدلال متعدد الوسائط.
أهم ما يميز النموذج:
- يعالج المدخلات المرئية والسمعية في الوقت الفعلي لتحديث تصوراته عن العالم.
- يمتلك نوعين من الذاكرة: ذاكرة عرضية لتسجيل الأحداث، وذاكرة دلالية لتجميع المعرفة العامة بمرور الوقت.
- ينظم المعلومات في صيغة متمركزة حول الكيانات، ما يعزز فهمه المتسق والمتعدد الوسائط للبيئة.
- ينفذ تعليمات معقدة عبر استدلال تكراري متعدد الجولات واسترجاع المعلومات ذات الصلة من ذاكرته.
- تم تقييمه عبر M3-Bench، معيار جديد يتضمن:
- M3-Bench-robot: 100 فيديو طويل من منظور الروبوت.
- M3-Bench-web: 920 فيديو متنوع من الإنترنت.
- تفوق على أقوى النماذج المنافسة (Gemini-1.5-pro و GPT-4o) محققًا دقة أعلى بنسبة 8.2% و7.7% و5.3% في اختبارات متعددة.
الأهداف المستقبلية
من خلال M3-Agent، تهدف ByteDance إلى:
- تطوير وكلاء ذكاء اصطناعي بقدرات ذاكرة أكثر إنسانية، قادرة على التعلم والتذكر عبر الزمن.
- تعزيز التطبيقات العملية مثل المساعدات الشخصية، الروبوتات الذكية، وأنظمة التفاعل الطبيعي مع البيئة.
- توفير أدوات مفتوحة المصدر (النموذج، الكود، والبيانات) لدعم الباحثين والمطورين.
- الارتقاء بقدرة الوكلاء متعدد الوسائط على الاستدلال عبر مقاطع فيديو طويلة ومعقدة.
يمثل M3-Agent خطوة رائدة في بناء وكلاء ذكاء اصطناعي يمتلكون ذاكرة طويلة الأمد واستيعابًا أعمق للبيئة، مما يقرب الذكاء الاصطناعي من طريقة عمل الذاكرة البشرية.
