ByteDance تطلق M3-Agent وكيل متعدد الوسائط بذاكرة طويلة الأمد

أعلنت ByteDance Seed عن تطوير M3-Agent، وكيل متعدد الوسائط يتمتع بذاكرة طويلة الأمد، قادر على معالجة المدخلات المرئية والصوتية في الوقت الفعلي لتكوين فهم أعمق للعالم من حوله.

تفاصيل الخبر

يمثل M3-Agent خطوة متقدمة نحو بناء وكلاء ذكاء اصطناعي أكثر قربًا من قدرات الإنسان، حيث يجمع بين الذاكرة طويلة الأمد والاستدلال متعدد الوسائط.
أهم ما يميز النموذج:

يعالج المدخلات المرئية والسمعية في الوقت الفعلي لتحديث تصوراته عن العالم.
يمتلك نوعين من الذاكرة: ذاكرة عرضية لتسجيل الأحداث، وذاكرة دلالية لتجميع المعرفة العامة بمرور الوقت.
ينظم المعلومات في صيغة متمركزة حول الكيانات، ما يعزز فهمه المتسق والمتعدد الوسائط للبيئة.
ينفذ تعليمات معقدة عبر استدلال تكراري متعدد الجولات واسترجاع المعلومات ذات الصلة من ذاكرته.
تم تقييمه عبر M3-Bench، معيار جديد يتضمن:
- M3-Bench-robot: 100 فيديو طويل من منظور الروبوت.
- M3-Bench-web: 920 فيديو متنوع من الإنترنت.
تفوق على أقوى النماذج المنافسة (Gemini-1.5-pro و GPT-4o) محققًا دقة أعلى بنسبة 8.2% و7.7% و5.3% في اختبارات متعددة.

الأهداف المستقبلية

من خلال M3-Agent، تهدف ByteDance إلى:

تطوير وكلاء ذكاء اصطناعي بقدرات ذاكرة أكثر إنسانية، قادرة على التعلم والتذكر عبر الزمن.
تعزيز التطبيقات العملية مثل المساعدات الشخصية، الروبوتات الذكية، وأنظمة التفاعل الطبيعي مع البيئة.
توفير أدوات مفتوحة المصدر (النموذج، الكود، والبيانات) لدعم الباحثين والمطورين.
الارتقاء بقدرة الوكلاء متعدد الوسائط على الاستدلال عبر مقاطع فيديو طويلة ومعقدة.

يمثل M3-Agent خطوة رائدة في بناء وكلاء ذكاء اصطناعي يمتلكون ذاكرة طويلة الأمد واستيعابًا أعمق للبيئة، مما يقرب الذكاء الاصطناعي من طريقة عمل الذاكرة البشرية.