ByteDance تطلق M3-Agent وكيل متعدد الوسائط بذاكرة طويلة الأمد

أعلنت ByteDance Seed عن تطوير M3-Agent، وكيل متعدد الوسائط يتمتع بذاكرة طويلة الأمد، قادر على معالجة المدخلات المرئية والصوتية في الوقت الفعلي لتكوين فهم أعمق للعالم من حوله.

تفاصيل الخبر

يمثل M3-Agent خطوة متقدمة نحو بناء وكلاء ذكاء اصطناعي أكثر قربًا من قدرات الإنسان، حيث يجمع بين الذاكرة طويلة الأمد والاستدلال متعدد الوسائط.
أهم ما يميز النموذج:

  • يعالج المدخلات المرئية والسمعية في الوقت الفعلي لتحديث تصوراته عن العالم.
  • يمتلك نوعين من الذاكرة: ذاكرة عرضية لتسجيل الأحداث، وذاكرة دلالية لتجميع المعرفة العامة بمرور الوقت.
  • ينظم المعلومات في صيغة متمركزة حول الكيانات، ما يعزز فهمه المتسق والمتعدد الوسائط للبيئة.
  • ينفذ تعليمات معقدة عبر استدلال تكراري متعدد الجولات واسترجاع المعلومات ذات الصلة من ذاكرته.
  • تم تقييمه عبر M3-Bench، معيار جديد يتضمن:
    • M3-Bench-robot: 100 فيديو طويل من منظور الروبوت.
    • M3-Bench-web: 920 فيديو متنوع من الإنترنت.
  • تفوق على أقوى النماذج المنافسة (Gemini-1.5-pro و GPT-4o) محققًا دقة أعلى بنسبة 8.2% و7.7% و5.3% في اختبارات متعددة.

الأهداف المستقبلية

من خلال M3-Agent، تهدف ByteDance إلى:

  • تطوير وكلاء ذكاء اصطناعي بقدرات ذاكرة أكثر إنسانية، قادرة على التعلم والتذكر عبر الزمن.
  • تعزيز التطبيقات العملية مثل المساعدات الشخصية، الروبوتات الذكية، وأنظمة التفاعل الطبيعي مع البيئة.
  • توفير أدوات مفتوحة المصدر (النموذج، الكود، والبيانات) لدعم الباحثين والمطورين.
  • الارتقاء بقدرة الوكلاء متعدد الوسائط على الاستدلال عبر مقاطع فيديو طويلة ومعقدة.

يمثل M3-Agent خطوة رائدة في بناء وكلاء ذكاء اصطناعي يمتلكون ذاكرة طويلة الأمد واستيعابًا أعمق للبيئة، مما يقرب الذكاء الاصطناعي من طريقة عمل الذاكرة البشرية.

مقالات مشابهة