DeepSWE: وكيل برمجة مفتوح المصدر يتفوق باستخدام التعلم التعزيزي

أعلنت Agentica بالتعاون مع Together AI عن DeepSWE-Preview، وكيل برمجة متقدم تم تدريبه بالكامل باستخدام التعلم التعزيزي فقط، محققًا نتائج رائدة ضمن نماذج مفتوحة المصدر.

تفاصيل الخبر

في إنجاز بارز بعالم الذكاء الاصطناعي التطبيقي، أطلق فريقا Agentica وTogether AI نموذج DeepSWE-Preview، وهو وكيل برمجة تم تدريبه من الصفر باستخدام التعلم التعزيزي (Reinforcement Learning) على نموذج Qwen3-32B، ليحقق أداءً متفوقًا في مهام هندسة البرمجيات.

  • حقق النموذج نسبة 42.2% Pass@1 و71.0% Pass@16 على معيار SWE-Bench-Verified.
  • عند استخدام تقنيات التحجيم في وقت الاختبار (TTS)، ارتفعت النتيجة إلى 59%، متفوقًا على جميع النماذج المفتوحة الأخرى.
  • تم تدريب النموذج باستخدام إطار rLLM من Agentica، والمصمم لتدريب الوكلاء اللغويين بعد المرحلة المبدئية.
  • استخدم الفريق أكثر من 4,500 مهمة SWE واقعية عبر بيئة R2E-Gym خلال 6 أيام باستخدام 64 وحدة GPU من نوع H100.
  • النموذج تمكّن من تقليد سلوكيات بشرية مثل: التفكير في الحالات الطرفية، واختبار عدم كسر الكود الموجود، وتخصيص وقت تفكير حسب تعقيد المهمة.

الأهداف المستقبلية

يتطلع فريق Agentica وTogether AI إلى تعزيز قدرات DeepSWE وتوسيع نطاق استخدامه:

  • تطوير نسخ أكبر من النموذج ذات سياقات أوسع (128K+ توكن).
  • نقل النموذج إلى مجالات أخرى مثل وكلاء الويب والأتمتة.
  • تحسين بيئة R2E-Gym وتوسيعها لتشمل تحديات SWE أكثر تعقيدًا.
  • تدريب نسخ تكميلية عبر التعليم بالإشراف (SFT) والتدريب الهجين لمزيد من المرونة.
  • تعزيز مجتمع الباحثين عبر مشاركة مفتوحة للبيانات والشيفرات وأدوات التقييم.

يُعد DeepSWE-Preview علامة فارقة في تطوير وكلاء الذكاء الاصطناعي القادرين على تنفيذ مهام برمجية معقدة باستخدام التعلم التعزيزي فقط. ومع توفير الشيفرة والبيانات للجميع، تدعو Agentica الجميع للمساهمة في بناء مستقبل الوكلاء الذكيين.

مقالات مشابهة