Claude Opus 4.5 يحقق رقماً قياسياً في إنجاز المهام الطويلة
كشف تحليل جديد لمنظمة METR أن نموذج Claude Opus 4.5 بات قادراً على تنفيذ مهام برمجية وتقنية معقدة تتطلب قرابة 5 ساعات من العمل المتواصل، وهو أعلى معدل استمرارية مسجل حتى الآن.

تفاصيل كفاءة Claude Opus 4.5 في المهام ذات المدى الزمني الطويل
أظهرت التقييمات التي أجرتها مؤسسة METR (المتخصصة في قياس مخاطر وقدرات الذكاء الاصطناعي) نتائج غير مسبوقة تتعلق بـ “الأفق الزمني” للنموذج، وتتجلى تفاصيلها في الآتي:
- أطول أفق زمني: يقدر الخبراء أن للنموذج “أفق زمني بنسبة 50%” يصل إلى 4 ساعات و49 دقيقة، مما يعني قدرته على البقاء مركزاً ومنتجاً في مهام تتطلب هذا الوقت الطويل.
- فارق شاسع عن المنافسين: يعد هذا الرقم هو الأعلى الذي تنشره المنظمة لأي نموذج ذكاء اصطناعي حتى الآن، متفوقاً على كافة الإصدارات السابقة في الحفاظ على جودة المخرجات عبر جلسات العمل الطويلة.
- دقة التوقعات: تراوح النطاق الزمني للثقة (Confidence Interval) في الاختبارات بين ساعة واحدة وحتى أكثر من 20 ساعة في حالات معينة، مما يشير إلى إمكانات هائلة في معالجة المشاريع الكبرى.
- الاستقلالية في التنفيذ: تعني هذه النتائج أن النموذج يمكنه التعامل مع مشاريع “نهاية الأسبوع” أو المهام البرمجية التي تتطلب البحث، التجربة، وتصحيح الأخطاء لعدة ساعات دون تدخل بشري مكثف.
- تحليل المهام المعقدة: شملت الاختبارات مهاماً واقعية تطلبت من النموذج تخطيطاً استراتيجياً طويل المدى، وليس مجرد استجابات سريعة للأسئلة البسيطة.
الأهداف المستقبلية لتقييمات الاستدامة في نماذج الذكاء الاصطناعي
تفتح نتائج METR الباب أمام توجهات جديدة في تطوير واختبار النماذج اللغوية الكبيرة، حيث تركز الأهداف القادمة على:
- رفع سقف المهام الذاتية: تهدف الأبحاث القادمة إلى اختبار قدرة النماذج على العمل لمدة تتجاوز 24 ساعة متواصلة في بيئات برمجية معزولة لمحاكاة دور المهندس الكامل.
- توسيع قاعدة المقارنة: تعمل المؤسسات البحثية حالياً على استكمال تقييمات نماذج أخرى حديثة لمقارنتها بـ Claude Opus 4.5 وتحديد “معيار ذهبي” جديد لكفاءة المدى الطويل.
- تحسين الذاكرة السياقية: تسعى شركات الذكاء الاصطناعي لضمان عدم فقدان النموذج للتفاصيل الدقيقة التي حدثت في الساعة الأولى من المهمة عند وصوله للساعة الخامسة.
- تطبيقات الوكيل المستقل: الهدف هو الوصول إلى “وكلاء ذكاء اصطناعي” يمكنهم استلام مشروع برمجي متكامل صباحاً وتسليمه جاهزاً بنهاية اليوم بعد ساعات من العمل والبحث الذاتي.
يضع Claude Opus 4.5 معياراً جديداً في عالم الذكاء الاصطناعي؛ فالمسألة لم تعد تتعلق فقط بذكاء الإجابة، بل بالقدرة على الصمود والاستمرار في حل المشكلات المعقدة التي تتطلب وقتاً وجهداً بشرياً طويلاً.
