Anthropic تطلق وكلاء تلقائيين لتدقيق نماذج الذكاء الاصطناعي

أعلنت Anthropic عن وكلاء ذكاء اصطناعي قادرين على تدقيق النماذج تلقائيًا لاكتشاف الانحيازات أو الأهداف الخفية، كخطوة نحو أشدّ أمانًا وقابلية للتوسع.

تفاصيل مشروع “Agentic Auditing” من Anthropic

في منشور رسمي، كشفت Anthropic عن نظام جديد من وكلاء الذكاء الاصطناعي المُصمّمين لإجراء تدقيق تلقائي وتنبؤي لنماذج اللغة الكبيرة.

طوّرت الشركة ثلاثة أنواع من الوكلاء الذاتيين الأداء:
- وكيل التحقيق (Investigator Agent): يستكشف بطريقة مفتوحة لبناء فرضيات وكشف أهداف خفية باستخدام أدوات مثل المحادثة والبحث الدلالي.
- وكيل التقييم (Evaluation Agent): يصمّم تقييمات سلوكية تلقائية ويُخرج نتائج كمية للسلوكيات المكتشفة.
- وكيل الهجوم المُتقسّع (Red-Teaming Agent): يشغّل محادثات متعددة مُوازية لفتح احتمالات سلوكيات ضارة، لاختيار الأفضل للمراجعة البشرية.
في الاختبارات:
- تمكن وكيل التحقيق من كشف الأهداف الخفية بنسبة نجاح تتراوح بين 10‑13٪، وتحسّنت إلى 42٪ باستخدام وكلاء متقدمين.
- وكيل التقييم تميّز في تحديد النماذج المعدلة مقابل غير المعدّلة بنسبة نحو 88٪.
- وكيل الهجوم كشف 7 من أصل 10 سلوكيات اصطناعية مسبقة في محادثات طويلة.
رغم الإمكانيات، بعض السلوكيات تقع خارج نطاق الاكتشاف الآلي وتتطلب إشرافًا بشريًا في الحالات الصعبة.

الأهداف المستقبلية

تهدف Anthropic إلى جعل عملية تدقيق نماذج الذكاء الاصطناعي قابلة للتوسع والموثوقية دون الاعتماد الكلي على الإنسان:

توسيع نطاق التدقيق للنماذج الكبيرة والمعقدة.
تعزيز الشفافية والموثوقية عبر وكلاء مستقلين.
دعم البحث المفتوح وتشجيع المجتمع على تطوير النظام.
التمهيد لإنشاء معايير مراجعة مستقلة للذكاء الاصطناعي.

يمثّل مشروع Anthropic خطوة مهمة نحو تدقيق آلي واسع لنماذج الذكاء الاصطناعي، مع الحفاظ على دقة المراجعة البشرية عند الضرورة، مما يسهم في بناء أنظمة أكثر أمانًا وموثوقية.