أنثروبيك تطوّر درعًا لحماية أنظمة الذكاء الاصطناعي من التلاعب
طوّرت شركة أنثروبيك للذكاء الاصطناعي تقنية جديدة تهدف إلى حماية النماذج اللغوية الكبيرة من هجمات “كسر الحماية” (jailbreak)، التي تستغل الثغرات لجعل النماذج تنفذ أوامر محظورة.

تفاصيل الخبر
أعلنت شركة أنثروبيك عن تطوير خط دفاعي مبتكر لمواجهة هجمات “كسر الحماية”، التي تستهدف النماذج اللغوية الكبيرة (LLMs) وتدفعها لتنفيذ أوامر مخالفة لتدريباتها، مثل تقديم إرشادات حول تصنيع الأسلحة.
أبرز ملامح التقنية الجديدة:
- نظام فلترة متقدم: يعمل على تحليل المدخلات والمخرجات لمنع أي محتوى غير آمن.
- توليد بيانات اصطناعية: استخدام النموذج “كلاود” لتوليد أسئلة وأجوبة تغطي المحتوى المقبول والمرفوض، بهدف تدريب نظام الفلترة.
- اختبارات مكثفة: إجراء تجارب شملت 10,000 محاولة كسر حماية، حيث نجح النظام في تقليل نسبة الهجمات الناجحة من 86% إلى 4.4%.
الأهداف المستقبلية
تسعى أنثروبيك إلى تعزيز أمان أنظمة الذكاء الاصطناعي عبر:
- تطوير تقنيات حماية متقدمة: للتصدي لمحاولات التلاعب والاختراق.
- التعاون مع الباحثين: لتحسين متانة النماذج أمام الهجمات المحتملة.
- توسيع نطاق الحماية: لتشمل مختلف اللغات والسيناريوهات التطبيقية.
تُعد هذه الخطوة تقدمًا مهمًا في مجال أمن الذكاء الاصطناعي، مما يعزز الثقة في استخدام هذه النماذج في تطبيقات متعددة.