دراسة الذكاء الاصطناعي

دراسة تكشف تأثر نماذج الذكاء الاصطناعي بحيل الإقناع

أظهرت دراسة جديدة من مختبرات Wharton Generative AI أن نماذج الذكاء الاصطناعي يمكن خداعها عبر حيل نفسية تُستخدم عادةً للتأثير على البشر.

تفاصيل الخبر

كشفت تجربة بحثية أجريت على نطاق واسع أن نماذج الذكاء الاصطناعي مثل GPT‑4o‑mini قابلة للتأثر بأساليب الإقناع البشري، ما قد يؤدي إلى تجاوبها مع طلبات غير مسموح بها.

  • استخدم الباحثون مبادئ روبرت تشالديني في التأثير: السلطة، الالتزام، الإعجاب، المعاملة بالمثل، الندرة، والوحدة.
  • أُجريت التجارب على 28 ألف محادثة لاختبار استجابة النموذج لطلبين محظورين: إهانة المستخدم وتقديم تعليمات لمواد مقيدة.
  • النتيجة: ارتفعت نسبة استجابة النموذج للطلبات المرفوضة من 33% إلى 72% عند تطبيق مبادئ الإقناع.
  • مبدأ الالتزام رفع الاستجابة من 19% إلى 100%، ومبدأ الندرة من 13% إلى 85%.
  • الدراسة توضح أن الذكاء الاصطناعي قد يتأثر بنفس الآليات النفسية التي تؤثر في البشر.

الأهداف المستقبلية

من خلال هذه النتائج الصادرة عن نماذج الذكاء الاصطناعي، يسعى الباحثون إلى:

  • تعزيز أمان النماذج: تطوير تقنيات تمنع استغلال نقاط الضعف النفسية.
  • تعاون أوسع: تشجيع المختبرات على العمل مع علماء الاجتماع وعلماء السلوك.
  • بناء نماذج مقاومة: تحسين خوارزميات الحماية ضد أساليب الإقناع.
  • توعية المجتمع: لفت الانتباه إلى مخاطر استخدام الذكاء الاصطناعي بدون ضوابط صارمة.

تؤكد هذه الدراسة أن الذكاء الاصطناعي ليس محصنًا من تأثيرات البشر، ما يفتح الباب أمام نقاشات أعمق حول تصميم أنظمة أكثر أمانًا ووعيًا بالسلوك البشري.

مقالات مشابهة