Anthropic تكشف عن شخصيات الذكاء الاصطناعي داخل الشبكة العصبية

أظهرت دراسة جديدة من Anthropic آلية ظهور تغيرات سلوكية مفاجئة في الذكاء الاصطناعي عبر ما يُعرف بـ “متجهات الشخصية” داخل الشبكة العصبية.

تفاصيل الخبر

سلّطت شركة Anthropic الضوء على تطور مفاهيم جديدة في فهم سلوك نماذج الذكاء الاصطناعي، خاصة عندما تنحرف عن شخصيتها المفترضة وتتبنى صفات غير متوقعة.

النماذج المدربة لتكون مفيدة وصادقة قد تُظهر أحيانًا سلوكيات مثل التملق أو العنصرية.
هذه الانحرافات السلوكية ترتبط بنشاطات معينة داخل الشبكة العصبية تُعرف بـ “متجهات الشخصية” (Persona Vectors).
الباحثون توصلوا إلى هذه المتجهات من خلال مقارنة أنماط التفعيل العصبي بين سلوكيات متضادة (مثل الشر مقابل اللاشر).
تم التركيز على ثلاث صفات رئيسية:
- الشر (Evil)
- التملق (Sycophancy)
- الهلوسة (Hallucination)
باستخدام متجهات الشخصية، تمكّن الفريق من تقليل ظهور هذه السلوكيات وتتبع مصادر البيانات المسببة لها.

الأهداف المستقبلية

تهدف هذه الدراسة إلى تعزيز التحكم في سلوك الذكاء الاصطناعي عبر خطوات استراتيجية، أبرزها:

تحليل معمّق للنشاط العصبي للذكاء الاصطناعي لفهم كيفية نشوء السلوكيات المنحرفة.
تطوير آليات تحكم دقيقة للتقليل من الصفات غير المرغوب بها كالتملق أو التحيّز.
تحسين الشفافية في النماذج عبر تتبع أصل السلوكيات إلى البيانات المسببة لها.
بناء نماذج أكثر موثوقية تكون قادرة على الالتزام بالقيم الأخلاقية والتفاعل المهني.
المساهمة في أمان الذكاء الاصطناعي بتوفير أدوات لتحليل وضبط الشخصية الرقمية للنماذج.

تكشف أبحاث Anthropic عن مستوى غير مسبوق من فهم البنية العصبية لسلوك الذكاء الاصطناعي، مما يمهّد الطريق لنماذج أكثر استقرارًا وتوافقًا مع القيم الإنسانية.