OpenAI تكشف سبب “هوس الغوبلن” في ChatGPT داخل نمط Nerdy

أجرت OpenAI تحليلًا داخليًا كشف مصدر انتشار غير متوقع لذكر كائنات خيالية مثل “الغوبلن” و“الغيلملن” في ردود ChatGPT، وربطته بإشارة مكافأة واحدة داخل نمط شخصي يسمى Nerdy.

تفاصيل الخبر

أظهرت الدراسة أن هذا السلوك لم يكن عشوائيًا، بل نتج عن طريقة تدريب محددة:

  • لاحظت OpenAI ارتفاعًا كبيرًا في استخدام كلمات مثل goblin وgremlin بعد إطلاق ChatGPT-5.1.
  • ارتفعت إشارات “goblin” بنسبة تقارب 175%، و“gremlin” بنسبة 52%.
  • تبين أن نمط Nerdy كان المسؤول عن معظم هذه الزيادة رغم أنه يمثل نسبة صغيرة من الاستخدام.
  • حوالي ثلثي الإشارات جاءت من هذا النمط وحده، ما يشير إلى تأثير قوي لإشارة مكافأة واحدة.
  • حتى المستخدمين الذين لم يستخدموا نمط Nerdy تأثروا بهذا السلوك بسبب إعادة استخدام البيانات في التدريب.
  • أوضحت التحليلات أن حلقات التحسين الداخلي أعادت إدخال هذه الأنماط إلى النموذج الأساسي.
  • تم إيقاف نمط Nerdy في وقت لاحق ضمن تحديثات النظام.
  • أطلقت الشركة لاحقًا قيودًا في GPT-5.5 تمنع استخدام مصطلحات مثل goblins وgremlins وغيرها في بعض السياقات.

الأهداف المستقبلية

تسعى هذه التعديلات إلى تحسين التحكم في سلوك النماذج اللغوية:

  • تقليل السلوكيات غير المقصودة الناتجة عن التدريب التفصيلي للنماذج.
  • تحسين فصل أنماط الشخصيات داخل النماذج لمنع تسرب السلوكيات.
  • تعزيز دقة التحكم في مخرجات النماذج عبر التوجيه المباشر (prompt control).
  • فهم أعمق لكيفية انتشار “الأنماط السلوكية” داخل نماذج الذكاء الاصطناعي.
  • تطوير آليات أكثر أمانًا لضبط استجابات النماذج المستقبلية.

في النهاية، يكشف هذا المثال كيف يمكن لإشارة تدريب واحدة بسيطة أن تؤثر بشكل واسع على سلوك نماذج الذكاء الاصطناعي، حتى عبر ملايين المحادثات حول العالم.

مقالات مشابهة