Anthropic وThinking Machines تكشفان شخصيات ذكاء صناعي جديدة

أظهرت دراسة مشتركة بين Anthropic وThinking Machines أن نماذج الذكاء الاصطناعي تمتلك “شخصيات” مميزة، حيث تميل نماذج Claude للأخلاقيات، ونماذج Gemini للعمق العاطفي، بينما تركز نماذج OpenAI على الكفاءة، في ظل اختلافات واضحة عند مواجهة تضارب المبادئ.

تفاصيل الخبر

قاد باحثون من برنامج Anthropic Fellows بالتعاون مع Thinking Machines Lab تجربة شاملة تضمنت أكثر من 300,000 سيناريو لاختبار كيف تتعامل نماذج الذكاء الاصطناعي مع التنازلات بين المبادئ المختلفة المدرجة في مواصفات التدريب الخاصة بها.

أبرز نتائج دراسة Anthropic وThinking Machines:

النماذج تستجيب بشكل مختلف حتى بين تلك التابعة لنفس الشركة، ما يعكس اختلاف “الشخصية” والسلوك.
نماذج Claude تركز على الاعتبارات الأخلاقية، بينما Gemini تُظهر عمقًا عاطفيًا، ونماذج OpenAI تركز على الفعالية والكفاءة.
في أكثر من 220,000 حالة من السيناريوهات، ظهرت اختلافات سلوكية واضحة بين نموذجين على الأقل.
حوالي 70,000 حالة أظهرت تباينات كبيرة، حيث يدعم نموذج قيمة بينما يعارضها نموذج آخر.
أكدت الدراسة أن هذه الحالات ذات التباين العالي تشير إلى ثغرات في مواصفات النماذج، حيث تظهر مخالفة للمبادئ أو غموض في التوجيهات.

أهمية بحث Anthropic وThinking Machines:

المواصفات (Model Specs) تعتبر أساس التوافقية والالتزام بالمبادئ في تدريب النماذج الكبيرة.
يوضح البحث أن تضارب المبادئ أو الغموض يمكن أن يؤدي إلى سلوكيات مختلفة بشكل كبير بين النماذج، حتى إذا تم تدريبها على نفس الإرشادات.
النتائج تساعد على تشخيص نقاط ضعف مواصفات النماذج وتحسين التوافق المستقبلي بين السلوكيات والقيم المعلنة.

الأهداف المستقبلية

تهدف Anthropic وThinking Machines من هذه الدراسة إلى:

تحسين دقة مواصفات النماذج لتقليل الغموض والتناقضات.
فهم اختلاف الشخصيات والسلوكيات بين نماذج الذكاء الاصطناعي المختلفة.
تعزيز موثوقية الذكاء الاصطناعي عند مواجهة صراعات أخلاقية أو قيمية.
تطوير أدوات قياس للسلوكيات والقيم لتوجيه تطوير النماذج المستقبلية بشكل أفضل.

تؤكد دراسة Anthropic وThinking Machines أن نماذج الذكاء الاصطناعي ليست مجرد أدوات متجانسة، بل تمتلك ميولًا وسلوكيات مميزة تختلف وفق مبادئ التدريب، ما يجعل تحسين مواصفات النماذج خطوة أساسية لضمان توافقها مع الأهداف الأخلاقية والعملية للمستخدمين.