DeepSeek-R1: كيف غيرت 294 ألف دولار مشهد الذكاء الاصطناعي
كشفت ورقة علمية جديدة من DeepSeek تفاصيل نموذج DeepSeek-R1 الذي أحدث ضجة في يناير، موضحة أنه درِّب بالكامل بتكلفة 294 ألف دولار فقط عبر التعلم بالتعزيز.

تفاصيل الورقة البحثية
النموذج DeepSeek-R1 يمثل تحولاً في منهجية تدريب نماذج الذكاء الاصطناعي:
- بدلاً من الاعتماد على بيانات بشرية موسومة، استخدم التعلم بالتعزيز (RL) حيث الإشارة الوحيدة هي صحة الإجابة النهائية.
- النسخة الأولى R1-Zero تدربت على نموذج DeepSeek-V3 Base باستخدام GRPO وابتكرت استراتيجيات استدلال ذاتياً مثل التحقق، التفكير البديل، والتأمل الذاتي.
- الأداء قفز على معيار AIME 2024 من 15.6% → 77.9% (وبـ self-consistency وصل إلى 86.7%).
- النموذج النهائي DeepSeek-R1 مر بمراحل إضافية: بيانات تمهيدية → RL مع اتساق لغوي → رفض العينات → تدريب إشرافي (SFT) → مرحلة RL ثانية.
- النتيجة: تحسينات في قوة الاستدلال مع قابلية قراءة أفضل ومهارات عامة أقوى (كتابة، أسئلة مفتوحة، برمجة).
المزايا والقيود
- المزايا: أداء متفوق على منافسين كبار في معايير مثل MMLU وSWE-bench وGPQA Diamond. ظهور سلوكيات استدلال شبيهة بالبشر مثل “لحظة aha” ومرحلة “انتظر” أثناء التصحيح الذاتي.
- القيود: إفراط في استخدام الرموز (token inefficiency)، خلط لغوي بين الإنجليزية والصينية، تأثر بالأوامر (prompting sensitivity)، وغياب أدوات مدمجة مثل الحاسبات أو محركات البحث.
الأهداف المستقبلية
يتوقع الباحثون أن هذا التوجه يفتح الباب لمرحلة جديدة في تطوير نماذج التفكير:
- تحسين نماذج المكافآت القابلة للتحقق لزيادة موثوقية الاستدلال.
- دمج أدوات خارجية (بحث، حاسبات، مترجمات) داخل التدريب بالتعزيز.
- نشر نسخ أصغر وأكثر كفاءة من R1 مع الحفاظ على قوة الاستدلال.
- تطوير آليات أمان أقوى للحد من مخاطر الاستخدام الخاطئ.
إثبات DeepSeek-R1 أن الاستدلال يمكن أن ينشأ عضوياً من خلال التعلم بالتعزيز، وبتكلفة منخفضة نسبياً، يمثل نقطة تحول قد تعيد رسم خريطة نماذج الذكاء الاصطناعي خلال السنوات القادمة.