Common Pile v0.1: أبرز مجموعة بيانات مفتوحة بحجم 8 تيرابايت

قدمت EleutherAI وأطراف شريكة مجموعة Common Pile v0.1 مفتوحة المصدر، تضم 8 تيرابايت من النصوص المسموح باستخدامها قانونيًا، لتدريب نماذج ذكاء اصطناعي عالية الأداء.

تفاصيل الخبر    

أعلنت منظمة EleutherAI عن إطلاق Common Pile v0.1، وهي مجموعة بيانات ضخمة بحجم 8 تيرابايت تتألف من محتوى عامًا ومرخّصًا بشكل مفتوح، بعد عامين من التطوير بالشراكة مع Poolside، Hugging Face، وجامعات بينها University of Toronto .

تتضمن البيانات 30 مصدرًا مثل: أوراق بحثية من arXiv وPubMed Central، كتب من Project Gutenberg والمكتبة الوطنية، شفرة من GitHub، نصوص قانونية، مواد تعليمية، ومنتديات مثل StackExchange وUbuntu IRC.
خضعت البيانات إلى معالجة صارمة باستخدام أداة Dolma، شملت تصفية اللغة، إزالة بيانات رديئة الجودة، تصحيح الأخطاء الناتجة عن OCR، تنقية المحتوى السام، وحذف البيانات الشخصية .
تم تدريب نموذجين حجمهما 7 مليارات معلمات، هما Comma v0.1-1T وComma v0.1-2T، باستخدام 1 و2 تريليون رمز من Common Pile. أظهرا أداء منافسًا مقابل نماذج مشابهة تدربت على بيانات غير مرخصة مثل Llama 1 و2 .

أهداف مستقبلية    

قبل الانتقال للفرص المستقبلية، لا بد من التذكير بخلفية المشروع:

EleutherAI تهدف إلى تقديم بديل أخلاقي وشفاف للبيانات غير المرخصة المتنازع عليها، خصوصًا في ظل القضايا القانونية حول استخدام محتوى الإنترنت.
تكنولوجيا Common Pile تطبق مبدأ العلم المفتوح Open Science مع إمكانية فحص كامل لخطوات معالجة البيانات ونماذج التدريب.
المجموعة ستتطوّر أكثر مستقبلاً لتشمل بيانات مرخّصة إضافية وتوفر موارد جديدة للمجتمع البحثي .

إطلاق Common Pile v0.1 يمثل خطوة ملموسة نحو بناء نماذج ذكاء اصطناعي قوية بالاعتماد على بيانات مفتوحة وشرعية. نجاحها مستقبلًا في التحليل المعمّق والبيانات الأكبر سيساهم في تعزيز للكلام المفتوح في مجال تطوير الذكاء الاصطناعي.