جوجل تطلق Gemini Embedding 2 لفهم النص والصورة والصوت

أعلنت شركة Google عن إطلاق نموذج جديد باسم Gemini Embedding 2 في مرحلة المعاينة العامة، وهو أول نموذج متعدد الوسائط قادر على فهم النصوص والصور والفيديو والصوت داخل نظام واحد. ويُعد هذا التطور خطوة مهمة نحو بناء أنظمة ذكاء اصطناعي تستطيع تحليل أنواع متعددة من البيانات في الوقت نفسه.

تفاصيل الخبر

كشفت فرق البحث في Google DeepMind عن نموذج Gemini Embedding 2 الجديد الذي يعتمد على بنية Gemini، حيث يهدف إلى تحويل أنواع مختلفة من البيانات إلى تمثيل رقمي موحد يمكن للأنظمة استخدامه للبحث والتحليل وفهم المعاني بشكل أكثر دقة.

أهم المعلومات حول النموذج الجديد تشمل:

يستطيع النموذج تحويل النصوص والصور والفيديو والصوت والمستندات إلى مساحة تمثيل موحدة.
يدعم أكثر من 100 لغة لفهم المعاني والسياق بين البيانات المختلفة.
يمكنه معالجة نصوص يصل طولها إلى 8192 رمزًا في الطلب الواحد.
يدعم إدخال حتى 6 صور في كل طلب بصيغ PNG وJPEG.
يمكنه تحليل فيديو يصل إلى 120 ثانية بصيغ MP4 وMOV.
يستطيع فهم الصوت مباشرة دون الحاجة لتحويله إلى نص أولًا.
يدعم تضمين ملفات PDF يصل طولها إلى 6 صفحات.
يسمح بإرسال أنواع متعددة من البيانات في طلب واحد مثل صورة مع نص.

كما يعتمد النموذج على تقنية Matryoshka Representation Learning التي تسمح بتقليل أبعاد التمثيل الرقمي بشكل مرن، حيث يمكن استخدام أبعاد مختلفة مثل 3072 أو 1536 أو 768 حسب الحاجة بين الأداء والتكلفة.

الأهداف المستقبلية

يهدف إطلاق Gemini Embedding 2 إلى توفير بنية أساسية جديدة لتطوير تطبيقات ذكاء اصطناعي أكثر تقدمًا تعتمد على فهم البيانات متعددة الوسائط.

ومن أبرز الأهداف المستقبلية لهذه التقنية:

تحسين أنظمة البحث الدلالي عبر أنواع مختلفة من البيانات.
تطوير تطبيقات Retrieval-Augmented Generation التي تعتمد على استرجاع المعرفة.
بناء أنظمة تحليل بيانات قادرة على فهم الصور والفيديو والصوت معًا.
تسهيل إدارة البيانات الضخمة وتحليلها داخل الشركات والمؤسسات.
دعم المطورين في إنشاء تطبيقات ذكاء اصطناعي متعددة الوسائط.

يمثل هذا النموذج خطوة جديدة في تطوير أدوات الذكاء الاصطناعي التي تستطيع فهم العالم الرقمي بشكل أقرب إلى طريقة فهم البشر للمعلومات المتنوعة.

في النهاية، يعكس إطلاق Gemini Embedding 2 توجه Google نحو بناء أنظمة ذكاء اصطناعي متعددة الوسائط قادرة على تحليل البيانات المعقدة وربطها ببعضها، وهو ما قد يفتح الباب أمام جيل جديد من التطبيقات الذكية.