Google تخطط لدمج Gemini وVeo لبناء مساعد رقمي شامل

أكد ديميس هاسابيس، الرئيس التنفيذي لشركة DeepMind، أن شركة Google تسعى لدمج نماذج Gemini وVeo في خطوة نحو تطوير مساعد رقمي يفهم العالم الفيزيائي.

تفاصيل الخبر

خلال ظهوره في بودكاست Possible الذي يقدمه ريد هوفمان (المؤسس المشارك لـ LinkedIn)، صرّح ديميس هاسابيس بأن Google تخطط لدمج نموذج Gemini متعدد الوسائط مع نموذج Veo الخاص بتوليد الفيديو. الهدف من هذا الدمج هو تعزيز قدرة Gemini على فهم العالم الواقعي من خلال المعلومات البصرية والحركية.

النقاط البارزة:

رؤية Google: منذ البداية، بُني نموذج Gemini ليكون متعدد الوسائط، في إطار خطة Google لتطوير “مساعد رقمي عالمي” يساعد المستخدم في العالم الحقيقي.
الانتقال نحو نماذج شاملة (Omni): النماذج الجديدة مثل Gemini وVeo، بالإضافة إلى نماذج OpenAI وAmazon، تهدف جميعها لفهم النص والصوت والصورة والفيديو وتوليدها.
مصدر بيانات الفيديو: لمحاكاة الواقع، تعتمد Google في تدريب Veo 2 على فيديوهات YouTube التي تمتلكها، مستفيدة من كميات ضخمة من المحتوى لتعليم النموذج قوانين الفيزياء وسلوكيات العالم الحقيقي.
تحديثات السياسات: عدّلت Google شروط استخدام YouTube العام الماضي لتوسيع إمكانية استخدام محتوى المنصة في تدريب النماذج الذكية.

الأهداف المستقبلية

تهدف Google من هذه الخطوة إلى:

تطوير مساعدين رقميين أكثر ذكاءً وواقعية.
تعزيز القدرات التفاعلية للنماذج لتشمل فهم الفيديو والتفاعل معه.
قيادة التوجه العالمي نحو نماذج “أي إلى أي” (Any-to-Any).
تعميق فهم الذكاء الاصطناعي للعالم الفيزيائي عبر التدريب على بيانات واقعية.

الدمج المحتمل بين Gemini وVeo يمهّد الطريق لنقلة نوعية في قدرات المساعدات الرقمية، حيث تسعى Google لتقديم ذكاء اصطناعي قادر على التفاعل مع الواقع بكل وسائطه.