ByteDance تطلق Depth Anything 3 بتقنية متقدمة لتقدير العمق

أعلنت ByteDance عن نموذج Depth Anything 3 الذي يقدّم قدرة عالية على تحليل الصور واستخلاص عمق ثلاثي الأبعاد بدقة متناسقة، سواء من صورة واحدة أو عدة صور، مما يجعله خطوة متقدمة في مجال الرؤية الحاسوبية.

تفاصيل الخبر

جاء Depth Anything 3 ليقدم تنوعًا كبيرًا في تقدير العمق دون الحاجة إلى هياكل معمارية معقدة.

يعتمد النموذج على ترانسفورمر بسيط مثل DINO encoder دون أي تخصيص إضافي.
يستخدم تمثيل depth-ray موحّد يختصر مهام التدريب ويزيد من دقّة النتائج.
يوفر تقدير عمق أحادي من صورة واحدة بجودة تفوق الجيل السابق.
يدعم تقدير العمق من عدة صور مع الحفاظ على التناسق المكاني بين الخرائط.
يقدم دقة أعلى في تقدير العمق عند توفير معلومات مواضع الكاميرا.
قادر على تقدير وضعيات الكاميرا من خلال تحليل الصور مباشرة.
يدعم التنبؤ بالتمثيلات الغوسية ثلاثية الأبعاد لإنتاج مشاهد قابلة للعرض من زوايا جديدة.
جميع النماذج تم تدريبها على بيانات أكاديمية متاحة للعامة فقط.
يتفوق DA3 على الإصدارات السابقة في جودة العمق وأداء المهام متعددة الرؤية.

الأهداف المستقبلية لـDepth Anything 3

تسعى ByteDance إلى توسيع إمكانات DA3 وتطوير تطبيقاته خلال السنوات المقبلة.

استخدام النموذج في تطبيقات الواقع المعزز والافتراضي بدقة أعلى.
تمكين توليد مشاهد ثلاثية الأبعاد من صور ثابتة ليدعم التصميم والألعاب.
دمج DA3 مع نماذج أكبر لتعزيز القدرات الهندسية البصرية.
دعم اتجاهات جديدة في إعادة بناء الضوء والمشاهد عبر تمثيلات ثلاثية الأبعاد متقدمة.
توفير أدوات بحثية مفتوحة تساعد المطورين على اعتماد النموذج في مشاريعهم.

يمثل Depth Anything 3 نقلة نوعية في تقدير العمق والتصوير الحاسوبي، حيث يجمع بين البساطة في التصميم والدقة العالية، مما يفتح المجال لتطبيقات مستقبلية ثرية في عالم الرؤية الحاسوبية.