DeepSeek

إطلاق DeepSeek OCR: أداة ضغط المستندات بالصورة

أعلنت شركة DeepSeek عن إصدار DeepSeek OCR، أداة مبتكرة تضغط المستندات المعتمدة على الصور بمقدار 10 أضعاف مع الاحتفاظ بنسبة 97% من المعلومات، ما يمكّن نماذج الذكاء الاصطناعي من التعامل مع ملفات أطول بكثير.

تفاصيل الخبر

تركز DeepSeek OCR على تمكين المعالجة الفعّالة للمستندات البصرية بواسطة الذكاء الاصطناعي، سواء للصور أو ملفات PDF، مع الحفاظ على جودة النصوص والمعلومات.

  • ضغط عالي الأداء: تقلل حجم الملفات 10 مرات مع الاحتفاظ بمعظم البيانات.
  • تكامل مع نماذج AI: تعمل الأداة مع مكتبات vLLM وTransformers لتسهيل استخدام النماذج الكبيرة.
  • سرعة المعالجة: ملفات PDF تصل إلى ~2500 توكن/ثانية باستخدام GPU قوي مثل A100-40G.
  • مرونة في الدقة: تدعم أحجام صور متعددة من Tiny 512×512 إلى Large 1280×1280، بالإضافة إلى وضعيات ديناميكية لتناسب المستندات الكبيرة.
  • أوامر متعددة: يمكن استخدام الأداة لتحويل المستندات إلى Markdown، التعرف على الصور، استخراج النصوص بدون تخطيطات، أو تحليل الرسوم البيانية في المستندات.
  • سهولة التثبيت: تدعم بيئة CUDA 11.8 وPyTorch 2.6 مع مكتبات إضافية مثل flash-attn لتسريع الأداء.

الأهداف المستقبلية

في المستقبل، تهدف DeepSeek إلى:

  • تحسين قدرة النماذج على التعامل مع مستندات أطول وأكثر تعقيدًا.
  • توسيع دعم الأداة لتشمل أنواعًا جديدة من الملفات والصور.
  • تطوير واجهات سهلة الاستخدام تتيح التكامل مع منصات الذكاء الاصطناعي الأخرى.
  • تعزيز دقة التعرف على النصوص وتحليل الصور ضمن المستندات.

تمثل DeepSeek OCR خطوة مهمة نحو تحسين معالجة المستندات البصرية، ما يسهم في تسريع أعمال الذكاء الاصطناعي وتحليل الملفات بشكل أسرع وأكثر كفاءة.

مقالات مشابهة