Cloudflare تطلق واجهة /crawl الجديدة لتصفح المواقع بالكامل

أعلنت شركة Cloudflare عن إطلاق واجهة برمجة التطبيقات الجديدة /crawl، التي تتيح للمطورين جمع محتوى موقع كامل من خلال طلب واحد فقط، في خطوة مميزة لشركة كانت معروفة بحلول حماية المواقع من البوتات.

تفاصيل واجهة /crawl الجديدة

تم تطوير /crawl ضمن خاصية Browser Rendering، وتتوفر الآن في الإصدار التجريبي المفتوح. يمكن للمطورين إرسال عنوان URL للبدء، ليقوم النظام تلقائياً باكتشاف الصفحات، ومعالجتها في متصفح بدون واجهة رسومية، وإرجاعها بصيغ متعددة مثل HTML، Markdown، وJSON منظم.

ومن أبرز مميزات الواجهة الجديدة:

  • صيغ إخراج متعددة: يمكن استرجاع المحتوى بصيغ HTML، Markdown، وJSON منظم باستخدام تقنيات Workers AI.
  • التحكم في نطاق الزحف: إمكانية تحديد عمق الزحف، عدد الصفحات، واستثناء أو تضمين مسارات URL محددة.
  • اكتشاف الصفحات تلقائياً: اكتشاف الروابط عبر الخرائط أو الروابط الداخلية للصفحات.
  • الزحف التزايدي: تخطي الصفحات التي لم تتغير أو تم جلبها مؤخراً لتوفير الوقت والتكاليف.
  • الوضع الثابت: خيار render: false لجلب HTML ثابت دون تشغيل المتصفح، لتسريع عملية الزحف للمواقع الثابتة.
  • التزام بقواعد المواقع: يحترم توجيهات robots.txt، بما في ذلك crawl-delay، ولا يتجاوز حماية البوتات أو CAPTCHA.
  • متاح على خطط Workers المجانية والمدفوعة.

تعمل واجهة /crawl بشكل غير متزامن، حيث يتم إرسال URL واستلام معرف مهمة، ويمكن متابعة التقدم واسترجاع النتائج عند معالجة الصفحات.

الأهداف المستقبلية للواجهة

تهدف Cloudflare من خلال هذه الواجهة إلى تسهيل جمع البيانات وتحليل المحتوى لمجالات عدة، بما في ذلك تدريب نماذج الذكاء الاصطناعي، بناء خطوط RAG، ومراقبة المواقع أو البحث في محتواها بكفاءة أكبر.

ومن أبرز الأهداف:

  • تمكين المطورين من معالجة محتوى المواقع بسرعة ودقة.
  • تسهيل تكامل البيانات مع مشاريع الذكاء الاصطناعي وأنظمة البحث.
  • دعم الزحف المهيكل والمنضبط الذي يحترم قواعد المواقع.
  • تقليل الوقت والتكلفة عند إعادة الزحف على المواقع الكبيرة.
  • تعزيز أدوات تطوير المحتوى والتحليل عبر الصيغ المتعددة للإخراج.

تعد واجهة /crawl خطوة مهمة لتعزيز إمكانيات المطورين في جمع البيانات بطريقة منظمة وآمنة، مما يسهل استخدام محتوى المواقع في التطبيقات المختلفة دون التسبب في انتهاك سياسات الموقع أو تعطيل أنظمته.

مقالات مشابهة