Perplexity

Perplexity تستخدم زواحف خفية لتجاوز ملفات robots.txt

في انتهاك صريح لقواعد الإنترنت، لوحظت محاولات من Perplexity AI لاستخدام زواحف خفية لتجاوز توجيهات منع الزحف من ملفات robots.txt، ما أثار مخاوف بشأن الخصوصية والشفافية.

تفاصيل السلوك المكتشف

في تقرير نُشر بتاريخ 4 أغسطس 2025، كشف باحثون من Cloudflare عن استخدام منصة Perplexity AI لأساليب مراوغة لتجاوز سياسات منع الزحف التي تحددها المواقع الإلكترونية:

  • بدأت Perplexity الزحف باستخدام وكيل مستخدم رسمي، ثم تحولت إلى استخدام وكيل خفي يشبه متصفح Google Chrome.
  • لم يتم احترام محتويات ملفات robots.txt، بل في بعض الحالات لم تتم محاولة تحميلها أصلًا.
  • استخدمت Perplexity عناوين IP من شبكات غير معلنة (ASNs)، وغير مدرجة ضمن قوائمها الرسمية.
  • استُخدمت أسماء نطاقات تم إعدادها خصيصًا للاختبار مع توجيهات منع صريحة، وتم اكتشاف أن Perplexity وصلت لمحتواها رغم الحظر.
  • الزاحف المخفي يرسل 3-6 ملايين طلب يوميًا، مقارنة بـ20-25 مليون من الزاحف الرسمي.
  • تمت ملاحظة نشاط الزاحف المخفي على آلاف المواقع، باستخدام تقنيات تناوب IP وسلوك التهرب الآلي.
  • في حال تم حظر الزاحف، تلجأ المنصة إلى مصادر بيانات خارجية للإجابة، ولكن بجودة أقل.

الأهداف المستقبلية من كشف هذه السلوكيات

تسعى Cloudflare وشركاؤها من خلال هذا الكشف إلى تحقيق مجموعة من الأهداف التي تضمن حماية الإنترنت كمجتمع شفاف ومحترم:

  • التأكيد على أهمية احترام ملفات robots.txt كأداة رسمية للتحكم في زحف البيانات.
  • كشف محاولات التحايل على الحظر والقيود الأمنية من قِبل بعض مزودي خدمات الذكاء الاصطناعي.
  • تمكين أصحاب المواقع من التعرف على زواحف غير مرغوبة وحظرها تلقائيًا.
  • دعم أدوات إدارة البوتات بوضع توقيعات رقمية للزاحف الخفي المستخدم من Perplexity.
  • العمل مع منظمات مثل IETF لتطوير معايير أكثر صرامة لزواحف الإنترنت.

يُعد هذا السلوك من Perplexity انتهاكًا واضحًا لقواعد الشفافية والاحترام المتبادل بين مقدمي المحتوى ومزودي الذكاء الاصطناعي. ومع تزايد اعتماد العالم على البيانات المفتوحة، تصبح هذه القواعد أكثر أهمية من أي وقت مضى.

مقالات مشابهة