إطار عمل سريع وعالي المستوى لاستخراج البيانات من مواقع الويب باستخدام لغة بايثون، يدعم الزحف المتزامن والمعالجة غير المتزامنة، وهو مثالي للمشاريع واسعة النطاق.
Scrapy هو إطار عمل مفتوح المصدر ومتعدد المنصات لاستخراج البيانات من المواقع الإلكترونية (web scraping)، تم تطويره بلغة بايثون، وهو يُستخدم على نطاق واسع لبناء مشاريع زحف كبيرة ومعقدة. صُمم Scrapy ليكون سريعًا وفعالًا بفضل بنيته غير المتزامنة (asynchronous) التي تسمح بمعالجة طلبات متعددة في وقت واحد. يوفر الإطار واجهات برمجية متقدمة لتحليل المحتوى باستخدام محددات XPath و CSS، وآليات مدمجة لتتبع الروابط، ودعمًا واسعًا لتنسيقات البيانات المخرجة مثل JSON و CSV و XML. يتميز Scrapy بقدرته على التعامل مع الطلبات وإعادة المحاولات تلقائيًا، وإدارة الجلسات وملفات تعريف الارتباط، ودعم الوكيل الوسطي. يتكامل Scrapy أيضًا مع السحابة عبر خدمة Scrapy Cloud، ويتم صيانته بواسطة Zyte (سابقًا Scrapinghub) ومجتمع مفتوح المصدر. يُستخدم Scrapy في مجالات تحليل البيانات، والتجارة الإلكترونية، والبحث الأكاديمي، وأتمتة جمع المعلومات، مع أكثر من 61 ألف نجمة على GitHub و 604 مساهمًا. يعتمد الإطار على رخصة BSD-3-Clause ويتطلب Python 3.10+.
These are the most frequently asked questions about Scrapy
Scrapy في جوهره لا يعالج الجافا سكريبت لأنه يعتمد على طلبات HTTP مباشرة. ولكن يمكن دمجه مع أدوات مثل Splash أو Selenium أو Playwright لتمكينه من معالجة المحتوى الديناميكي، وهو أمر شائع في المشاريع المتقدمة.
يدعم Scrapy تصدير البيانات بتنسيقات متعددة مثل JSON، CSV، XML، و JSON Lines. يمكن أيضًا تخزينها في قواعد بيانات مثل MongoDB و PostgreSQL عبر خطوط الأنابيب (Item Pipelines).
قارئ و محرر Markdown يعمل في المتصفح، يركز على الخصوصية ويعمل محليًا بالكامل دون خادم خلفي، مع إمكانية التثبيت كتطبيق ويب تقدمي (PWA) للعمل دون اتصال بالإنترنت.
بديل مفتوح المصدر لأداة Burp Suite الاحترافية، عبارة عن وكيل HTTP (MITM) متقدم لتحليل حركة المرور وإنشاء الطلبات اليدوية والتنقيب عن الثغرات، مع واجهة إدارة سهلة الاستخدام عبر المتصفح وواجهة عبر سطر الأوامر.
أداة OSINT مفتوحة المصدر (الاستخبارات مفتوحة المصدر) لتحديد المواقع الجغرافية عبر عنوان IP أو رقم الهاتف، إلى جانب تتبع أسماء المستخدمين عبر منصات التواصل الاجتماعي. تتميز بسهولة الاستخدام وتعمل على أنظمة لينكس و Termux.
أداة سيو (SEO) مفتوحة المصدر وخفيفة الوزن، قابلة للاستضافة الذاتية، وتعمل بنظام الدفع حسب الاستخدام (Pay-as-you-go). تهدف لأن تكون بديلاً عمليًا ومجديًا اقتصاديًا للمنصات الباهظة الثمن مثل Semrush أو Ahrefs، مع التركيز على workflows محددة وليست suite ضخمة ومعقدة.
مكتبة JavaScript مفتوحة المصدر وموجهة للمطورين، بديل قوي ومباشر لـ Typeform، تتيح إنشاء نماذج متعددة الخطوات ودراسات استقصائية بأقل قدر من الكود مع الحفاظ على الخصوصية والتحكم الكامل.
محرك بحث مفتوح المصدر، سريع ومرن، يمكن دمجه بسهولة في أي موقع أو تطبيق، ويوفر بحثًا فوريًا مع ميزات متقدمة مثل التصفية والفهرسة متعددة الوسائط والبحث الهجين.
أداة سطر أوامر مفتوحة المصدر لمزامنة ونسخ الملفات بكفاءة عالية، تشتهر بخوارزمية النقل التزايدي (Delta-Transfer) التي تنقل فقط الأجزاء المتغيرة من الملفات، مما يوفر الوقت وعرض النطاق.
أداة OCR (تعرف بصري على الحروف) مفتوحة المصدر تعمل محليًا بالكامل، بديل مجاني لبرنامج ABBYY FineReader، لمعالجة الكتب والمستندات دفعة واحدة مع الحفاظ على التنسيق.
تطبيق أندرويد مفتوح المصدر يحول أي موقع ويب، ملف وسائط، أو مشروع HTML (React/Vue) إلى تطبيق أندرويد مستقل بضغطة واحدة، مع دعم إضافات JavaScript/ CSS وأدوات ذكاء اصطناعي.
نموذج OCR متقدم مفتوح المصدر للتعرف على النصوص في المستندات المعقدة، يتعامل مع الخط اليدوي، الجداول، المعادلات الرياضية، والنماذج مع الحفاظ على التنسيق الكامل.
أداة مفتوحة المصدر من مختبر الأمن في منظمة العفو الدولية (Amnesty International) لإجراء تحليل جنائي (Forensics) لأجهزة أندرويد و iOS للكشف عن آثار الاختراق ببرامج تجسس مثل Pegasus.
أداة مجانية وقوية لإنشاء الرسوم التخطيطية (Diagrams) والخرائط الذهنية والمخططات الانسيابية، تعمل عبر المتصفح أو كتطبيق سطح مكتب، مع تكامل مع خدمات سحابية متعددة.