🏗️ تحت التطوير المستمر – إذا وجدت عيباً، فأنا أعمل على إصلاحه بالفعل, شكرا لتفهمك :)

Crawl4AI
نبذة عن Crawl4AI
Crawl4AI هي مكتبة بايثون حديثة (أكثر من 60 ألف نجمة على GitHub) مصممة لاستخراج بيانات الويب وتحويلها إلى تنسيق ماركداون نظيف وجاهز لنماذج اللغة الكبيرة (LLM). تستخدم المكتبة متصفح Playwright لتحميل الصفحات وتنفيذ الجافا سكريبت، مما يضمن معالجة المحتوى الديناميكي. توفر Crawl4AI مجموعة شاملة من الميزات المتقدمة، بما في ذلك: استخراج بيانات مهيكلة باستخدام مخططات JSON مخصصة (CSS و XPath)، معالجة الخوادم الوكيلة الديناميكية (Rotating proxies)، الامتثال لملفات robots.txt، جدولة عمليات الزحف المتقدمة، وتخصيص عميق لسلوك الزاحف عبر الخطافات (hooks) وسير العمل المخصص (custom workflows). كما تتضمن المكتبة أدوات ذكاء اصطناعي لتوليد مخططات الاستخراج (schemas) تلقائيًا باستخدام OpenAI أو نماذج محلية، مما يبسط عملية تحويل المواقع إلى بيانات منظمة. تقدم Crawl4AI بنية غير متزامنة (asynchronous) تسهل بناء خطوط أنابيب بيانات عالية الأداء، وتدعم التكامل مع أطر LLM الشائعة مثل LangChain و LlamaIndex. المكتبة متاحة عبر pip (`pip install crawl4ai`) مع تبعيات إضافية لـ Playwright، وتعمل على جميع أنظمة التشغيل الرئيسية. تحتوي على ميزة “تفريغ الظل” (Shadow DOM flattening) وكشف الحظر التلقائي، وتبلغ عدد تحميلاتها على PyPI أكثر من 9 ملايين عملية. المشروع حصل على أكثر من 60 ألف نجمة على GitHub ويتم تطويره بنشاط تحت رخصة Apache 2.0. أحدث إصدار هو v0.8.6 (مايو 2026).
المميزات و عيوب Crawl4AI
المزايا
- Active Community
- Asynchronous
- Cross-Platform
- Extensible by Plugins/Extensions
- LLM-Ready Output
- Modern Architecture
- Open Source
- Playwright Integration
العيوب
- Limited Browser Automation (Relies on Playwright)
- Limited Integrations
- Requires Self-Hosting Expertise
- Resource Intensive
- Setup Complexity
أسئلة شائعة عن Crawl4AI
Scrapy هو إطار عمل لاستخراج البيانات باستخدام طلبات HTTP مباشرة، ولا يتعامل مع محتوى الجافا سكريبت بطبيعته. بينما يعتمد Crawl4AI على Playwright لتشغيل متصفح حقيقي، مما يمكنه من معالجة المواقع الحديثة التي تعتمد بشكل كبير على الجافا سكريبت. كما أن Crawl4AI يوفر إخراجًا منسقًا كماركداون جاهزًا لـ LLM، بينما يوفر Scrapy بيانات خام (JSON، CSV).
يدعم Crawl4AI نماذج LLM المحلية عبر Ollama، حيث يمكن استبدال مفتاح API الخاص بـ OpenAI بعنوان خادم Ollama المحلي (مثل `http://localhost:11434`). هذا يتيح توليد مخططات الاستخراج (schemas) ومعالجة البيانات دون الاتصال بالإنترنت وبدون تكاليف إضافية.
قم بتثبيت المكتبة عبر `pip install crawl4ai`، ثم قم بتشغيل `playwright install` لتحميل متصفحات Playwright المطلوبة. قد تحتاج إلى تثبيت تبعيات إضافية (مثل `playwright install-deps` على Linux) لضمان عمل المتصفحات بشكل صحيح.
اللغات المدعومة
تعلم أكثر عن Crawl4AI
[alhisn_related_posts]
موارد خاصة بــ Crawl4AI
أخبار و تحديثات عن Crawl4AI
[alhisn_related_news]
لا يوجد أي بيانات
بدائل و برامج مشابه لـ Crawl4AI
لا توجد مراجعات حتى الآن. كن أول من يكتب واحدة.