Crawl4AI

تحذيرملاحظة
0
مكتبة بايثون مفتوحة المصدر لاستخراج البيانات من الويب وجاهزة لنماذج اللغة الكبيرة (LLM)، تعتمد على Playwright لتقديم محتوى ديناميكي وتحويله إلى ماركداون نظيف، مع ميزات متقدمة مثل معالجة الخوادم الوكيلة والتخصيص العميق.
ترخيص البرنامج: Open Source (Apache 2.0)
المنصات: Docker Python

تحذير

Crawl4AI v0.8.5 had a security issue with litellm; upgrade to v0.8.6 or later.

ملاحظة

Crawl4AI requires Playwright browsers to be installed (`playwright install`) and may need additional setup for different platforms.

نبذة عن Crawl4AI

Crawl4AI هي مكتبة بايثون حديثة (أكثر من 60 ألف نجمة على GitHub) مصممة لاستخراج بيانات الويب وتحويلها إلى تنسيق ماركداون نظيف وجاهز لنماذج اللغة الكبيرة (LLM). تستخدم المكتبة متصفح Playwright لتحميل الصفحات وتنفيذ الجافا سكريبت، مما يضمن معالجة المحتوى الديناميكي. توفر Crawl4AI مجموعة شاملة من الميزات المتقدمة، بما في ذلك: استخراج بيانات مهيكلة باستخدام مخططات JSON مخصصة (CSS و XPath)، معالجة الخوادم الوكيلة الديناميكية (Rotating proxies)، الامتثال لملفات robots.txt، جدولة عمليات الزحف المتقدمة، وتخصيص عميق لسلوك الزاحف عبر الخطافات (hooks) وسير العمل المخصص (custom workflows). كما تتضمن المكتبة أدوات ذكاء اصطناعي لتوليد مخططات الاستخراج (schemas) تلقائيًا باستخدام OpenAI أو نماذج محلية، مما يبسط عملية تحويل المواقع إلى بيانات منظمة. تقدم Crawl4AI بنية غير متزامنة (asynchronous) تسهل بناء خطوط أنابيب بيانات عالية الأداء، وتدعم التكامل مع أطر LLM الشائعة مثل LangChain و LlamaIndex. المكتبة متاحة عبر pip (`pip install crawl4ai`) مع تبعيات إضافية لـ Playwright، وتعمل على جميع أنظمة التشغيل الرئيسية. تحتوي على ميزة “تفريغ الظل” (Shadow DOM flattening) وكشف الحظر التلقائي، وتبلغ عدد تحميلاتها على PyPI أكثر من 9 ملايين عملية. المشروع حصل على أكثر من 60 ألف نجمة على GitHub ويتم تطويره بنشاط تحت رخصة Apache 2.0. أحدث إصدار هو v0.8.6 (مايو 2026).

المميزات و عيوب Crawl4AI

المزايا

  • Active Community
  • Asynchronous
  • Cross-Platform
  • Extensible by Plugins/Extensions
  • LLM-Ready Output
  • Modern Architecture
  • Open Source
  • Playwright Integration

العيوب

  • Limited Browser Automation (Relies on Playwright)
  • Limited Integrations
  • Requires Self-Hosting Expertise
  • Resource Intensive
  • Setup Complexity

أسئلة شائعة عن Crawl4AI

هذه الأسئلة الأكثر طرحا حول Crawl4AI

اللغات المدعومة

الإنجليزية

تعلم أكثر عن Crawl4AI

[alhisn_related_posts]

موارد خاصة بــ Crawl4AI

أخبار و تحديثات عن Crawl4AI

[alhisn_related_news]

لا يوجد أي بيانات

بدائل و برامج مشابه لـ Crawl4AI

0
0 out of 5 stars (based on 0 reviews)
ممتاز
جيد جدًا
متوسط
ضعيف
فظيع


لا توجد مراجعات حتى الآن. كن أول من يكتب واحدة.


أخر تحديث للصفحة مايو 27, 2026