StormCrawler

StormCrawler

StormCrawler هو SDK مفتوح المصدر لبناء برامج زحف الويب الموزعة مع Apache Storm.المشروع تحت رخصة Apache v2 ويتكون من مجموعة من الموارد والمكونات القابلة لإعادة الاستخدام ، مكتوبة في الغالب في Java.الهدف من StormCrawler هو المساعدة في بناء برامج زحف الويب التي هي: قابلية التحجيم منخفضة ومرنة وسهلة لتوسيع مهذبة لكنها فعالة StormCrawler هي مكتبة ومجموعة من الموارد التي يمكن للمطورين الاستفادة منها لبناء برامج الزحف الخاصة بهم.والخبر السار هو أن القيام بذلك يمكن أن يكون بسيطًا جدًا.غالبًا ما يكون كل ما عليك فعله هو إعلان زاحف العاصفة كاعتماد من Maven ، وكتابة صف طبولوجيا خاص بك (نصيحة: يمكنك تمديد ConfigurableTopology) ، وإعادة استخدام المكونات التي يوفرها المشروع ، وربما كتابة زوجين مخصصين.لصلصة السري الخاصة بك.قليلاً من التغيير والتبديل في التهيئة وإيقاف تشغيلك ... ... وبصرف النظر عن المكونات الأساسية ، فإننا نوفر بعض الموارد الخارجية التي يمكنك إعادة استخدامها في مشروعك ، على سبيل المثال لدينا صنبور والمسامير ل ElasticSearch أو ParserBolt الذي يستخدم Apache Tikaلتحليل تنسيقات المستندات المختلفة.يعد StormCrawler مناسبًا تمامًا لاستخدام الحالات التي يكون فيها عنوان URL الذي يتم جلبه وتحليله بمثابة تدفقات ، ولكنه يعد أيضًا حلاً مناسبًا لعمليات الزحف العودية واسعة النطاق ، خاصةً عندما يكون زمن الاستجابة المنخفض مطلوبًا.يستخدم المشروع في الإنتاج من قبل العديد من الشركات ويتم تطويره وصيانته بنشاط.
stormcrawler

موقع الكتروني:

التصنيفات

بدائل لـ StormCrawler لنظام التشغيل BSD