2009-06-24 24 views
14

Crawler cần phải có một kiến ​​trúc mở rộng để cho phép thay đổi quy trình nội bộ, như thực hiện các bước mới (pre-phân tích cú pháp, phân tích cú pháp, vv ...)Bất kỳ ai cũng biết một trình thu thập dữ liệu web nguồn mở có thể mở rộng tốt?

tôi thấy dự án Heritrix (http://crawler.archive.org/).

Nhưng có những dự án hay khác như thế?

+0

http://stackoverflow.com/questions/176820/whats-a-good-web-crawler-tool –

+0

@LFSR Consulting. Chúng dành cho các mục đích khác nhau ... – Zanoni

Trả lời

14

Nutch là cách tốt nhất bạn có thể làm khi nói đến trình thu thập thông tin miễn phí. Nó được xây dựng dựa trên khái niệm Lucene (theo cách được chia tỷ lệ doanh nghiệp) và được hỗ trợ bởi đầu cuối Hadoop bằng cách sử dụng MapReduce (tương tự như Google) để truy vấn dữ liệu quy mô lớn. Sản phẩm tuyệt vời! Tôi hiện đang đọc tất cả về Hadoop trong mới (chưa được phát hành) Hadoop in Action từ manning. Nếu bạn đi tuyến đường này, tôi khuyên bạn nên vào nhóm đánh giá kỹ thuật của họ để có được một bản sao đầu tiên của tiêu đề này!

Đây là tất cả dựa trên Java. Nếu bạn là một chàng trai .net (như tôi !!) thì bạn có thể quan tâm hơn đến Lucene.NET, Nutch.NETHadoop.NET tất cả đều là lớp theo lớp và api bởi các cổng api tới C#.

+0

+1 cho Nutch và Hadoop, bạn cũng có thể xem xét solr nếu bạn đang tìm kiếm giải pháp phân tán và có thể mở rộng. –

+4

Từ vẻ ngoài của nó, Nutch.NET hoàn toàn không tồn tại và tôi thậm chí không thể tìm thấy một cách để tải về nó. –

+0

Cũng vậy với Hadoop.NET, không có tệp nào để tải xuống –

0

Gần đây tôi đã phát hiện ra một tên gọi là - Nutch.

0

Nếu bạn không bị ràng buộc xuống nền tảng, tôi đã có trải nghiệm rất tốt với Nutch trong quá khứ.

Được viết bằng Java và đi đôi với chỉ mục Lucene.

4

Bạn cũng có thể muốn thử Scrapy http://scrapy.org/

Nó là rất dễ dàng để xác định và chạy trình thu thập của bạn.

1

Abot là trình thu thập dữ liệu web có thể mở rộng tốt. Mỗi phần của kiến ​​trúc đều có thể cắm được, cho phép bạn hoàn toàn kiểm soát hành vi của nó. Nguồn mở của nó, miễn phí cho mục đích thương mại và cá nhân, được viết bằng C#.

https://github.com/sjdirect/abot

Các vấn đề liên quan