Nutch là cách tốt nhất bạn có thể làm khi nói đến trình thu thập thông tin miễn phí. Nó được xây dựng dựa trên khái niệm Lucene (theo cách được chia tỷ lệ doanh nghiệp) và được hỗ trợ bởi đầu cuối Hadoop bằng cách sử dụng MapReduce (tương tự như Google) để truy vấn dữ liệu quy mô lớn. Sản phẩm tuyệt vời! Tôi hiện đang đọc tất cả về Hadoop trong mới (chưa được phát hành) Hadoop in Action từ manning. Nếu bạn đi tuyến đường này, tôi khuyên bạn nên vào nhóm đánh giá kỹ thuật của họ để có được một bản sao đầu tiên của tiêu đề này!
Đây là tất cả dựa trên Java. Nếu bạn là một chàng trai .net (như tôi !!) thì bạn có thể quan tâm hơn đến Lucene.NET, Nutch.NET và Hadoop.NET tất cả đều là lớp theo lớp và api bởi các cổng api tới C#.
Nguồn
2009-06-24 18:00:01
http://stackoverflow.com/questions/176820/whats-a-good-web-crawler-tool –
@LFSR Consulting. Chúng dành cho các mục đích khác nhau ... – Zanoni