2011-12-07 31 views
5

Tôi so sánh bốn Nutch/Heritrix/OpenPipeLine/Apache Tika Giá trị nào tốt nhất? Thành tích và điểm số của mỗi thành phần là gì? Tôi muốn có một số trình thu thập thông tin có thể mở rộng có thể thu thập thông tin danh sách các trang web và có thể được sửa đổi nếu cần.Trình thu thập thông tin nguồn mở nào là tốt nhất?

Trả lời

1

Tôi chưa nghiên cứu các trình thu thập dữ liệu mà bạn đề cập nhưng tôi biết rằng trình thu thập dữ liệu tôi đã viết có thể mở rộng và có thể được sửa đổi. Nó cũng có thể được sử dụng với AJAX và các trang web "chỉ javascript" (tức là các trang web sử dụng Bộ công cụ web của Google).

Tên là forklabs-javaxpcom và có thể được tìm thấy tại http://code.google.com/p/forklabs-javaxpcom/.

3

Nutch là hầu hết tất cả trong số chúng, có thể định cấu hình cực kỳ. Đã thử với các tài liệu 100m. Đáng tin cậy.

Heritrix cũng hoạt động tốt, nhưng không tốt hơn Nutch.

Bạn có thể cung cấp cho Crawler4j thử nếu bạn cần thu thập thông tin nhanh.

Để thực hiện thu thập thông tin và sử dụng giới thiệu và định cấu hình trình thu thập thông tin dễ dàng bằng giao diện người dùng đơn giản, bạn có thể thử websphinx.

Tika không phải là một trình thu thập: it's a toolkit detects and extracts metadata and structured text content

tôi đã có một công việc đòi hỏi bò, nhưng OpenPipeLine đã không có trong danh sách các trình thu thập thông yêu thích. Nó có một giao diện người dùng, lập lịch công việc; nó được sử dụng cho các giải pháp doanh nghiệp. Khi bạn chỉ muốn thu thập thông tin một số trang web, bạn sẽ không cần những thứ như vậy.

Các vấn đề liên quan