2008-10-07 37 views
16

Tôi cần lập chỉ mục cho toàn bộ trang web, những tiện ích webcrawler nào có ở đó? Tôi tốt nhất là sau khi một cái gì đó mà NET có thể nói chuyện, nhưng đó không phải là một showstopper.Công cụ Trình thu thập thông tin web tốt là gì?

Điều tôi thực sự cần là thứ mà tôi có thể cung cấp url trang web cho & nó sẽ theo mọi liên kết và lưu trữ nội dung để lập chỉ mục.

+0

Bạn có thể sử dụng trình thu thập thông tin 4 nếu bạn đồng ý với việc sử dụng java. Dưới đây là hướng dẫn từng bước để thiết lập trình thu thập thông tin4j cùng với đoạn mã để kéo hình ảnh, liên kết và email bằng cách sử dụng - http://www.buggybread.com/2013/01/create-your-own-email-and- image.html –

Trả lời

12

HTTrack - http://www.httrack.com/ - là trình sao chép trang web rất tốt. Hoạt động khá tốt. Đã sử dụng nó trong một thời gian dài.

Nutch là trình thu thập dữ liệu web (trình thu thập thông tin là loại chương trình bạn đang tìm) - http://lucene.apache.org/nutch/ - sử dụng tiện ích tìm kiếm đỉnh cao nhất.

1

Sphider là khá tốt. Đó là PHP, nhưng nó có thể là một số trợ giúp.

0

Tôi chưa sử dụng điều này, nhưng this có vẻ thú vị. Tác giả đã viết nó từ đầu và đăng như thế nào ông đã làm. Mã cho nó cũng có sẵn để tải xuống.

2

Searcharoo.NET chứa một con nhện thu thập dữ liệu và lập chỉ mục nội dung và công cụ tìm kiếm để sử dụng nó. Bạn sẽ có thể tìm đường của bạn xung quanh mã Searcharoo.Indexer.EXE để bẫy nội dung khi nó được tải xuống và thêm mã tùy chỉnh của riêng bạn từ đó ...

Nó rất cơ bản (tất cả mã nguồn được bao gồm, và được giải thích trong sáu bài viết CodeProject, gần đây nhất là ở đây Searcharoo v6): spider theo liên kết, hình ảnh, hình ảnh, tuân theo chỉ thị ROBOTS, phân tích một số loại tệp không phải HTML. Nó dành cho các trang web đơn lẻ (không phải toàn bộ trang web).

Nutch/Lucene gần như chắc chắn là giải pháp mạnh mẽ/thương mại cấp - nhưng tôi chưa xem mã của họ. Bạn không chắc chắn mình muốn đạt được điều gì, nhưng bạn cũng có thấy Microsoft Search Server Express không?

Tuyên bố từ chối trách nhiệm: Tôi là tác giả của Searcharoo; chỉ cung cấp nó ở đây như là một lựa chọn.

1

Tôi sử dụng Mozenda's Web Scraping software. Bạn có thể dễ dàng thu thập thông tin tất cả các liên kết và lấy tất cả thông tin bạn cần và đây là phần mềm tuyệt vời cho số tiền .

4

Crawler4j là trình thu thập thông tin mã nguồn mở Java cung cấp giao diện đơn giản để thu thập thông tin trên web. Bạn có thể thiết lập trình thu thập dữ liệu web đa luồng trong 5 phút.

Bạn có thể đặt bộ lọc của riêng mình truy cập trang hoặc không (url) và xác định một số thao tác cho từng trang được thu thập thông tin theo logic của bạn.

Một số lý do để chọn trình thu thập thông tin4j;

  1. Multi-Threaded Cấu trúc,
  2. Bạn có thể thiết lập chiều cao đến được thu thập,
  3. Đó là dựa trên Java và mã nguồn mở,
  4. kiểm soát cho các liên kết dự phòng (url),
  5. Bạn có thể đặt số trang cần được thu thập thông tin,
  6. Bạn có thể đặt kích thước trang để được thu thập thông tin,
  7. Tài liệu đủ
+0

Mã Google đã chết. Sử dụng Github thay thế: https://github.com/yasserg/crawler4j – Green

Các vấn đề liên quan