Searcharoo.NET chứa một con nhện thu thập dữ liệu và lập chỉ mục nội dung và công cụ tìm kiếm để sử dụng nó. Bạn sẽ có thể tìm đường của bạn xung quanh mã Searcharoo.Indexer.EXE để bẫy nội dung khi nó được tải xuống và thêm mã tùy chỉnh của riêng bạn từ đó ...
Nó rất cơ bản (tất cả mã nguồn được bao gồm, và được giải thích trong sáu bài viết CodeProject, gần đây nhất là ở đây Searcharoo v6): spider theo liên kết, hình ảnh, hình ảnh, tuân theo chỉ thị ROBOTS, phân tích một số loại tệp không phải HTML. Nó dành cho các trang web đơn lẻ (không phải toàn bộ trang web).
Nutch/Lucene gần như chắc chắn là giải pháp mạnh mẽ/thương mại cấp - nhưng tôi chưa xem mã của họ. Bạn không chắc chắn mình muốn đạt được điều gì, nhưng bạn cũng có thấy Microsoft Search Server Express không?
Tuyên bố từ chối trách nhiệm: Tôi là tác giả của Searcharoo; chỉ cung cấp nó ở đây như là một lựa chọn.
Bạn có thể sử dụng trình thu thập thông tin 4 nếu bạn đồng ý với việc sử dụng java. Dưới đây là hướng dẫn từng bước để thiết lập trình thu thập thông tin4j cùng với đoạn mã để kéo hình ảnh, liên kết và email bằng cách sử dụng - http://www.buggybread.com/2013/01/create-your-own-email-and- image.html –