2009-11-30 18 views
5

Có thư viện mã nguồn mở nào có thể được sử dụng để tìm kiếm Deep Web không?Có thư viện mã nguồn mở nào có thể được sử dụng để tìm kiếm Web sâu không?

+1

Bạn có quan tâm nhiều hơn đến dữ liệu hoặc api để thu thập dữ liệu không? – Steve

+0

Tôi quan tâm đến API. – luvieere

+0

Câu hỏi rất thú vị (+1), nhưng tôi e rằng bạn sẽ chỉ phải viết nó một mình (tôi hy vọng bạn có thể chứng minh tôi sai, mặc dù). – Phil

Trả lời

3

có một Giao thức sáng kiến ​​lưu trữ mở để thu thập siêu dữ liệu sử dụng xml trên html. bạn có thể tìm thấy nó tại: http://www.openarchives.org/Register/BrowseSites

Ngoài ra Web sâu (còn gọi là Deepnet, Web ẩn, web tối hoặc Web ẩn) đề cập đến nội dung World Wide Web không phải là một phần của Web bề mặt, được lập chỉ mục công cụ tìm kiếm chuẩn.

Công cụ tìm kiếm thương mại đã bắt đầu khám phá các phương pháp thay thế để thu thập dữ liệu trang web sâu. Giao thức Sơ đồ trang web (do Google phát triển lần đầu) và mod oai là các cơ chế cho phép các công cụ tìm kiếm và các bên quan tâm khác khám phá các tài nguyên Web sâu trên các máy chủ Web cụ thể. Cả hai cơ chế đều cho phép các máy chủ Web quảng cáo các URL có thể truy cập được trên chúng, do đó cho phép khám phá tự động các tài nguyên không được liên kết trực tiếp với Web bề mặt. Hệ thống lướt web sâu của Google tính toán trước các lần gửi cho mỗi biểu mẫu HTML và thêm các trang HTML kết quả vào chỉ mục công cụ tìm kiếm của Google. Các kết quả nổi lên chiếm một nghìn truy vấn mỗi giây đến nội dung Web sâu. Trong hệ thống này, trước tính toán đệ trình được thực hiện sử dụng ba thuật toán:

(1) lựa chọn các giá trị đầu vào cho đầu vào tìm kiếm văn bản chấp nhận từ khóa,

(2) xác định đầu vào mà chỉ chấp nhận giá trị của một cụ thể loại (ví dụ: ngày) và

(3) chọn một số lượng nhỏ kết hợp đầu vào tạo URL phù hợp để đưa vào chỉ mục tìm kiếm trên web.

+0

Web sâu và web tối là * không * cùng một điều. – ray

1

Nếu Google không thể lập chỉ mục bất kỳ trang nào trong số các trang này, điều gì khiến bạn nghĩ thư viện nguồn mở có thể thực hiện? :)

Điều đó nói rằng, có một số liên kết trong bài viết của bạn liên quan đến việc thu thập dữ liệu trang web sâu có thể là nơi tốt để bắt đầu điều tra. Dưới đây là một số người khác:

  • Deep Web Research có rất nhiều tài liệu tham khảo hữu ích.
  • deepwebtech.com tuyên bố có công cụ tìm kiếm web sâu, mặc dù hiện tại nó đang ngừng hoạt động.
+0

Trọng tâm của Google không phải là Deep Web - Tôi không đặt câu hỏi về khả năng tiềm năng mà là tập thể dục cho mục đích. Web sâu là một nguồn tài nguyên khá lớn cho các thông tin bất hợp pháp, liên quan đến đạn dược và các chủ đề khác không phù hợp để Google lập chỉ mục, bất kể mức độ "tìm kiếm an toàn" chúng sẽ được phân loại là thuộc về. Bởi "nguồn mở", tôi có nghĩa là các sáng kiến ​​kho lưu trữ thay vì hack-ish, có thể truy vấn thông qua một số loại API. – luvieere

+0

Munitions, thông tin bất hợp pháp ... chính xác thì bạn đang cố gắng làm gì ở đây? –

Các vấn đề liên quan