Truy xuất toàn bộ trang web bằng Google Cache?

Có một trang web mà tôi muốn truy xuất từ Google Cache có hàng nghìn trang. Có cách nào tôi có thể lấy lại nhanh chóng bằng Google Cache hoặc một số trình thu thập thông tin/trình thu thập dữ liệu web khác không?Truy xuất toàn bộ trang web bằng Google Cache?

Nguồn

2010-07-29 stockoverflow

Bạn có thể xem những gì Google (vẫn) biết về một trang web bằng cách sử dụng một site hạn chế:

http://www.google.com/search?q=site:[domain]

Bạn cũng có thể kiểm tra Internet Archive.

(Trong cả hai trường hợp, bạn sẽ có thể muốn làm một số tự động hoá nặng để lấy hàng ngàn trang.)

Nguồn

2010-08-07 03:45:28 user413588

Tôi sẽ sử dụng Warrick: http://warrick.cs.odu.edu/ Nhưng than ôi, máy chủ của nó quá bận. Lưu trữ Internet lưu sau 6 tháng. – stockoverflow

Tôi tạo ra một free service to recover your website mà có thể lấy hầu hết các trang từ bộ nhớ cache công cụ tìm kiếm.

Đầu ra của dịch vụ là một tệp nén với HTML của bạn từ bộ nhớ cache của công cụ tìm kiếm. Nó vẫn còn trong phiên bản beta vì vậy nó vẫn cần rất nhiều tinh chỉnh và sửa lỗi, nhưng hy vọng nó có thể giúp bạn hoặc những người khác gặp cùng một vấn đề.

CẬP NHẬT: Tôi không có thời gian để tiếp tục phát triển dịch vụ nên dịch vụ đã bị đóng.

Nguồn

2012-01-05 14:34:27 Dofs

Trang web được liệt kê là liên kết đã chết: ( – NickG

Con người sẽ tuyệt đối sử thi nếu bạn github mã nguồn đó = O – dctremblay

Truy xuất toàn bộ trang web bằng Google Cache?

Trả lời

Các vấn đề liên quan