Có một trang web mà tôi muốn truy xuất từ Google Cache có hàng nghìn trang. Có cách nào tôi có thể lấy lại nhanh chóng bằng Google Cache hoặc một số trình thu thập thông tin/trình thu thập dữ liệu web khác không?Truy xuất toàn bộ trang web bằng Google Cache?
Trả lời
Bạn có thể xem những gì Google (vẫn) biết về một trang web bằng cách sử dụng một site
hạn chế:
http://www.google.com/search?q=site:[domain]
Bạn cũng có thể kiểm tra Internet Archive.
(Trong cả hai trường hợp, bạn sẽ có thể muốn làm một số tự động hoá nặng để lấy hàng ngàn trang.)
Tôi tạo ra một free service to recover your website mà có thể lấy hầu hết các trang từ bộ nhớ cache công cụ tìm kiếm.
Đầu ra của dịch vụ là một tệp nén với HTML của bạn từ bộ nhớ cache của công cụ tìm kiếm. Nó vẫn còn trong phiên bản beta vì vậy nó vẫn cần rất nhiều tinh chỉnh và sửa lỗi, nhưng hy vọng nó có thể giúp bạn hoặc những người khác gặp cùng một vấn đề.
CẬP NHẬT: Tôi không có thời gian để tiếp tục phát triển dịch vụ nên dịch vụ đã bị đóng.
Trang web được liệt kê là liên kết đã chết: ( – NickG
Con người sẽ tuyệt đối sử thi nếu bạn github mã nguồn đó = O – dctremblay
- 1. Tải Toàn bộ trang web bằng C#
- 2. Cạo Toàn bộ Trang web
- 3. Làm cách nào để truy xuất trang web bằng C#?
- 4. Bộ nhớ cache OutputCache và RenderAction toàn bộ trang
- 5. Làm cách nào để cache một trang web bằng PHP?
- 6. Lưu toàn bộ nội dung trang bằng Selenium
- 7. Làm cách nào để áp dụng Google Closure cho toàn bộ trang web của tôi?
- 8. Cập nhật toàn bộ trang bằng Ajax.ActionLink
- 9. Cách kết xuất bộ nhớ cache: json
- 10. Tải lại toàn bộ trang trên Đăng/Chuyển hướng/Bỏ qua kiểm soát bộ nhớ cache
- 11. Android Webview - Hoàn toàn xóa bộ nhớ cache
- 12. Symfony 2 - ẩn toàn bộ trang web bằng hộp thoại Xác thực HTTP
- 13. SSL trên toàn bộ trang web hoặc chỉ một phần của trang web?
- 14. Cách nắm bắt dữ liệu lưu lượng truy cập API trang web bằng Google Analytics?
- 15. CSS đảo ngược toàn bộ trang web (hiệu ứng gương)
- 16. Cách tải Google Sitelinks trên trang web?
- 17. truy xuất các liên kết từ trang web bằng python và BeautifulSoup
- 18. Làm cách nào để truy xuất URL từ trang web bằng Java?
- 19. Đăng nhập bằng Google Plus trên Trang web của tôi
- 20. Phát triển web: localStorage so với bộ nhớ cache HTTP
- 21. cách lưu toàn bộ trang web bằng hình ảnh trong iOS
- 22. Truy vấn Hibernate bộ nhớ cache
- 23. Làm cách nào để truy xuất toàn bộ URL bằng các tham số?
- 24. Làm cách nào để tắt hoàn toàn bộ nhớ cache?
- 25. Django - Nhiều trang web Caching trang web
- 26. xuất bản một trang web sử dụng svn xuất khẩu
- 27. Bảng tính Google - Truy cập trang tính bằng gid
- 28. Tìm kiếm trang web của Google Analytics
- 29. MvcSiteMapProvider chưa sẵn sàng trên trang kết xuất, vấn đề bộ nhớ cache?
- 30. Feedparser - truy xuất thư cũ từ Google Reader
Tôi sẽ sử dụng Warrick: http://warrick.cs.odu.edu/ Nhưng than ôi, máy chủ của nó quá bận. Lưu trữ Internet lưu sau 6 tháng. – stockoverflow