Con trăn có bất kỳ cách nào để tải xuống toàn bộ trang html và nội dung của nó (hình ảnh, css) vào thư mục cục bộ được cung cấp url hay không. Và cập nhật tệp html cục bộ để chọn nội dung cục bộ.Tải xuống trang html và nội dung của trang
Trả lời
Bạn có thể sử dụng các mô-đun urllib
tải URL cá nhân nhưng điều này sẽ chỉ trả lại dữ liệu. Nó sẽ không phân tích cú pháp HTML và tự động tải xuống những thứ như tệp CSS và hình ảnh.
Nếu bạn muốn tải xuống trang "toàn bộ", bạn cần phải phân tích cú pháp HTML và tìm những thứ khác bạn cần tải xuống. Bạn có thể sử dụng một cái gì đó như Beautiful Soup để phân tích cú pháp HTML bạn truy xuất.
This question có một số mã mẫu làm chính xác điều đó.
Bạn có thể sử dụng urlib:
import urllib.request
opener = urllib.request.FancyURLopener({})
url = "http://stackoverflow.com/"
f = opener.open(url)
content = f.read()
Điều bạn đang tìm kiếm là một công cụ phản chiếu. Nếu bạn muốn một trong Python, PyPI liệt kê spider.py nhưng tôi không có kinh nghiệm với nó. Những người khác có thể tốt hơn nhưng tôi không biết - tôi sử dụng 'wget', hỗ trợ getting the CSS và hình ảnh. Điều này có lẽ làm những gì bạn muốn (trích dẫn từ the manual)
Lấy chỉ có một trang HTML, nhưng chắc bảo rằng tất cả các yếu tố cần thiết cho trang để được hiển thị, chẳng hạn như hình ảnh inline và phong cách bên ngoài tờ , cũng được tải xuống. Đồng thời, hãy thực hiện đảm bảo trang đã tải xuống tham chiếu các liên kết đã tải xuống.
wget -p --convert-links http://www.server.com/dir/page.html
- 1. Selenium tải xuống trang đầy đủ html
- 2. Nội dung phao nổi khiến nội dung bị đẩy xuống một trang HTML
- 3. Tải trang web html từ thư mục nội dung
- 4. CSS để đẩy nội dung xuống trang
- 5. Nội dung trang trình bày/chuyển trang
- 6. HTML - Thay đổi \ Cập nhật nội dung trang mà không cần refresh \ tải lại trang
- 7. Tải nội dung trang về biến số
- 8. Tải nội dung của một div trên một trang khác
- 9. Nội dung trung tâm của trang web
- 10. Tôi có thể thay đổi nội dung của nhãn trong trang chính khi tải trang nội dung không?
- 11. Chú thích chân trang, hay đúng hơn: nội dung không được kéo dài xuống chân trang
- 12. Nội dung với 100% giữa đầu trang và chân trang
- 13. ExtJS 4.1 tải nội dung từ trang web bên ngoài
- 14. Ajax/jQuery - Tải nội dung trang web vào div khi tải trang?
- 15. Thay thế nội dung của cửa sổ _top bằng nội dung iframe mà không cần tải lại trang
- 16. Trong Java và HtmlUnit, làm cách nào để đợi trang kết quả tải xuống và tải xuống dưới dạng HTML?
- 17. Trang Silverlight tải nội dung không an toàn từ Microsoft
- 18. Mã C# nhanh nhất để tải xuống trang web
- 19. Nội dung ActiveX trong trang web địa phương và "dấu trang web"
- 20. Tải xuống một div trong trang HTML dưới dạng pdf bằng cách sử dụng javascript
- 21. Truy cập phần tử nội dung từ trang nội dung qua trang cái lồng nhau
- 22. Lưu toàn bộ nội dung trang bằng Selenium
- 23. jQuery không tải trên trang chính khi trang nội dung nằm trong thư mục con
- 24. ViewPager: Nếu trang bị loại bỏ các nội dung trang tiếp theo được trang bị loại bỏ nội dung
- 25. Tải xuống mã nguồn từ trang web của Apple
- 26. AddType trong htaccess khiến trang tải xuống
- 27. Thêm nội dung vào dưới cùng của trang cuối cùng
- 28. Tải mô đun requireJS trong nội dung HTML?
- 29. Đầu trang và chân trang tùy chỉnh trong trang html
- 30. Nhận ID của đối tượng Trang Chính trong Trang Nội dung
Điều đó chỉ xuất hiện để tải xuống trang có tính đến mã phản hồi HTTP của tài khoản; nó không thực sự tải về các nguồn tài nguyên trang trừ khi tôi đang thiếu một cái gì đó. – bdeniker