Điều tương tự được yêu cầu 2.5 năm trước trong Downloading a web page and all of its resource files in Python nhưng không dẫn đến câu trả lời và 'xin vui lòng xem chủ đề liên quan' không thực sự hỏi điều tương tự.Tương đương với wget bằng Python để tải xuống trang web và tài nguyên
Tôi muốn tải xuống mọi thứ trên một trang để có thể xem nó chỉ từ các tệp.
Lệnh
wget --page điều kiện tiên quyết --domains --restrict-file-names = cửa sổ = DOMAIN --no-mẹ --html-mở rộng --convert-liên kết
thực hiện chính xác những gì tôi cần. Tuy nhiên, chúng tôi muốn có thể kết hợp nó với những thứ khác phải di động, vì vậy yêu cầu nó phải bằng Python.
Tôi đã xem súp đẹp, có nhiều bụi, nhiều loại nhện khác nhau được đăng xung quanh địa điểm, nhưng tất cả những thứ này dường như đối phó với việc nhận dữ liệu/liên kết theo cách thông minh nhưng cụ thể. Sử dụng chúng để làm những gì tôi muốn có vẻ như nó sẽ đòi hỏi rất nhiều công việc để đối phó với việc tìm kiếm tất cả các nguồn lực, khi tôi chắc chắn phải có một cách dễ dàng.
cảm ơn rất nhiều
nhập khẩu urllib urllib.urlretrieve ('http://www.somesite.com/file Bất cứ điều gì ',' tên tập tin được tải xuống là ') – CR0SS0V3R
vì vậy tôi biết rằng tôi có thể tải xuống một tệp theo cách đó, nhưng tôi sẽ cần sử dụng trình thu thập thông tin và đặt nhiều điều kiện để tìm tất cả các tệp mà tôi muốn (mọi thứ để có thể xem một phần của trang web ngoại tuyến). Phải có điều gì đó xung quanh tải xuống trang web và các điều kiện tiên quyết trong Python? – Conrad
bạn có thể sử dụng chức năng phân tích cú pháp trong vòng lặp for để tìm kiếm liên kết bên trong tệp đã tải xuống (hoặc đọc từ nơi nào) – CR0SS0V3R