2009-05-09 31 views
9

Tôi muốn có thể tải xuống một trang và tất cả các tài nguyên liên quan của nó (hình ảnh, biểu định kiểu, tệp kịch bản, v.v.) bằng Python. Tôi (phần nào) quen thuộc với urllib2 và biết cách tải xuống các url riêng lẻ, nhưng trước khi tôi bắt đầu và bắt đầu hack tại BeautifulSoup + urllib2 tôi muốn chắc chắn rằng không có một Python tương đương với "wget ​​--page-requisites http://www.google.com ".Tải xuống một trang web và tất cả các tệp tài nguyên trong Python

Cụ thể tôi quan tâm đến việc thu thập thông tin thống kê về thời gian cần để tải xuống toàn bộ trang web, bao gồm tất cả các tài nguyên.

Cảm ơn Đánh dấu

+0

bản sao có thể có của http://stackoverflow.com/questions/419235/anyone-know-of-a-good-python-based-web-crawler-that-i-could-use –

Trả lời

2

websucker.py không nhập liên kết css. HTTrack.com không phải là python, nó là C/C++, nhưng nó là một tiện ích tốt, được bảo trì để tải xuống một trang web để duyệt ngoại tuyến.

http://www.mail-archive.com/[email protected]/msg13523.html [issue1124] Webchecker không phân tích cú pháp css "url @import"

Guido> Đây thực chất là không được hỗ trợ và unmaintaned mã ví dụ. Cảm thấy miễn phí để gửi bản vá mặc dù!

Các vấn đề liên quan