Đối với những người biết wget
, nó có tùy chọn --spider
, cho phép kiểm tra xem liên kết có bị hỏng hay không mà không tải xuống trang web. Tôi muốn làm điều tương tự trong Python. Vấn đề của tôi là tôi có một danh sách các liên kết 100'000 tôi muốn kiểm tra, tối đa một lần mỗi ngày và ít nhất một lần một tuần. Trong mọi trường hợp, điều này sẽ tạo ra rất nhiều lưu lượng truy cập không cần thiết.Kiểm tra xem liên kết đã chết hay không bằng cách sử dụng Python mà không tải xuống trang web
Theo như tôi hiểu từ urllib2.urlopen()
documentation, nó không tải xuống trang nhưng chỉ có thông tin meta. Điều này có đúng không? Hay có cách nào khác để làm điều này một cách tốt đẹp?
nhất,
Troels
Phải, HEAD sẽ đưa bạn tiêu đề (bao gồm trạng thái HTTP) mà không tải xuống nội dung thư. Một số trang web (mis) được định cấu hình để gửi 'không tìm thấy'/404 trang có trạng thái 200, do đó, sẽ rất khó để phát hiện những tình huống đó. – JAL
Theo như tôi có thể nói đây là những gì wget --spider nào. –
Cảm ơn rất nhiều vì giải pháp cũng như suy nghĩ về các trang web bị định cấu hình sai (điều đáng lưu ý!) - đó chỉ là những gì tôi cần :) – Troels