Ví dụ: tôi có một trang web "www.example.com"
Thực ra tôi muốn xóa html của trang này bằng cách lưu vào hệ thống cục bộ. nên để thử nghiệm tôi đã lưu trang đó trên máy tính để bàn của tôi như example.html
cào tệp bằng html được lưu trong hệ thống cục bộ
Bây giờ tôi đã viết mã nhện cho điều này như sau
class ExampleSpider(BaseSpider):
name = "example"
start_urls = ["example.html"]
def parse(self, response):
print response
hxs = HtmlXPathSelector(response)
Nhưng khi tôi chạy đoạn mã trên tôi đang nhận được lỗi này như sau
ValueError: Missing scheme in request url: example.html
Cuối cùng tăng thêm của tôi là để cạo file example.html
mà bao gồm mã www.example.com
html lưu trong hệ thống địa phương của tôi
Bất kỳ một thể gợi ý cho tôi về cách gán rằng tập tin example.html trong start_urls
Cảm ơn trước
Bạn có thể bật phần mềm trung gian HTTP Cache sẽ lưu vào đĩa cứng của bạn. Về cơ bản bạn có thể phát lại một lần chạy trước đó, tùy thuộc vào thời gian chờ mà bạn đã đặt cho phần mềm trung gian HTTP Cache. –
@ Sjaak Trekhaak: Cảm ơn bạn đã trả lời ur, bạn có thể cho tôi một ví dụ hay không, vì vậy nó hữu ích hơn –
tôi không chắc chắn, nhưng bạn có thể thử: 'start_urls = [" file: /// home/local/cname/username/project/scrapy_project_modules/example/exampl e.html "]' – warvariuc