Tôi vừa mới cài đặt cào và theo dmoz đơn giản tutorial hoạt động. Tôi chỉ nhìn lên xử lý tập tin cơ bản cho python và cố gắng để có được trình thu thập thông tin để đọc một danh sách các URL từ một tập tin nhưng có một số lỗi. Điều này có lẽ sai nhưng tôi đã cho nó một shot. Có ai đó vui lòng chỉ cho tôi một ví dụ về việc đọc danh sách các URL bị lỗi? Cảm ơn trước.Đọc danh sách các URL từ tập tin để cạo không?
from scrapy.spider import BaseSpider
class DmozSpider(BaseSpider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
f = open("urls.txt")
start_urls = f
def parse(self, response):
filename = response.url.split("/")[-2]
open(filename, 'wb').write(response.body)
'readlines() 'giữ lại dòng mới vào cuối mỗi dòng. Tôi đã gửi bản chỉnh sửa sẽ 'strip()' các dòng mới và đóng tệp. –