Tôi đang bắt đầu với sự cố, và tôi có vấn đề thực sự đầu tiên. Nó đang tải hình ảnh. Đây là con nhện của tôi.Tải xuống hình ảnh có hình thu nhỏ
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from example.items import ProductItem
from scrapy.utils.response import get_base_url
import re
class ProductSpider(CrawlSpider):
name = "product"
allowed_domains = ["domain.com"]
start_urls = [
"http://www.domain.com/category/supplies/accessories.do"
]
def parse(self, response):
hxs = HtmlXPathSelector(response)
items = []
sites = hxs.select('//td[@class="thumbtext"]')
number = 0
for site in sites:
item = ProductItem()
xpath = '//div[@class="thumb"]/img/@src'
item['image_urls'] = site.select(xpath).extract()[number]
item['image_urls'] = 'http://www.domain.com' + item['image_urls']
items.append(item)
number = number + 1
return items
Khi tôi trích dẫn ITEM_PIPELINES
và IMAGES_STORE
trong settings.py
cách này tôi nhận được URL thích hợp cho hình ảnh Tôi muốn tải về (bản sao dán nó vào trình duyệt để kiểm tra).
Nhưng khi tôi unquote những người tôi bị lỗi sau:
raise ValueError('Missing scheme in request url: %s' % self._url')
exceptions.ValueError: Missing scheme in request url:h
và tôi không thể tải hình ảnh của tôi.
Tôi đã tìm kiếm cả ngày và không tìm thấy gì hữu ích.
bạn có một đường ống dẫn để xử lý các url? bạn đã đăng ký đường dẫn của mình trong settings.py chưa? http://doc.scrapy.org/en/latest/topics/images.html, là tài liệu tham khảo tuyệt vời. bạn có quyền thích hợp để ghi vào đường dẫn IMAGE_STORE không? – dm03514
vâng tôi đã làm mọi thứ như đã nói, thực sự tôi đã sử dụng tài liệu tham khảo đó nhưng vẫn ... không – iblazevic