Tôi đã tự hỏi liệu có ai đã từng trích xuất/theo các liên kết mục RSS bằng cách sử dụng SgmlLinkExtractor/CrawlSpider hay không. Tôi không thể có được nó để làm việc ...Phế liệu - Theo các liên kết RSS
Tôi đang sử dụng các nguyên tắc sau:
rules = ( Rule(SgmlLinkExtractor(tags=('link',), attrs=False), follow=True, callback='parse_article'), )
(có trong tâm trí rằng các liên kết rss nằm trong liên kết thẻ).
Tôi không chắc chắn làm thế nào để nói với SgmlLinkExtractor để trích xuất văn bản() của liên kết và không để tìm kiếm các thuộc tính ...
Bất kỳ trợ giúp được chào đón, Cảm ơn trước
bạn có thể xin giải thích sự khác biệt giữa việc sử dụng quy tắc CrawlSpider và thực hiện khai thác liên kết tùy chỉnh trên gọi lại? Tôi đã đấu tranh một lúc để bắt được sự khác biệt, và sau vài lần đọc tài liệu ... vẫn không có gì. Tôi đang đi với phương pháp của bạn vì một kinh nghiệm quá khứ xấu bằng cách sử dụng các quy tắc, nhưng tôi chỉ muốn biết chính xác lý do tại sao. T.I.A – romeroqj
Có một ['' 'XMLFeedSpider'''] (https://scrapy.readthedocs.org/en/latest/topics/spiders.html?highlight=rule#xmlfeedspider-example) người ta có thể sử dụng hiện nay. – opyate