2016-05-17 13 views
6

Tôi mới làm quen với khung làm việc và tôi đã xem một số hướng dẫn sử dụng LinkExtractors và một số sử dụng SgmlLinkExtractor. Tôi đã cố gắng tìm kiếm sự khác biệt/ưu điểm cho cả hai, nhưng kết quả đã không được thỏa mãn.Sự khác biệt giữa LinkExtractor và SgmlLinkExtractor

Ai đó có thể cho tôi biết sự khác biệt giữa cả hai? Khi nào chúng ta nên sử dụng các bộ tách trên?

Cảm ơn!

Trả lời

9

Vấn đề tại sao bạn không thể tìm thấy tham chiếu đến những gì SgmlLinkExtractor là, bây giờ là không được chấp nhận (có liên quan changeset). Bạn có thể tìm thấy định nghĩa SgmlLinkExtractorhere - bên trong tài liệu 0.24 phế liệu.

Và, bạn không nên sử dụng SgmlLinkExtractor nữa - Hiện tại, Scrapy chỉ để lại một trình trích xuất liên kết duy nhất - LxmlLinkExtractor - một trong những điểm bí danh LinkExtractor.

+1

Đối với sự khác biệt, 'SgmlLinkExtractor' dựa trên [' sgmllib.SGMLParser'] (https://docs.python.org/2/library/sgmllib.html) (mô-đun 'sgml' không được dùng nữa kể từ Python 2.6 và không có sẵn trong Python3), trong khi 'LinkExtractor' mặc định được thực hiện trên đầu trang của' lxml', phần nào nhanh hơn và được duy trì tốt. –

Các vấn đề liên quan