Tôi muốn thực hiện một số thao tác cạo màn hình bằng Python 2.7 và tôi không có ngữ cảnh cho sự khác biệt giữa HTMLParser
, SGMLParser
hoặc Súp đẹp.Phân tích cú pháp HTML bằng Python 2.7 - HTMLParser, SGMLParser hoặc Beautiful Soup?
Tất cả những điều này có đang cố gắng giải quyết cùng một vấn đề hoặc chúng tồn tại vì các lý do khác nhau không? Cái nào đơn giản nhất, mạnh nhất, và cái nào (nếu có) là lựa chọn mặc định?
Ngoài ra, vui lòng cho tôi biết nếu tôi đã bỏ qua một tùy chọn quan trọng.
Chỉnh sửa: Tôi nên đề cập rằng tôi không có kinh nghiệm đặc biệt trong phân tích cú pháp HTML và tôi đặc biệt quan tâm đến điều này sẽ giúp tôi di chuyển nhanh nhất, với mục tiêu phân tích HTML trên một trang web cụ thể.
Bắt một hang sử dụng xpath với lxml với một vài ví dụ tốt sẽ là một cách tiếp cận tốt IMO. Hãy thử các cách sau: http://lxml.de/tutorial.html & http://www.techchorus.net/web-scraping-lxml – Medorator