Tôi đang sử dụng BeautifulSoup và urllib2 để tải xuống các trang HTML và phân tích chúng. Vấn đề là với các trang HTML được tạo sai. Mặc dù BeautifulSoup rất giỏi xử lý HTML được định dạng sai nhưng vẫn không tốt bằng Firefox.Sử dụng Gecko/Firefox hoặc Webkit có phân tích HTML trong python
Xem xét Firefox hoặc Webkit được cập nhật và linh hoạt hơn khi xử lý HTML, tôi cho rằng nó lý tưởng để sử dụng chúng để xây dựng và chuẩn hóa cây DOM của một trang và sau đó điều khiển nó thông qua Python.
Tuy nhiên, tôi không thể tìm thấy bất kỳ ràng buộc python nào cho cùng. Bất cứ ai có thể đề xuất một cách?
Tôi đã chạy vào một số giải pháp chạy một tiến trình Firefox không đầu và thao tác nó thông qua python nhưng có sẵn một giải pháp bổ sung hơn.
nó có thể là bạn đang sử dụng súp đẹp 3.1 rằng "không tồi tệ hơn đáng kể về HTML thực tế hơn phiên bản 3.0.7a không"? [1] phải phân tích một số nội dung gần đây bản thân mình và thấy rằng 3.0.7 thực sự xử lý mọi thứ tốt hơn nhiều. sử dụng easy_install để chuyển sang 3.0.7a: sudo easy_install beautifulsoup == 3.0.7a [1] http://www.crummy.com/software/BeautifulSoup/3.1-problems.html –