2010-01-29 30 views
5

Nói chung tôi sử dụng lxml cho các nhu cầu phân tích cú pháp HTML của mình, nhưng điều đó không có sẵn trên Google App Engine. Sự thay thế rõ ràng là BeautifulSoup, nhưng tôi thấy nó quá dễ dàng trên HTML không đúng định dạng. Hiện tại tôi đang thử nghiệm libxml2dom và đã nhận được kết quả tốt hơn.Trình phân tích cú pháp HTML cho GAE

Trình phân tích cú pháp HTML HTML thuần túy nào bạn đã tìm thấy hoạt động tốt nhất? Ưu tiên của tôi là khả năng xử lý HTML tồi trên tốc độ.

+0

Doh! libxml2 không được bao gồm trong Python trên GAE vì vậy libxml2dom là ra – hoju

Trả lời

5

Từ BeautifulSoup documentation:

Version 3.1.0 của Beautiful Soup làm tồi tệ hơn đáng kể về HTML thực tế hơn phiên bản 3.0.8 không

Vì vậy, nó có thể giúp bạn sử dụng này phiên bản trước đó. Đó chính xác là những gì tác giả tự giới thiệu.

Bạn có thể giả vờ rằng Beautiful Soup phiên bản 3.1.0 chưa bao giờ được phát hành. Phiên bản 3.0.8 vẫn hoạt động tốt trên Python 2.3 đến 2.6.

+0

Cảm ơn vì điều đó - tôi có hiệu suất tốt hơn với 3.0.8 nhưng vẫn không thể phân tích trang web một cách hữu ích. Ngoài ra tác giả BS đã mất hứng thú trong việc phát triển nó hơn nữa vì vậy tôi đã đầu tư tốt hơn thời gian ở nơi khác. – hoju

Các vấn đề liên quan