Nói chung tôi sử dụng lxml cho các nhu cầu phân tích cú pháp HTML của mình, nhưng điều đó không có sẵn trên Google App Engine. Sự thay thế rõ ràng là BeautifulSoup, nhưng tôi thấy nó quá dễ dàng trên HTML không đúng định dạng. Hiện tại tôi đang thử nghiệm libxml2dom và đã nhận được kết quả tốt hơn.Trình phân tích cú pháp HTML cho GAE
Trình phân tích cú pháp HTML HTML thuần túy nào bạn đã tìm thấy hoạt động tốt nhất? Ưu tiên của tôi là khả năng xử lý HTML tồi trên tốc độ.
Doh! libxml2 không được bao gồm trong Python trên GAE vì vậy libxml2dom là ra – hoju