Tôi đang cố gắng phân tích cú pháp tệp html bình thường bằng trình phân tích SAX.Phân tích html với trình phân tích cú pháp SAX
SAXBuilder builder2 = new SAXBuilder();
try {
Document sdoc = (Document)builder2.build(readFile);
NodeList nl=sdoc.getElementsByTagName("body");
System.out.println("nodelist>>>>>>>>>>>"+nl.getLength());
} catch (JDOMException e1) {
e1.printStackTrace();
}
nhưng tôi đang nhận được ngoại lệ
Open quote is expected for attribute "{1}" associated with an element type "class".
có thể bất cứ ai xin vui lòng cho tôi biết lý do tại sao tôi đang nhận được ngoại lệ này, các tài liệu html được tạo phù hợp và nó có tất cả các thẻ mở và đóng đúng cách.
Xin cảm ơn trước.
Có lý do cụ thể nào khiến bạn muốn thực hiện điều này với SAX không? – flash
Không, chỉ muốn lấy nội dung cơ thể từ tệp html, Vì vậy, tôi đã sử dụng nó. Còn có những giải pháp nào nữa ko? – user972590
Với SAX bạn có thể phân tích cú pháp XHTML, nhưng tôi không chắc liệu nó có thể phân tích cú pháp HTML hay không (ít nhất là hầu hết các trình phân tích cú pháp XML không). HTML không phải là một XML được định dạng tốt. –