Tôi đang sử dụng JTidy v. R938. Tôi đang sử dụng mã này để cố gắng dọn dẹp một trang ...Tôi làm cách nào để JTIdy tạo tài liệu HTML được định dạng đúng?
final Tidy tidy = new Tidy();
tidy.setQuiet(false);
tidy.setShowWarnings(true);
tidy.setShowErrors(0);
tidy.setMakeClean(true);
Document document = tidy.parseDOM(conn.getInputStream(), null);
Nhưng khi tôi phân tích cú pháp URL này - http://www.chicagoreader.com/chicago/EventSearch?narrowByDate=This+Week&eventCategory=93922&keywords=&page=1, mọi thứ đều không nhận được dọn dẹp. Ví dụ, các thẻ META trên trang web, giống như
<META http-equiv="Content-Type" content="text/html; charset=UTF-8">
vẫn là
<META http-equiv="Content-Type" content="text/html; charset=UTF-8">
thay vì có một "</META >" tag hoặc xuất hiện như "< META http-equiv =" Content -Type "content =" text/html; charset = UTF-8 "/ >". Tôi xác nhận điều này bằng cách xuất kết quả JTidy org.w3c.dom.Document thành String.
Tôi có thể làm gì để làm cho JTidy thực sự dọn sạch trang - tức là làm cho trang này được tạo đúng? Tôi nhận ra có những công cụ khác ngoài kia, nhưng câu hỏi này đặc biệt liên quan đến việc sử dụng JTIdy.
Kể tìm một giải pháp cho điều này? –