XmlSerializer xmlSerializer = new PrettyXmlSerializer(cleanerProperties);
String html = xmlSerializer.getAsString(rootTagNode);
phương pháp trên có một vấn đề, nó sẽ cắt nội dung trong nhãn html, ví dụ:
đây là đoạn1.
will become
đây là PARAGRAPH1.
và chức năng này hoạt động cắt. Vì vậy, nếu chúng tôi tìm nạp dữ liệu từ trang web và muốn giữ định dạng như tóm tắt.
PS: nếu một nhãn html có nhãn trẻ em, contetn nhãn phụ huynh sẽ không được trimed,
ví dụ <p> this is paragraph1. <a>www.xxxxx.com</a> </p>
sẽ giữ khoảng trắng trước khi "đây là PARAGRAPH1"
Nguồn
2018-02-13 09:38:01
Trên thực tế, câu trả lời này nên được chấp nhận câu trả lời . Phương pháp này cho HTML đầy đủ mà không cần tiêm nút gốc bằng tay. – mmdemirbas