Nhận HTML được làm sạch trong văn bản từ HtmlCleaner

Tôi muốn xem HTML được làm sạch mà chúng tôi nhận được từ HTMLCleaner. Tôi thấy có một phương pháp được gọi là serialize trên TagNode, tuy nhiên không biết cách sử dụng nó. Có ai có mã mẫu nào không?Nhận HTML được làm sạch trong văn bản từ HtmlCleaner

Cảm ơn Nayn

Nguồn

2011-08-25 Nayn

Dưới đây là đoạn code mẫu:

HtmlCleaner htmlCleaner = new HtmlCleaner(); 

TagNode root = htmlCleaner.clean(url); 

HtmlCleaner.getInnerHtml(root); 

String html = "<" + root.getName() + ">" + htmlCleaner.getInnerHtml(root) + "</" + root.getName() + ">";

Nguồn

2012-07-29 09:48:07

Sử dụng một lớp con của org.htmlcleaner.XmlSerializer, ví dụ:

// get the element you want to serialize 
HtmlCleaner cleaner  = new HtmlCleaner(); 
TagNode  rootTagNode = cleaner.clean(url); 

// set up properties for the serializer (optional, see online docs) 
CleanerProperties cleanerProperties = cleaner.getProperties(); 
cleanerProperties.setOmitXmlDeclaration(true); 

// use the getAsString method on an XmlSerializer class 
XmlSerializer xmlSerializer = new PrettyXmlSerializer(cleanerProperties); 
String  html   = xmlSerializer.getAsString(rootTagNode);

Nguồn

2013-05-06 17:47:54 luiss

Trên thực tế, câu trả lời này nên được chấp nhận câu trả lời . Phương pháp này cho HTML đầy đủ mà không cần tiêm nút gốc bằng tay. – mmdemirbas

XmlSerializer xmlSerializer = new PrettyXmlSerializer(cleanerProperties); 

String html = xmlSerializer.getAsString(rootTagNode);

phương pháp trên có một vấn đề, nó sẽ cắt nội dung trong nhãn html, ví dụ:

đây là đoạn1.

will become

đây là PARAGRAPH1.

và chức năng này hoạt động cắt. Vì vậy, nếu chúng tôi tìm nạp dữ liệu từ trang web và muốn giữ định dạng như tóm tắt.

PS: nếu một nhãn html có nhãn trẻ em, contetn nhãn phụ huynh sẽ không được trimed,

ví dụ <p> this is paragraph1. <a>www.xxxxx.com</a> </p> sẽ giữ khoảng trắng trước khi "đây là PARAGRAPH1"

Nguồn

2018-02-13 09:38:01

Nhận HTML được làm sạch trong văn bản từ HtmlCleaner

Trả lời

Các vấn đề liên quan