2012-07-06 24 views
7

Tôi đang sử dụng jsoup và nó thực sự tốt đẹp để dọn dẹp một số html, nhưng tôi có một mảnh html không hợp lệ như sau:làm thế nào để sử dụng jsoup để dọn dẹp html

<p>The recurrence, in close succession <ul><li>list item 1</li><li>list item 2</li></ul> second part of thisssss 

Những gì tôi muốn nhận được là:

<p>The recurrence, in close succession </p><ul><li>list item 1</li><li>list item 2</li></ul> <p>second part of thisssss</p> 

Vì vậy, jsoup có khả năng dọn dẹp html và trả lại kết quả này?

nhờ

Trả lời

9

Vâng, thử điều này:

String html = "<p>The recurrence, in close succession <ul><li>list item 1</li><li>list item 2</li></ul> second part of thisssss"; 
String clean = Jsoup.clean(html, Whitelist.relaxed()); 

Bạn có thể sử dụng Whitelist khác là tốt.

+1

Lưu ý rằng JSoup thực sự làm sạch HTML. Nó giải quyết các vấn đề như '

    ' và có thể được đặt để giải quyết ví dụ: '
    '. – Andrew

    Các vấn đề liên quan