2011-07-28 12 views

Trả lời

30

Các bạn đã thử:

Document doc = Jsoup.connect("http://en.wikipedia.org/").get(); 
String htmlString = doc.toString(); 

Như Document kéo dài tử nó cũng đã có phương pháp html() mà "Lấy HTML bên trong của phần tử" theo API. Vì vậy, mà nên làm việc:

Document doc = Jsoup.connect("http://en.wikipedia.org/").get(); 
String htmlString = doc.html(); 

Thông tin bổ sung:

Mỗi Document đối tượng đã có một tham chiếu đến một thể hiện của các lớp bên trong Document.OutputSettings mà có thể được truy cập thông qua các phương pháp outputSettings() Tài liệu. Ở đó, bạn có thể bật/tắt tính năng in ấn đẹp bằng cách sử dụng setter prettyPrint (đúng/sai). Xem API cho DocumentDocument.OutputSettings cho furtherinformation

+0

Khối mã đầu tiên đã cho tôi '[Ljava.lang.String; @ 383534aa' thay cho html/content. BTW nếu đó là một 'Tài liệu []' thì sao? –

7

doc.toString() công trình, cũng như doc.outerHtml().

0
  1. Yếu tố post = d.select ("div.post-content");
  2. Chuỗi dd = post.toString();
  3. Tài liệu ddd = Jsoup.parse (đ);

Sau khi phân tích các chuỗi tài liệu sau đó bạn có thể sử dụng trên đó chức năng tài liệu

  1. Elements scriptTag = ddd.getElementsByTag ("kịch bản");
  2. System.out.println (scriptTag);
Các vấn đề liên quan