Tôi chỉ mới bắt đầu với HTMLUnit và những gì tôi đang làm là lấy một trang web và trích xuất văn bản thô từ nó trừ đi tất cả đánh dấu html.Làm cách nào để trích xuất văn bản mà không có thẻ HTML ra khỏi trang web bằng cách sử dụng HtmlUnit?
htmlunit có thể thực hiện điều đó không? Nếu vậy, làm thế nào? Hay có thư viện nào khác mà tôi nên xem?
ví dụ nếu trang chứa
<body><p>para1 test info</p><div><p>more stuff here</p></div>
Tôi muốn nó ra
para1 test info more stuff here
nhờ
dù sao để làm điều này với thư viện htmlclient? – James
Có vẻ như có thể (tôi cho rằng bạn đang đề cập đến Apache HttpClient) - http://svn.apache.org/viewvc/httpcomponents/oac.hc3x/trunk/src/examples/TrivialApp.java?view=markup – Syntax