2011-01-21 57 views
6

Tôi phải trích xuất một số thông tin từ một trang web và định dạng lại thông tin đó cho người dùng.Phân tích cú pháp HTML từ một trang web

Vì trang web có phần thường xuyên, bây giờ tôi sử dụng HttpClient để truy xuất HTML dưới dạng chuỗi và tôi trích xuất dữ liệu tại các vị trí nhất định bằng dữ liệu có liên quan.

Dù sao thì tôi tự hỏi liệu có cách nào tốt hơn, có thể là cách nhận thức HTML. Bạn sẽ làm điều này như thế nào?

Chúc mừng

+0

bản sao có thể có của [Phân tích HTML Java] (http://stackoverflow.com/questions/238036/java-html-parsing) –

+0

http://stackoverflow.com/questions/4623427/html-parsing-using-java –

+0

http://stackoverflow.com/questions/4614211/java-html-parsing –

Trả lời

7

Lý tưởng nhất, bạn nên sử dụng trình phân tích cú pháp HTML thực. Tôi đã sử dụng Jsoup thành công trong quá khứ trên Android:

http://jsoup.org/

1

Chúng tôi đã sử dụng HttpUnit làm làm điều này trong quá khứ.

1

jsoup.org tốt hơn nhưng Cobra cũng có một số tính năng bổ sung (nhận thức CSS và nhận biết JavaScript).

3

Cá nhân tôi thích sử dụng Jericho phân tích cú pháp: http://jericho.htmlparser.net/docs/index.html

Nó rất dễ dàng để sử dụng, có ví dụ rất nhiều trên trang của dự án và những giao dịch tốt với HTML thuần túy (tags không khép kín vv).

Các vấn đề liên quan