Tôi muốn phân tích một trang web đơn giản và xóa thông tin khỏi trang web đó.HTML trang web của Parse với JAVA
Tôi đã sử dụng để phân tích các tệp XML bằng DocumentBuilderFactory, tôi đã cố gắng làm điều tương tự cho tệp html nhưng nó luôn đi vào vòng lặp vô hạn.
URL url = new URL("http://www.deneme.com");
URLConnection uc = url.openConnection();
InputStreamReader input = new InputStreamReader(uc.getInputStream());
BufferedReader in = new BufferedReader(input);
String inputLine;
FileWriter outFile = new FileWriter("orhancan");
PrintWriter out = new PrintWriter(outFile);
while ((inputLine = in.readLine()) != null) {
out.println(inputLine);
}
in.close();
out.close();
File fXmlFile = new File("orhancan");
DocumentBuilderFactory dbFactory = DocumentBuilderFactory.newInstance();
DocumentBuilder dBuilder = dbFactory.newDocumentBuilder();
Document doc = dBuilder.parse(fXmlFile);
NodeList prelist = doc.getElementsByTagName("body");
System.out.println(prelist.getLength());
Có vấn đề gì? Hoặc có cách nào dễ dàng hơn để lấy dữ liệu từ một trang web cho một thẻ html đã cho không?
Trước tiên, bạn có thể sử dụng Chuỗi thay vì Tệp. Nó đi vào đâu trong một vòng lặp vô hạn? Có lẽ vì luồng đầu vào từ url mà dường như không kết thúc bạn có vấn đề đó. –