2010-01-11 65 views
6

Tôi rất quen thuộc với ngôn ngữ lập trình java Tôi thích trích xuất dữ liệu từ một trang web và lưu trữ nó vào cơ sở dữ liệu của tôi đang chạy trên máy của tôi. Có thể trong java.If vậy nên sử dụng API nào. Ví dụ: số trường được liệt kê trên một trang web Làm thế nào tôi có thể trích xuất dữ liệu đó và lưu trữ nó vào cơ sở dữ liệu của tôi bằng cách sử dụng java.Làm thế nào để trích xuất dữ liệu từ một trang web bằng cách sử dụng java?

+0

Đuổi: http://stackoverflow.com/questions/tagged/screen-scraping+java – Jherico

+0

Hàng triệu lần lừa đảo! http://stackoverflow.com/questions/26638/what-html-parsing-libraries-do-you-recommend-in-java, http://stackoverflow.com/questions/238036/java-html-parsing, v.v. v.v. –

Trả lời

7

Những gì bạn đang đề cập đến thường được gọi là 'screencraping'. Có nhiều cách để làm điều này trong Java, tuy nhiên, tôi thích HtmlUnit. Trong khi nó được thiết kế như một cách để kiểm tra chức năng web, bạn có thể sử dụng nó để truy cập một trang web từ xa và phân tích nó.

Tôi khuyên bạn nên sử dụng lỗi tốt khi xử lý trình phân tích cú pháp html như Tagsoup để trích xuất từ ​​HTML chính xác những gì bạn đang tìm kiếm.

+0

Tôi có thể thứ hai đề xuất cho Tagsoup. tôi sử dụng nó trong một thời gian để trích xuất các mẫu dữ liệu 'các trang thế giới thực' (nghĩa là, đầy html không hợp lệ) và nó hoạt động rất tốt – bert

0

Tùy thuộc vào những gì bạn đang thực sự cố gắng làm, bạn có thể sử dụng nhiều giải pháp khác nhau.

Nếu bạn chỉ muốn tìm nạp mã HTML của trang web, thì URL.getContent() có thể là giải pháp của bạn. Dưới đây là một chút hướng dẫn:

http://www.javacoffeebreak.com/books/extracts/javanotesv3/c10/s4.html

EDIT: không hiểu ông đang tìm kiếm một cách để phân tích mã HTML. Một số công cụ đã được đề xuất ở trên. Xin lỗi vì chuyện đó.

1

Bạn có thể sử dụng VietSpider XML từ

http://sourceforge.net/projects/binhgiang/files/

Tải xuống VietSpider3_16_XML_Windows.zip hoặc VietSpider3_16_XML_Linux.zip

VietSpider Web Data Extractor: Phần mềm thu thập dữ liệu từ các trang web ((Data Scraper)), định dạng theo tiêu chuẩn XML (Text, CDATA) sau đó lưu trữ trong cơ sở dữ liệu quan hệ. Sản phẩm hỗ trợ nhiều RDBM khác nhau như Oracle, MySQL, SQL Server, H2, HSQL, Apache Derby, Postgres… VietSpider Crawler hỗ trợ phiên (đăng nhập, truy vấn bằng hình thức đầu vào), đa tải, xử lý JavaScript, proxy (và đa proxy bằng cách tự động quét proxy từ trang web)…

Các vấn đề liên quan