Tôi rất quen thuộc với ngôn ngữ lập trình java Tôi thích trích xuất dữ liệu từ một trang web và lưu trữ nó vào cơ sở dữ liệu của tôi đang chạy trên máy của tôi. Có thể trong java.If vậy nên sử dụng API nào. Ví dụ: số trường được liệt kê trên một trang web Làm thế nào tôi có thể trích xuất dữ liệu đó và lưu trữ nó vào cơ sở dữ liệu của tôi bằng cách sử dụng java.Làm thế nào để trích xuất dữ liệu từ một trang web bằng cách sử dụng java?
Trả lời
Những gì bạn đang đề cập đến thường được gọi là 'screencraping'. Có nhiều cách để làm điều này trong Java, tuy nhiên, tôi thích HtmlUnit. Trong khi nó được thiết kế như một cách để kiểm tra chức năng web, bạn có thể sử dụng nó để truy cập một trang web từ xa và phân tích nó.
Tôi khuyên bạn nên sử dụng lỗi tốt khi xử lý trình phân tích cú pháp html như Tagsoup để trích xuất từ HTML chính xác những gì bạn đang tìm kiếm.
Tôi có thể thứ hai đề xuất cho Tagsoup. tôi sử dụng nó trong một thời gian để trích xuất các mẫu dữ liệu 'các trang thế giới thực' (nghĩa là, đầy html không hợp lệ) và nó hoạt động rất tốt – bert
Tùy thuộc vào những gì bạn đang thực sự cố gắng làm, bạn có thể sử dụng nhiều giải pháp khác nhau.
Nếu bạn chỉ muốn tìm nạp mã HTML của trang web, thì URL.getContent() có thể là giải pháp của bạn. Dưới đây là một chút hướng dẫn:
http://www.javacoffeebreak.com/books/extracts/javanotesv3/c10/s4.html
EDIT: không hiểu ông đang tìm kiếm một cách để phân tích mã HTML. Một số công cụ đã được đề xuất ở trên. Xin lỗi vì chuyện đó.
Bạn chắc chắn cần một trình phân tích cú pháp tốt như NekoHTML.
Dưới đây là một ví dụ của việc sử dụng NekoHTML, mặc dù sử dụng Groovy (một ngôn ngữ kịch bản dựa trên nền Java) chứ không phải Java chính nó:
http://www.keplarllp.com/blog/2010/01/better-competitive-intelligence-through-scraping-with-groovy
Bạn có thể sử dụng VietSpider XML từ
http://sourceforge.net/projects/binhgiang/files/
Tải xuống VietSpider3_16_XML_Windows.zip hoặc VietSpider3_16_XML_Linux.zip
VietSpider Web Data Extractor: Phần mềm thu thập dữ liệu từ các trang web ((Data Scraper)), định dạng theo tiêu chuẩn XML (Text, CDATA) sau đó lưu trữ trong cơ sở dữ liệu quan hệ. Sản phẩm hỗ trợ nhiều RDBM khác nhau như Oracle, MySQL, SQL Server, H2, HSQL, Apache Derby, Postgres… VietSpider Crawler hỗ trợ phiên (đăng nhập, truy vấn bằng hình thức đầu vào), đa tải, xử lý JavaScript, proxy (và đa proxy bằng cách tự động quét proxy từ trang web)…
- 1. Trích xuất dữ liệu cụ thể từ một trang web sử dụng PHP
- 2. Trích xuất các liên kết từ một trang web bằng cách sử dụng Go lang
- 3. Cách trích xuất URL từ một trang HTML bằng Python
- 4. Làm thế nào để có được favicon.ico từ một trang web bằng cách sử dụng Java?
- 5. Làm thế nào để trích xuất dữ liệu từ một phản ứng SOAP trong Java?
- 6. Làm thế nào để trích xuất một số phần của một trang web bằng Python
- 7. Python: Làm cách nào để trích xuất URL từ Trang HTML bằng cách sử dụng BeautifulSoup?
- 8. Làm thế nào để trích xuất một giá trị từ một chuỗi bằng cách sử dụng regex và một vỏ?
- 9. Cách tìm/trích xuất dữ liệu từ xml bằng jQuery
- 10. Làm thế nào để trích xuất một MFCC bằng cách sử dụng C#
- 11. cách trích xuất dữ liệu từ tệp xml bằng notepad ++?
- 12. Làm cách nào để truy xuất URL từ trang web bằng Java?
- 13. Làm cách nào để trích xuất dữ liệu từ một DataTable?
- 14. Trích xuất dữ liệu từ Wikipedia API
- 15. Làm cách nào để thu thập dữ liệu từ trang web sử dụng AJAX, với Perl?
- 16. Trích xuất Từ khoá Meta Từ Trang web?
- 17. Làm thế nào để trích xuất các liên kết từ một trang web bằng cách sử dụng lxml, XPath và Python?
- 18. Trích xuất dữ liệu bằng cách sử dụng spring jdbctemplate để tải trong cơ sở dữ liệu khác
- 19. Trích xuất một chuỗi từ một khung dữ liệu
- 20. Web Cạo dữ liệu bằng cách sử dụng python?
- 21. Sử dụng lớp Hash CakePHP để trích xuất dữ liệu từ một mảng
- 22. Trích xuất tất cả hình ảnh từ HTML bằng cách sử dụng JAVA
- 23. Có cách nào để Trình tích hợp dữ liệu Oracle trích xuất dữ liệu từ MongoDB
- 24. C# trích xuất dữ liệu từ XML
- 25. Làm thế nào để trích xuất văn bản từ một xml lồng nhau bằng cách sử dụng xmlpullparser trong android?
- 26. R: trích xuất văn bản UTF-8 "sạch" từ một trang web được cạo bằng RCurl
- 27. Làm cách nào để sử dụng MSXML2.ServerXMLHTTP để lấy dữ liệu từ một trang web khác?
- 28. Cách trích xuất trang trình bày từ video bằng python
- 29. Sử dụng R để tải xuống tệp dữ liệu nén, trích xuất và nhập dữ liệu
- 30. Làm cách nào để truy xuất trang web bằng C#?
Đuổi: http://stackoverflow.com/questions/tagged/screen-scraping+java – Jherico
Hàng triệu lần lừa đảo! http://stackoverflow.com/questions/26638/what-html-parsing-libraries-do-you-recommend-in-java, http://stackoverflow.com/questions/238036/java-html-parsing, v.v. v.v. –