Tôi muốn phát triển trình thu thập dữ liệu web trong Groovy (sử dụng khung Grails và cơ sở dữ liệu MongoDB) có khả năng thu thập dữ liệu trang web, tạo danh sách URL trang web và loại tài nguyên của chúng , thời gian phản hồi và số lượng chuyển hướng có liên quan.Trình thu thập thông tin trong Groovy (JSoup VS Crawler4j)
Tôi đang tranh luận về JSoup và Crawler4j. Tôi đã đọc về những gì họ về cơ bản nhưng tôi không thể hiểu rõ sự khác biệt giữa hai người. Bất cứ ai có thể đề xuất đó sẽ là một tốt hơn cho các chức năng trên? Hoặc là nó hoàn toàn không chính xác để so sánh hai?
Cảm ơn.
Tôi đã nghĩ chính xác như vậy. Tôi thực sự cần cả trình thu thập thông tin và trình phân tích cú pháp. Trình thu thập thông tin có thể là trình thu thập thông tin4j nhưng đối với trình phân tích cú pháp tôi không rõ ràng. JSoup là rất nhiều "Groovier" hơn các trình phân tích cú pháp khác. Htmlunit thất bại trong một số trường hợp mà có "bất cứ điều gì ngoài tầm thường" javascript. Ngoài ra, từ đánh giá của người dùng, rõ ràng là nó hoạt động trên <50% trang web. –
Có thể là trình quản lý web sau đó. Tôi đã không sử dụng nó, nhưng tôi đã nghe những điều tuyệt vời. – alkis
Tôi đã xem xét tích hợp trình điều khiển web selen với JSoup. Cám ơn vì sự gợi ý. –