Tôi đang làm việc trên một dự án nhỏ để phân tích nội dung trên một số trang web mà tôi thấy thú vị; đây là một dự án DIY thực sự mà tôi đang làm cho giải trí/giác ngộ của mình, vì vậy tôi muốn tự mình viết mã càng nhiều càng tốt. Rõ ràng, tôi sẽ cần dữ liệu để cấp dữ liệu cho ứng dụng của mình, và tôi đã nghĩ tôi sẽ viết một trình thu thập dữ liệu nhỏ có thể lấy 20k trang html và ghi chúng vào tệp văn bản trên ổ cứng của tôi. Quay lại đầu trang Tuy nhiên, khi tôi xem xét SO và các trang web khác, tôi không thể tìm thấy bất kỳ thông tin nào về cách thực hiện việc này. Nó là khả thi? Dường như có các tùy chọn mã nguồn mở sẵn có (webpshinx?), Nhưng tôi muốn tự viết nó nếu có thể.Làm cách nào để thiết kế bot thu thập thông tin?
Đề án là ngôn ngữ duy nhất tôi biết rõ, nhưng tôi nghĩ tôi sẽ sử dụng dự án này để tự học một số Java, vì vậy tôi sẽ quan tâm nếu có bất kỳ thư viện vợt hoặc java nào hữu ích cho việc này .
Vì vậy, tôi đoán tóm tắt câu hỏi của tôi, một số tài nguyên tốt để bắt đầu điều này là gì? Làm cách nào để trình thu thập thông tin của tôi yêu cầu thông tin từ các máy chủ khác? Tôi sẽ phải viết một phân tích cú pháp đơn giản cho điều này, hoặc là không cần thiết cho tôi muốn lấy toàn bộ tập tin html và lưu nó như txt?
Đừng cần một cú pháp nếu bạn không đi để phân tích, nhưng phân tích cú pháp sẽ làm cho kéo ra liên kết dễ dàng hơn đáng kể. Không chắc chắn nơi bạn gặp sự cố; có rất nhiều ví dụ có sẵn - bạn đã có những gì cho đến nay? –
Bạn có dự định làm tất cả các ổ cắm tự hoạt động và nói HTTP thô với máy chủ không? Hoặc bạn có nội dung sử dụng các công cụ cấp cao hơn để yêu cầu các URL cụ thể không? (Bạn có quan tâm nhiều hơn về phía mạng hoặc bên phân tích cú pháp HTML không?) – sarnold
Dave, bạn có thể chỉ ra một ví dụ không? Điều đó sẽ rất hữu ích. Sarnold, tôi chưa bao giờ thực sự thực hiện bất kỳ chương trình web nào - chỉ cần một số nội dung với mô-đun web-server/insta trong vợt, yêu cầu và đưa ra phản hồi. Vì vậy, tôi thậm chí không chắc chắn làm thế nào để viết một chương trình gửi một phản ứng chính nó. –