Tôi cần phát triển công cụ tìm kiếm dọc như một phần của trang web. Dữ liệu cho công cụ tìm kiếm đến từ các trang web thuộc danh mục cụ thể. Tôi đoán cho điều này tôi cần phải có một trình thu thập thông tin thu thập dữ liệu vài (một vài trăm) trang web (trong một danh mục kinh doanh cụ thể) và trích xuất nội dung và url của sản phẩm và dịch vụ. Các loại trang khác có thể không liên quan. Hầu hết các trang web là nhỏ hoặc nhỏ (một vài trăm trang nhiều nhất). Các sản phẩm có từ 10 đến 30 thuộc tính.Phát triển trình thu thập thông tin và trình thu thập thông tin cho công cụ tìm kiếm dọc
Bất kỳ ý tưởng nào về cách viết trình thu thập và trình trích xuất như vậy. Tôi đã viết một vài trình thu thập dữ liệu và trình trích xuất nội dung bằng các thư viện ruby thông thường, nhưng không phải là một công cụ tìm kiếm đầy đủ. Tôi đoán, thu thập thông tin, theo thời gian, tỉnh dậy và tải xuống các trang từ các trang web. Hành vi lịch sự thông thường như kiểm tra các quy tắc loại trừ robot sẽ được tuân theo, tất nhiên. Trong khi trình trích xuất nội dung có thể cập nhật cơ sở dữ liệu sau khi nó đọc các trang. Làm cách nào để đồng bộ hóa trình thu thập thông tin và trình trích xuất? Chúng phải được tích hợp chặt chẽ như thế nào?
Các thuộc tính từ tất cả các trang web có được lưu trữ ở cùng một vị trí không? Ví dụ, bạn có 30 + cột trên một bảng cơ sở dữ liệu. – BenMaddox