Tôi đang cố gắng lấy thông tin liên hệ trong các trang nội dung từ một tập hợp các trang web (hàng nghìn trang). Tôi muốn hỏi các chuyên gia như các bạn trước khi gãi đầu. Tất cả những gì tôi cần là địa chỉ, id email, số điện thoại và thông tin người liên hệ nếu có.Thuật toán chuỗi tìm kiếm
Tôi nghĩ bạn đã hiểu sự cố rồi. Vâng, đó là định dạng ... vì không có định dạng chuẩn mà các trang web theo dõi, thật khó để xác định chính xác thông tin mà tôi cần. Một số trang web được thiết kế với các trang liên hệ với chúng tôi flash và một số trang web khác đã thiết kế thông tin liên hệ dưới dạng các loại hình ảnh có phông chữ tùy chỉnh.
Và gợi ý/ý tưởng/đề xuất chủ yếu là chào đón ...
Cảm ơn bạn ....
có bạn phiền chia sẻ những gì bạn sẽ làm gì với thông tin này? Mọi người sẽ có nhiều khả năng giúp bạn hơn nếu họ không nghĩ họ đang giúp người gửi spam. –
Tôi không phải là một spammer :-) Tôi thực sự ngưỡng mộ quan tâm của bạn ... Tôi là một kế hoạch để phát triển một trang web như một wiki kinh doanh với rất nhiều tùy chọn lọc giúp cả doanh nghiệp và khách hàng – Krishna
bạn muốn làm một số IR, phải mất một nhìn vào Lucene, nó thực sự mạnh mẽ – JohnJohnGa