Tôi đang làm việc trên một dự án liên quan đến việc phân tích một lượng dữ liệu rất lớn, vì vậy tôi đã phát hiện MapReduce khá gần đây và trước khi tôi đi sâu vào nó, tôi muốn đảm bảo rằng kỳ vọng của tôi là chính xác.MapReduce có phù hợp với tôi không?
Sự tương tác với dữ liệu sẽ xảy ra từ giao diện web, vì vậy thời gian phản hồi là rất quan trọng ở đây, tôi đang nghĩ đến giới hạn 10-15 giây. Giả sử dữ liệu của tôi sẽ được tải vào một hệ thống tệp phân tán trước khi tôi thực hiện bất kỳ phân tích nào về nó, loại hiệu năng nào tôi có thể mong đợi từ nó?
Giả sử tôi cần lọc một tệp XML 5 GB đơn giản được tạo tốt, có cấu trúc dữ liệu khá bằng phẳng và 10.000.000 bản ghi trong đó. Và giả sử kết quả sẽ đạt được 100.000 bản ghi. Là 10 giây có thể?
Nếu có, loại phần cứng nào tôi đang xem? Nếu không, tại sao không?
Tôi đặt ví dụ xuống, nhưng bây giờ ước rằng tôi không làm như vậy. 5GB chỉ là một mẫu mà tôi đã nói đến, và trong thực tế, tôi sẽ xử lý rất nhiều dữ liệu. 5 GB có thể là dữ liệu trong một giờ trong ngày và tôi có thể muốn xác định tất cả các bản ghi đáp ứng một tiêu chí nhất định.
Cơ sở dữ liệu thực sự không phải là một lựa chọn cho tôi. Những gì tôi muốn tìm hiểu là hiệu suất nhanh nhất mà tôi có thể mong đợi từ việc sử dụng MapReduce là gì. Nó luôn luôn trong vài phút hoặc vài giờ? Không bao giờ là giây?
Hãy xem xét rằng Bản đồ giảm là về việc gửi tính toán cho dữ liệu (được lưu trữ trên nhiều máy hoạt động trên phần của chúng). Một tệp 5GB duy nhất không thực sự phù hợp với mô hình. – z5h
MapReduce quá mức cần thiết cho một tệp 5GB. Bạn có thể xử lý trên một máy, đặc biệt nếu nó chỉ thay đổi một lần một ngày. Ngoài ra, MapReduce là một khái niệm, không phải là một triển khai thực tế. Nếu bạn định sử dụng nó, bạn sẽ muốn điều tra các triển khai cụ thể. –
Nếu MapReduce (hoặc bất kỳ khái niệm nào khác) là điều thích hợp để sử dụng phụ thuộc rất nhiều vào loại phân tích bạn có, thì tần suất dữ liệu của bạn thay đổi, theo cách nào và loại tiền xử lý nào là có thể. Bạn chắc chắn phải cung cấp thêm chi tiết trước khi bạn có thể mong đợi để có được một câu trả lời hữu ích! –