Tôi có một cơ sở dữ liệu Mongo lớn (100GB) được lưu trữ trên đám mây (MongoLab hoặc MongoHQ). Tôi muốn chạy một số nhiệm vụ Map/Reduce trên dữ liệu để tính toán một số số liệu thống kê tốn kém và tự hỏi quy trình làm việc tốt nhất là làm gì. Lý tưởng nhất là tôi muốn sử dụng các dịch vụ Map/Reduce của Amazon để làm điều này thay vì duy trì cụm Hadoop của riêng tôi.Cách tốt nhất để chạy Bản đồ/Giảm nội dung trên dữ liệu từ Mongo là gì?
Có sao chép dữ liệu từ cơ sở dữ liệu sang S3 không. Sau đó chạy Amazon Map/Reduce trên nó? Hoặc có cách nào tốt hơn để hoàn thành công việc này.
Ngoài ra nếu tiếp tục xuống dòng tôi có thể muốn chạy các truy vấn thường xuyên như mỗi ngày để dữ liệu trên S3 sẽ cần phải phản chiếu những gì trong Mongo sẽ phức tạp điều này?
Bất kỳ đề xuất/câu chuyện chiến tranh nào đều hữu ích.