Chúng tôi là sinh viên đang cố gắng xử lý kích thước dữ liệu khoảng 140 triệu bản ghi và cố gắng chạy vài thuật toán học máy. Chúng tôi là newbie cho toàn bộ các giải pháp đám mây và triển khai mahout. Hiện tại chúng tôi đã thiết lập chúng trong cơ sở dữ liệu postgresql nhưng việc triển khai hiện tại không mở rộng quy mô và hoạt động đọc/ghi dường như rất chậm sau nhiều điều chỉnh hiệu suất. đi cho các dịch vụ dựa trên đám mây.Amazon EC2 vs PiCloud
Chúng tôi đã khám phá một vài lựa chọn thay thế có thể. dịch vụ
- Amazon đám mây dựa trên (thực hiện Mahout)
- Picloud với scikits học (chúng tôi đang lên kế hoạch để sử dụng định dạng HDF5 với NumPy)
- Xin giới thiệu bất kỳ lựa chọn thay thế khác nếu có.
Dưới đây là các câu hỏi sau
- nào sẽ mang lại kết quả tốt hơn chúng tôi (xoay quanh thời gian) và sẽ được chi phí hiệu quả? Xin vui lòng đề cập đến chúng tôi bất kỳ lựa chọn thay thế khác hiện nay.
- Trong trường hợp chúng tôi thiết lập dịch vụ amazon, chúng tôi nên có định dạng dữ liệu như thế nào? Nếu chúng ta sử dụng dynamodb thì chi phí sẽ tăng lên?
Cảm ơn
Bạn có thể vui lòng nhận xét về PiCloud (Hdf5 với Scikit) VS AWS possiblities. –
không, tôi không quen với PiCloud. – ObscureRobot