Tôi bắt đầu một dự án Hadoop mới sẽ có nhiều công việc hadoop (và do đó có nhiều tệp jar). Sử dụng mercurial để kiểm soát nguồn, tôi đã tự hỏi điều gì sẽ là cách tối ưu để tổ chức cấu trúc kho lưu trữ? Nên mỗi công việc sống trong repo riêng biệt hay nó sẽ hiệu quả hơn để giữ chúng trong cùng một, nhưng chia thành các thư mục?Tổ chức lưu trữ cho dự án Hadoop
6
A
Trả lời
1
Nếu bạn đang pipelining các công việc Hadoop (đầu ra của một là đầu vào của một), tôi đã tìm thấy nó tốt hơn để giữ hầu hết trong cùng một kho vì tôi có xu hướng tạo ra rất nhiều phương pháp phổ biến tôi có thể sử dụng trong các công việc MR khác nhau.
Cá nhân, tôi giữ các công việc truyền trực tuyến trong một kho lưu trữ riêng biệt từ các công việc truyền thống của tôi vì thường không có phụ thuộc.
Bạn có định sử dụng DistributedCache hoặc công việc phát trực tiếp không? Bạn có thể muốn một thư mục riêng biệt cho các tệp bạn phân phối. Bạn có thực sự cần một JAR cho mỗi công việc Hadoop không? Tôi đã tìm thấy tôi không.
Nếu bạn cung cấp thêm chi tiết về những gì bạn dự định làm với Hadoop, tôi có thể xem tôi có thể đề xuất những gì khác.
Các vấn đề liên quan
- 1. Tổ chức lưu trữ
- 2. Tổ chức dự án PHP
- 3. C tổ chứC# single dự án
- 4. Tổ chức thư mục dự án iOS
- 5. tổ chức các dự án Redmine?
- 6. Bạn sẽ tổ chức kho lưu trữ Subversion cho các dự án phần mềm trong nhà như thế nào?
- 7. Tổ chức dự án trong C Thực tiễn tốt nhất
- 8. Tổ chức và cấu trúc tài nguyên dự án Xcode
- 9. Cách tổ chức kho lưu trữ SVN cho mã C++
- 10. Tổ chức dự án sử dụng Maven + Git
- 11. Tổ chức dự án SVN: mỗi mô-đun hoặc mỗi dự án
- 12. Tổ chức dự án thử nghiệm đơn vị .NET
- 13. Android: Cách tổ chức tài nguyên dự án?
- 14. Kho lưu trữ Maven cho dự án Google Code
- 15. Jenkins: Nhiều kho lưu trữ Git cho một dự án
- 16. Django và tổ chức dự án/ứng dụng
- 17. Tổ chức thư mục dự án Eclipse Java
- 18. Làm thế nào để tổ chức một dự án Python?
- 19. Hướng dẫn tổ chức các dự án Django lớn
- 20. Cách tổ chức các dự án Java lớn hơn - Dự án so với Không gian tên?
- 21. Ý tưởng dự án với Hadoop MapReduce
- 22. Cách tốt nhất để tổ chức nhiều dự án khi sử dụng git
- 23. Cách tổ chức dự án cho bản phát hành mã nguồn mở
- 24. Tổ chức một dự án thử nghiệm đơn vị cho các giải pháp lớn
- 25. Thực hành tốt nhất cho tổ chức dự án với ASP.NET MVC
- 26. Cách tốt nhất để tổ chức một kho lật đổ của nhiều dự án nhỏ
- 27. Cấu trúc thư mục cho dự án NuGet được xuất bản github được lưu trữ
- 28. Dự án Java: nên .classpath. Tệp dự án được cam kết vào kho lưu trữ?
- 29. Cách tạo dự án "kho lưu trữ/nhóm" sẵn sàng
- 30. Github: Làm cách nào để thêm dự án của riêng tôi vào tài khoản "tổ chức"?
Cảm ơn Eric. Tôi sẽ không lên kế hoạch thực hiện bất kỳ luồng công việc nào (có thể đến đó trong tương lai, nhưng chưa). Dự án là rất trẻ và sắp phát triển, vì vậy tôi tò mò như thế nào để bố trí một nền tảng tốt mà có thể tiếp tục tăng trưởng dự án. –