2010-06-02 42 views
6

Tôi bắt đầu một dự án Hadoop mới sẽ có nhiều công việc hadoop (và do đó có nhiều tệp jar). Sử dụng mercurial để kiểm soát nguồn, tôi đã tự hỏi điều gì sẽ là cách tối ưu để tổ chức cấu trúc kho lưu trữ? Nên mỗi công việc sống trong repo riêng biệt hay nó sẽ hiệu quả hơn để giữ chúng trong cùng một, nhưng chia thành các thư mục?Tổ chức lưu trữ cho dự án Hadoop

Trả lời

1

Nếu bạn đang pipelining các công việc Hadoop (đầu ra của một là đầu vào của một), tôi đã tìm thấy nó tốt hơn để giữ hầu hết trong cùng một kho vì tôi có xu hướng tạo ra rất nhiều phương pháp phổ biến tôi có thể sử dụng trong các công việc MR khác nhau.

Cá nhân, tôi giữ các công việc truyền trực tuyến trong một kho lưu trữ riêng biệt từ các công việc truyền thống của tôi vì thường không có phụ thuộc.

Bạn có định sử dụng DistributedCache hoặc công việc phát trực tiếp không? Bạn có thể muốn một thư mục riêng biệt cho các tệp bạn phân phối. Bạn có thực sự cần một JAR cho mỗi công việc Hadoop không? Tôi đã tìm thấy tôi không.

Nếu bạn cung cấp thêm chi tiết về những gì bạn dự định làm với Hadoop, tôi có thể xem tôi có thể đề xuất những gì khác.

+0

Cảm ơn Eric. Tôi sẽ không lên kế hoạch thực hiện bất kỳ luồng công việc nào (có thể đến đó trong tương lai, nhưng chưa). Dự án là rất trẻ và sắp phát triển, vì vậy tôi tò mò như thế nào để bố trí một nền tảng tốt mà có thể tiếp tục tăng trưởng dự án. –

Các vấn đề liên quan