2017-05-08 55 views
6

Chúng tôi đã triển khai một giải pháp bằng cách sử dụng Sqoop để tải dữ liệu từ RDBMS đến cụm hadoop của chúng tôi, để dữ liệu chỉ nối thêm, nó đi để tổ chức dữ liệu thứ nguyên.Tải dữ liệu từ RDBMS lên Hadoop với nhiều đích đến

Bây giờ chúng tôi đang thiết lập hai cụm Hadoop giống nhau, chúng là cụm sao lưu cho nhau. Chúng tôi muốn tải dữ liệu từ RDBMS một lần cho cả hai cụm. Sqoop không cho phép chúng tôi làm điều đó. Chúng tôi đã thấy một số giải pháp truyền trực tuyến như luồng hoặc nifi cho phép lấy dữ liệu từ một nơi và gửi dữ liệu đến nhiều đích trong một lần. Ngoài ra, chúng tôi đang xem xét sử dụng sqoop để tải dữ liệu vào một cụm, sau đó thiết lập công việc đồng bộ hóa để sao chép dữ liệu sang cụm khác theo định kỳ, điều này nghe có vẻ phù hợp hơn khi xem khối lượng dữ liệu chúng tôi có là rất lớn.

Ai đó có thể chia sẻ một số trải nghiệm thực tế về điều này?

+0

chúng ta có thể sử dụng sqoop để tải dữ liệu từ RDBMS tới cụm hadoop –

+0

và chúng ta có thể sử dụng distoop distoop để sao chép từ cụm này sang cụm khác hadoop –

+0

@KanagarajDhanapal. Có, bạn có thể sử dụng distcp, nhưng làm cách nào bạn xử lý thay đổi gia tăng cập nhật? – Shengjie

Trả lời

2

tôi thấy hai lựa chọn để làm điều này:

  • Cài đặt hai công việc Sqoop diff để sao chép thành từng cụm. Điều này sẽ giống như hai bộ dữ liệu hoạt động hơn là một bản sao lưu vì cả hai bộ đang được cập nhật từ nguồn. Điều này sẽ tạo thêm quá tải trên hệ thống cơ sở dữ liệu quan hệ vì các kết nối x2 (xấp xỉ) sẽ được tạo để sao chép dữ liệu.

  • Sử dụng công việc Sqoop duy nhất để tải dữ liệu vào một cụm. Từ đó sao chép sang cụm khác bằng distcp -update (hoặc) distcp -append. Một số lợi thế với phương pháp này:

    • Điều này sẽ giảm tải trên hệ thống cơ sở dữ liệu quan hệ.

    • Bạn có thể tận dụng sức mạnh của MR để sao chép nhanh hơn các cụm dữ liệu b/w.

    • Bạn có tùy chọn lập lịch tần suất dự phòng bằng Oozie.

    • Bạn có thể làm việc trên bản sao hoạt động hoặc bản sao lưu.

Hãy cho tôi biết suy nghĩ của bạn và nếu bạn đã hoàn thành trên bất kỳ giải pháp, xin vui lòng chia sẻ nó.

Các vấn đề liên quan