Chúng tôi đã triển khai một giải pháp bằng cách sử dụng Sqoop để tải dữ liệu từ RDBMS đến cụm hadoop của chúng tôi, để dữ liệu chỉ nối thêm, nó đi để tổ chức dữ liệu thứ nguyên.Tải dữ liệu từ RDBMS lên Hadoop với nhiều đích đến
Bây giờ chúng tôi đang thiết lập hai cụm Hadoop giống nhau, chúng là cụm sao lưu cho nhau. Chúng tôi muốn tải dữ liệu từ RDBMS một lần cho cả hai cụm. Sqoop không cho phép chúng tôi làm điều đó. Chúng tôi đã thấy một số giải pháp truyền trực tuyến như luồng hoặc nifi cho phép lấy dữ liệu từ một nơi và gửi dữ liệu đến nhiều đích trong một lần. Ngoài ra, chúng tôi đang xem xét sử dụng sqoop để tải dữ liệu vào một cụm, sau đó thiết lập công việc đồng bộ hóa để sao chép dữ liệu sang cụm khác theo định kỳ, điều này nghe có vẻ phù hợp hơn khi xem khối lượng dữ liệu chúng tôi có là rất lớn.
Ai đó có thể chia sẻ một số trải nghiệm thực tế về điều này?
chúng ta có thể sử dụng sqoop để tải dữ liệu từ RDBMS tới cụm hadoop –
và chúng ta có thể sử dụng distoop distoop để sao chép từ cụm này sang cụm khác hadoop –
@KanagarajDhanapal. Có, bạn có thể sử dụng distcp, nhưng làm cách nào bạn xử lý thay đổi gia tăng cập nhật? – Shengjie