Tôi muốn sao chép tệp test.tar.gz từ S3 sang HDFS. Điều này có thể được thực hiện bằng distcp hoặc s3distcp. Nhưng yêu cầu của tôi là khi tôi chuyển các tệp sang HDFS, nó sẽ được trích xuất ngay lập tức và trong HDFS, tôi chỉ nên có các tệp được trích xuất chứ không phải tar.gz.Sao chép và trích xuất các tệp từ s3 sang HDFS
Bất kỳ đề xuất nào vui lòng.
Đó là một lựa chọn tốt. Nhưng tôi không nên sử dụng bất kỳ hệ thống tệp cục bộ nào để đặt tệp tar.gz. Nó giống như tệp tar.gz trong S3 và trích xuất cấu trúc thư mục chỉ với các tệp, trong HDFS. – Ilango
có và không thể mở rộng cũng như – mtariq