Tôi muốn tập tin cập nhật mới nhất từ một trong các thư mục HDFS của tôi. Mã lệnh về cơ bản sẽ lặp qua các thư mục và thư mục con và lấy đường dẫn tệp mới nhất với tên tệp. Tôi có thể lấy tệp mới nhất trong hệ thống tệp cục bộ nhưng không chắc chắn cách thực hiện nó cho HDFS.Tải tập tin cập nhật mới nhất ở HDFS
find /tmp/sdsa -type f -print0 | xargs -0 stat --format '%Y :%y %n' | sort -nr | cut -d: -f2- | head
Mã ở trên đang hoạt động đối với hệ thống tệp cục bộ. Tôi có thể lấy ngày, giờ và tên tệp từ HDFS, nhưng làm thế nào để tôi nhận được tệp mới nhất bằng cách sử dụng 3 tham số này?
này là mã tôi đã cố gắng:
hadoop fs -ls -R /tmp/apps | awk -F" " '{print $6" "$7" "$8}'
Bất kỳ trợ giúp sẽ được đánh giá cao.
Xin cảm ơn trước.