Tôi có một tập lệnh Apache Spark chạy trên Google Compute Engine để xuất Google Cloud Storage. Tôi có hơn 300 tệp part-00XXX trong thư mục Bộ nhớ đám mây của mình. Tôi muốn hợp nhất chúng.Hợp nhất hơn 32 tệp trong Google Cloud Storage
tôi đã cố gắng:
[email protected]:~$ gsutil compose gs://mybucket/data/* gs://mybucket/myfile.csv
Nhưng tôi đã nhận lỗi này:
CommandException: "compose" called with too many component objects. Limit is 32.
Bất kỳ ý tưởng về một giải pháp sáp nhập tất cả các file đề tài phần?
Phân vùng tệp của bạn thành nhiều phần với 32 tệp trong đó. Hợp nhất từng cá nhân. Do bạn bắt đầu với N tệp, bạn sẽ có N/32 tệp ngay bây giờ. nói lại. Nếu bạn có đủ bộ nhớ, bạn có thể làm điều đó với các dòng lệnh phụ và không phải đọc/ghi vào đĩa mỗi lần –