Khi một tập tin Parquet data
được viết với phân vùng trên cột date
của chúng tôi có được một cấu trúc thư mục như:Các tệp Siêu dữ liệu Parquet có cần được cuộn lại không?
/data
_common_metadata
_metadata
_SUCCESS
/date=1
part-r-xxx.gzip
part-r-xxx.gzip
/date=2
part-r-xxx.gzip
part-r-xxx.gzip
Nếu phân vùng date=2
sẽ bị xóa mà không cần sự tham gia của các tiện ích Parquet (thông qua vỏ hoặc trình duyệt tập tin, vv) có bất kỳ tệp siêu dữ liệu nào cần được cuộn lại khi chỉ có phân vùng date=1
không?
Hoặc bạn có thể xóa phân vùng theo ý muốn và viết lại chúng (hay không) sau này?