hadoop ghi ở định dạng SequenceFile
bằng định dạng cặp khóa (giá trị). Hãy xem xét chúng tôi có một tệp nhật ký không bị chặn lớn. Hadoop sẽ chia nhỏ tệp dựa trên kích thước khối và lưu chúng trên nhiều nút dữ liệu. Có đảm bảo rằng mỗi cặp khóa-giá trị sẽ nằm trên một khối duy nhất không? hoặc chúng ta có thể có một trường hợp sao cho khóa nằm trong một khối trên nút 1 và giá trị (hoặc một phần của nó) trên khối thứ hai trên nút 2? Nếu chúng ta có thể có phân chia toàn bộ unmeaning, thì giải pháp là gì? đánh dấu đồng bộ hóa?Tách SequenceFile theo cách được kiểm soát - Hadoop
Một câu hỏi khác là: Hadoop có tự động viết đánh dấu đồng bộ hoặc chúng ta nên viết thủ công không?