Tôi muốn có thể đọc/ghi hình ảnh trên hệ thống tệp hdfs và tận dụng lợi thế của địa phương hdfs.sử dụng pyspark, đọc/ghi hình ảnh 2D trên hệ thống tệp hadoop
Tôi có một bộ sưu tập các hình ảnh trong đó mỗi ảnh gồm
- mảng 2D của uint16
- thông tin bổ sung cơ bản lưu trữ dưới dạng file xml.
Tôi muốn tạo lưu trữ trên hệ thống tệp hdfs và sử dụng tia lửa để phân tích lưu trữ. Ngay bây giờ tôi đang đấu tranh trên cách tốt nhất để lưu trữ dữ liệu trên hệ thống tập tin hdfs để có thể tận dụng tối đa cấu trúc tia lửa + hdfs.
Từ những gì tôi hiểu, cách tốt nhất là tạo trình bao bọc sequenceFile. Tôi có hai câu hỏi:
- Tạo trình tự wrapperFile là cách tốt nhất?
- Có ai có bất kỳ con trỏ nào đến các ví dụ mà tôi có thể sử dụng để bắt đầu không? Tôi không phải là người đầu tiên cần phải đọc một cái gì đó khác với tập tin văn bản trên hdfs thông qua tia lửa!
Cảm ơn - đây là thú vị. Chỉ cần tò mò để biết nếu bạn đã sử dụng tia lửa cho phân tích tập tin tiff, quá? Tôi đang làm việc với các tập tin tiff lớn (~ 800MB) và muốn tạo ra một pyspark RDD từ mảng numpy, nhưng không chắc chắn làm thế nào để đi về nó. – user3591836
Từ các thử nghiệm của tôi, sẽ dễ dàng hơn nhiều nếu tôi chuẩn bị dữ liệu chính xác: Tôi chuyển đổi tệp hình ảnh thành các tệp "avro" có chứa các lát hình ảnh chồng lên nhau. Tôi phải đối phó với những hình ảnh rất lớn (400 Mpixels) và đó là giải pháp tốt nhất cho tôi. – MathiasOrtner
tuyệt vời, cảm ơn mẹo! – user3591836