Tôi có dữ liệu nhị phân có chứa RDD. Tôi muốn sử dụng 'RDD.pipe' để đưa dữ liệu nhị phân đó vào một chương trình bên ngoài sẽ dịch nó sang dữ liệu chuỗi/văn bản. Thật không may, có vẻ như Spark đang mangling dữ liệu nhị phân trước khi nó được truyền cho chương trình bên ngoài.Cách dữ liệu nhị phân 'Ống' trong Apache Spark
Mã này đại diện cho những gì tôi đang cố gắng làm. Tôi đang làm gì sai? Làm thế nào tôi có thể ống dữ liệu nhị phân trong Spark?
bin = sc.textFile("binary-data.dat")
csv = bin.pipe ("/usr/bin/binary-to-csv.sh")
csv.saveAsTextFile("text-data.csv")
Cụ thể, tôi đang cố gắng sử dụng Spark chuyển pcap (capture gói) dữ liệu để text/csv để tôi có thể thực hiện một phân tích về nó.
Chờ, bạn có * RDD chứa dữ liệu nhị phân hay bạn cần chạy chương trình bên ngoài để tạo nó? Chạy chương trình ** một lần ** bạn có dữ liệu nhị phân là một câu hỏi cổ điển. – huitseeker
Tôi có dữ liệu nhị phân và cần tạo dữ liệu văn bản. –
Có, nhưng bạn đã quản lý để tải nó vào một RDD, như là bắt đầu của câu hỏi của bạn cho thấy (nhưng trái với những gì câu trả lời của bạn cho thấy)? – huitseeker