2017-07-03 26 views
5

Có thể đọc các tệp pdf/audio/video (dữ liệu không có cấu trúc) bằng Apache Spark không? Ví dụ: tôi có hàng nghìn hóa đơn pdf và tôi muốn đọc dữ liệu từ những hóa đơn đó và thực hiện một số phân tích về điều đó. Tôi phải làm gì để xử lý dữ liệu phi cấu trúc?Có thể đọc các tệp pdf/audio/video (dữ liệu phi cấu trúc) bằng Apache Spark không?

+1

Tìm kiếm 'đọc pdf spark' được tìm thấy http://blog.cloudera.com/blog/2015/10/how-to-index-scanned-pdfs-at-scale-using- ít hơn 50 dòng mã/ –

+1

Đề xuất tài nguyên ngoại vi nếu tắt chủ đề cho StackOverflow. Tôi đã trả lời với một số quy trình làm việc, chi tiết bạn phải tự thực hiện –

Trả lời

6

Vâng, đúng vậy. Sử dụng sparkContext.binaryFiles để tải tệp ở định dạng nhị phân và sau đó sử dụng map để ánh xạ giá trị sang một số định dạng khác - ví dụ: phân tích cú pháp nhị phân với Apache Tika hoặc Apache POI.

Mã giả:

val rawFile = sparkContext.binaryFiles(... 
val ready = rawFile.map (here parsing with other framework 

là gì quan trọng, phân tích phải được thực hiện với khuôn khổ khác như đã đề cập trong câu trả lời của tôi. Bản đồ sẽ nhận InputStream làm đối số

Các vấn đề liên quan