Có thể đọc các tệp pdf/audio/video (dữ liệu không có cấu trúc) bằng Apache Spark không? Ví dụ: tôi có hàng nghìn hóa đơn pdf và tôi muốn đọc dữ liệu từ những hóa đơn đó và thực hiện một số phân tích về điều đó. Tôi phải làm gì để xử lý dữ liệu phi cấu trúc?Có thể đọc các tệp pdf/audio/video (dữ liệu phi cấu trúc) bằng Apache Spark không?
5
A
Trả lời
6
Vâng, đúng vậy. Sử dụng sparkContext.binaryFiles
để tải tệp ở định dạng nhị phân và sau đó sử dụng map
để ánh xạ giá trị sang một số định dạng khác - ví dụ: phân tích cú pháp nhị phân với Apache Tika hoặc Apache POI.
Mã giả:
val rawFile = sparkContext.binaryFiles(...
val ready = rawFile.map (here parsing with other framework
là gì quan trọng, phân tích phải được thực hiện với khuôn khổ khác như đã đề cập trong câu trả lời của tôi. Bản đồ sẽ nhận InputStream làm đối số
Các vấn đề liên quan
- 1. Đọc dữ liệu có cấu trúc từ tệp nhị phân -?
- 2. Cấu trúc Lambda với Apache Spark
- 3. Đọc các tệp json khá in trong Apache Spark
- 4. Đọc tệp HDF5 trong Apache Spark
- 5. Đọc dữ liệu nhị phân (từ tệp) thành cấu trúc
- 6. Đọc các tệp JSON lớn vào Khung dữ liệu Spark
- 7. Tại sao Apache Spark đọc các cột Parquet không cần thiết trong các cấu trúc lồng nhau?
- 8. Cách trích xuất cấu trúc JSON phức tạp bằng cách sử dụng Khung dữ liệu Apache Spark 1.4.0
- 9. Đọc tệp nhị phân thành cấu trúc
- 10. Tôi có thể chạy Cơ sở dữ liệu chuỗi thời gian (TSDB) trên Apache Spark không?
- 11. Websphere MQ là nguồn dữ liệu cho Apache Spark Streaming
- 12. Apache Spark đọc tệp dưới dạng luồng từ HDFS
- 13. Định hình lại dữ liệu có cấu trúc dài. Có thể vào cấu trúc rộng bằng chức năng data.table?
- 14. Cách đọc tệp có dữ liệu thử nghiệm bằng Clojure?
- 15. Cấu trúc dữ liệu có thể phát triển trong MATLAB
- 16. cách đọc cấu trúc dữ liệu bất biến từ tệp trong scala
- 17. OCaml: có thể định nghĩa các cấu trúc dữ liệu đệ quy lẫn nhau trong các tệp riêng biệt
- 18. Có thể lấy các yếu tố cấu trúc từ một tệp PDF bằng iTextSharp không?
- 19. Cấu trúc dữ liệu không gian cho các trò chơi
- 20. Python có cấu trúc dữ liệu dây không?
- 21. Có cấu trúc dữ liệu Queue/FIFO cho iPhone không?
- 22. LaTeX có cấu trúc dữ liệu mảng không?
- 23. Cách đọc bản ghi ở định dạng JSON từ Kafka bằng Streaming có cấu trúc?
- 24. Cấu trúc dữ liệu C#
- 25. Có cấu trúc dữ liệu "Đặt" trong .Net không?
- 26. Apache Spark vs Apache Spark 2
- 27. Cách tải dữ liệu từ tệp đã lưu bằng Spark
- 28. Không thể khởi động Apache Spark trên Windows bằng Cygwin
- 29. Cấu hình cổng mạng Apache Spark
- 30. STM có cung cấp khóa hạt mịn cho các cấu trúc dữ liệu hiện có không?
Tìm kiếm 'đọc pdf spark' được tìm thấy http://blog.cloudera.com/blog/2015/10/how-to-index-scanned-pdfs-at-scale-using- ít hơn 50 dòng mã/ –
Đề xuất tài nguyên ngoại vi nếu tắt chủ đề cho StackOverflow. Tôi đã trả lời với một số quy trình làm việc, chi tiết bạn phải tự thực hiện –