Chúng tôi có một lượng lớn dữ liệu máy chủ được lưu trữ trong S3
(sắp có định dạng Parquet
). Các dữ liệu cần một số chuyển đổi, và do đó, nó không thể là một bản sao thẳng từ S3. Tôi sẽ sử dụng Spark
để truy cập dữ liệu, nhưng tôi tự hỏi nếu thay vì thao tác với Spark, viết ngược lại S3, rồi sao chép sang Redshift nếu tôi chỉ có thể bỏ qua một bước và chạy truy vấn để kéo/chuyển đổi dữ liệu và sau đó sao chép trực tiếp sang Redshift?Bạn có thể sao chép thẳng từ Parquet/S3 sang Redshift bằng Spark SQL/Hive/Presto không?
6
A
Trả lời
11
Điều chắc chắn, hoàn toàn có thể.
Scala mã để đọc gỗ (lấy từ here)
val people: RDD[Person] = ...
people.write.parquet("people.parquet")
val parquetFile = sqlContext.read.parquet("people.parquet") //data frame
đang Scala để viết thư cho dịch chuyển đỏ (lấy từ here)
parquetFile.write
.format("com.databricks.spark.redshift")
.option("url", "jdbc:redshift://redshifthost:5439/database?user=username&password=pass")
.option("dbtable", "my_table_copy")
.option("tempdir", "s3n://path/for/temp/data")
.mode("error")
.save()
Các vấn đề liên quan
- 1. Sao chép tệp từ máy chủ từ xa bằng SFTP thẳng tới bộ nhớ Azure blob
- 2. Bạn có thể sao chép một máy ảo xanh không?
- 3. Sao chép từ BitmapSource sang WritableBitmap
- 4. Sao chép dữ liệu từ S3 sang AWS bằng cách sử dụng python và psycopg2
- 5. WebKit trên iPhone: có thể sao chép văn bản sang clipboad bằng JavaScript
- 6. Làm cách nào để sao chép dữ liệu từ bảng này sang bảng khác trong postgres bằng lệnh sao chép
- 7. Sao chép dữ liệu từ từ IntPtr sang IntPtr
- 8. Hiệu suất sao chép tệp bằng fread/fwrite sang USB
- 9. sao chép tệp từ amazon s3 sang hdfs bằng cách sử dụng s3distcp không thành công
- 10. sao chép một hàng duy nhất từ một cột có thể được định dạng sang
- 11. sao chép văn bản từ vim sang windows
- 12. Sao chép tệp từ Windows sang hệ thống con Ubuntu
- 13. Cordova: Không thể sao chép tệp trên Android bằng Cordova
- 14. Sao chép HTML bằng CSS sang Libre Office
- 15. So sánh TFS trong Eclipse (không thể sao chép từ trái sang phải)
- 16. Có thể sao chép ValueType không?
- 17. Sao chép từ tệp xml này sang tệp khác - powershell
- 18. Tôi có thể sao chép cấu hình gói nuget từ dự án này sang dự án khác không?
- 19. Sao chép từ grid_graph sang adjacency_list với boost :: copy_graph
- 20. Sao chép Clipboard từ iOS Simulator sang Mac?
- 21. có thể di chuyển/sao chép xô s3 sang tài khoản khác không?
- 22. Sao chép JsonSerializerCài đặt từ JsonSerializer sang JsonSerializer mới
- 23. Làm cách nào để sao chép từ CouchDB sang PouchDB?
- 24. Python 3 - giao diện luồng không sao chép sang bytearray?
- 25. Có thể sao chép/dán từ Máy tính xách tay IPython sang các ứng dụng khác không?
- 26. Sao chép tệp từ HDFS sang Máy cục bộ
- 27. Sao chép chuỗi từ argv sang mảng char trong C
- 28. Không thể sao chép bằng Git qua HTTP
- 29. Sao chép dữ liệu từ AWS S3 sang Aurora Postgres
- 30. Tôi có thể sao chép .git sang một thư mục khác không?
Bất kỳ suy nghĩ về hiệu quả như thế nào đây là so với gỗ parquet - > csv -> S3 -> sao chép câu lệnh sang redshift từ S3 –
@marcin_koss, tôi chưa đo được điều đó, nhưng nói chung, càng ít biến đổi thì càng tốt. Với S3 bạn cũng phải ghi nhớ chi phí ghi/đọc dữ liệu từ nó. – evgenii