Đối với cái nhìn tổng quan và chi tiết sâu sắc, bạn có thể tham khảo các documentation. Trích dẫn từ tài liệu, "gói sparklyr cung cấp chương trình phụ trợ hoàn chỉnh dplyr". Điều này phản ánh rằng sparklyr là NOT một sự thay thế cho tia lửa apache ban đầu nhưng là một phần mở rộng cho nó.
Tiếp tục, nói về cài đặt (tôi là người dùng Windows) trên máy tính độc lập, bạn cần tải xuống và cài đặt phiên bản RStudio Preview mới hoặc thực hiện chuỗi lệnh sau trong vỏ RStudio,
> devtools::install_github("rstudio/sparklyr")
cài đặt gói readr và digest nếu bạn chưa cài đặt.
install.packages("readr")
install.packages("digest")
library(sparklyr)
spark_install(version = "1.6.2")`
Khi gói được cài đặt và bạn cố gắng kết nối Kết nối với bản sao cục bộ của tia lửa bằng lệnh;
sc <- spark_connect(master = "local")
Bạn có thể thấy một lỗi như
Created default hadoop bin directory under: C:\spark-1.6.2\tmp\hadoop Error:
Để chạy Spark trên Windows bạn cần một bản sao của Hadoop winutils.exe:
- Tải Hadoop winutils.exe from
- Sao chép winutils.exe vào C: \ spark-1.6.2 \ tmp \ hadoop \ bin
Hoặc, nếu bạn đang sử dụng RStudio, bạn có thể cài đặt RStudio Preview Release bao gồm bản sao nhúng của Hadoop winutils.exe.
Độ phân giải lỗi được cung cấp cho bạn. Đi đến tài khoản github, tải xuống tệp winutils.exe và lưu nó vào vị trí, C:\spark-1.6.2\tmp\hadoop\bin
và thử tạo lại ngữ cảnh tia lửa. Năm ngoái, tôi đã xuất bản một bài đăng toàn diện trên số blog chi tiết việc cài đặt và làm việc với sparkR trên môi trường windows.
Có nói rằng, tôi khuyên bạn không nên đi qua con đường đau đớn này để cài đặt một thể hiện tia lửa cục bộ trên RStudio thông thường, thay vì thử phiên bản RStudio Preview. Nó sẽ giúp bạn tiết kiệm rất nhiều rắc rối khi tạo ra các sparkcontext. Tiếp tục hơn nữa, đây là một bài chi tiết về cách sparklyr có thể được sử dụng R-bloggers.
Tôi hy vọng điều này sẽ hữu ích.
Chúc mừng.
Liên kết của bạn với sparklyr là sai. Nên là: http://spark.rstudio.com/ – stepthom
'0,6' bây giờ hỗ trợ thực thi mã song song tùy ý. –