Làm thế nào để bạn tải tệp csv vào SparkR trên RStudio? Dưới đây là các bước tôi đã thực hiện để chạy SparkR trên RStudio. Tôi đã sử dụng read.df để đọc .csv không chắc cách viết khác. Bạn không chắc chắn liệu bước này có được coi là tạo RDD hay không.Cách tải tệp csv vào SparkR trên RStudio?
#Set sys environment variables
Sys.setenv(SPARK_HOME = "C:/Users/Desktop/spark/spark-1.4.1-bin-hadoop2.6")
.libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths()))
#Sys.setenv('SPARKR_SUBMIT_ARGS'='"--packages" "com.databricks:spark-csv_2.10:1.0.3" "sparkr-shell"')
#Load libraries
library(SparkR)
library(magrittr)
sc <- sparkR.init(master="local")
sc <- sparkR.init()
sc <- sparkR.init(sparkPackages="com.databricks:spark-csv_2.11:1.0.3")
sqlContext <- sparkRSQL.init(sc)
data <- read.df(sqlContext, "C:/Users/Desktop/DataSets/hello_world.csv", "com.databricks.spark.csv", header="true")
Tôi nhận được lỗi:
Error in writeJobj(con, object) : invalid jobj 1
Tôi đã thử phương pháp spark-csv mới từ trên cao. Bây giờ tôi khi tôi chạy dữ liệu <- read.df, tôi nhận được lỗi này: Lỗi: returnStatus == 0 không phải là TRUE. – sharp
Bạn có thể cung cấp một stacktrace đầy đủ không? – zero323
Bạn đang đề cập đến kết quả đầu ra của bàn điều khiển R? – sharp