tôi có thể viết nó vàoLàm thế nào để viết dataframe (thu được từ bảng hive) vào hadoop SequenceFile và RCFile?
ORC
PARQUET
trực tiếp và
TEXTFILE
AVRO
sử dụng phụ thuộc bổ sung từ databricks.
<dependency>
<groupId>com.databricks</groupId>
<artifactId>spark-csv_2.10</artifactId>
<version>1.5.0</version>
</dependency>
<dependency>
<groupId>com.databricks</groupId>
<artifactId>spark-avro_2.10</artifactId>
<version>2.0.1</version>
</dependency>
Mẫu mã:
SparkContext sc = new SparkContext(conf);
HiveContext hc = new HiveContext(sc);
DataFrame df = hc.table(hiveTableName);
df.printSchema();
DataFrameWriter writer = df.repartition(1).write();
if ("ORC".equalsIgnoreCase(hdfsFileFormat)) {
writer.orc(outputHdfsFile);
} else if ("PARQUET".equalsIgnoreCase(hdfsFileFormat)) {
writer.parquet(outputHdfsFile);
} else if ("TEXTFILE".equalsIgnoreCase(hdfsFileFormat)) {
writer.format("com.databricks.spark.csv").option("header", "true").save(outputHdfsFile);
} else if ("AVRO".equalsIgnoreCase(hdfsFileFormat)) {
writer.format("com.databricks.spark.avro").save(outputHdfsFile);
}
Có cách nào để viết dataframe vào SequenceFile hadoop và RCFile?
loại tệp trình tự nào? csv, json? –