2017-10-29 18 views
6

Tùy chọn để bật lập chỉ mục orc từ tia lửa là gì?Làm cách nào để sử dụng chỉ mục Spark ORC?

  df 
      .write() 
      .option("mode", "DROPMALFORMED") 
      .option("compression", "snappy") 
      .mode("overwrite") 
      .format("orc") 
      .option("index", "user_id") 
      .save(...); 

Tôi đang tạo thành .option("index", uid), tôi sẽ phải đặt gì vào cột chỉ mục "user_id" từ orc.

Trả lời

2

Bạn đã thử: .partitionBy("user_id")?

df 
     .write() 
     .option("mode", "DROPMALFORMED") 
     .option("compression", "snappy") 
     .mode("overwrite") 
     .format("orc") 
     .partitionBy("user_id") 
     .save(...) 
+0

Tôi nghĩ partitionBy sẽ tạo tệp mới cho mỗi người dùng thay vì tạo chỉ mục. Nhưng bạn chỉ có một người trả lời vì vậy tôi cung cấp cho bạn tiền thưởng. – ForeverConfused

+0

@ForeverConfused tôi đang nghiên cứu về điều này. Sẽ cho bạn biết sớm. – Achyuth

+0

@Achyuth, bạn có tìm thấy bất kỳ phương pháp nào để tạo chỉ mục trong tệp ORC không? Tôi không tìm thấy gì cho đến ngày hôm nay. Dường như với tôi cách duy nhất để tận dụng chỉ mục trong tệp ORC là sử dụng Hive. Hãy sửa tôi nếu nó sai. Cảm ơn! –

Các vấn đề liên quan