Có bất kỳ phương án thay thế nào cho df[100, c("column")]
trong khung dữ liệu tia lửa. Tôi muốn chọn hàng cụ thể từ một cột của khung dữ liệu tia lửa. ví dụ 100th
hàng trong mã tương đương trên Rnhận hàng cụ thể từ khung dữ liệu tia lửa
Trả lời
Trước hết, bạn phải hiểu rằng DataFrames
được phân phối, có nghĩa là bạn không thể truy cập chúng trong một điển hình thủ tục cách nào, bạn phải làm một phân tích đầu tiên. Mặc dù, bạn đang hỏi về Scala
Tôi khuyên bạn nên đọc Pyspark Documentation, vì nó có nhiều ví dụ hơn bất kỳ tài liệu nào khác.
Tuy nhiên, tiếp tục với giải thích của mình, tôi sẽ sử dụng một số phương pháp của API RDD
khiến tất cả DataFrame
có một thuộc tính RDD
. Xin vui lòng, xem ví dụ của tôi dưới đây, và thông báo như thế nào tôi lấy kỷ lục thứ 2.
df = sqlContext.createDataFrame([("a", 1), ("b", 2), ("c", 3)], ["letter", "name"])
myIndex = 1
values = (df.rdd.zipWithIndex()
.filter(lambda ((l, v), i): i == myIndex)
.map(lambda ((l,v), i): (l, v))
.collect())
print(values[0])
# (u'b', 2)
Hy vọng rằng, ai đó đưa ra giải pháp khác với ít bước hơn.
Đây là cách tôi đạt được điều tương tự trong Scala. Tôi không chắc liệu nó có hiệu quả hơn câu trả lời hợp lệ hay không, nhưng yêu cầu ít mã hóa hơn
val parquetFileDF = sqlContext.read.parquet("myParquetFule.parquet")
val myRow7th = parquetFileDF.rdd.take(7).last
Thay đổi đầu ra có phụ thuộc vào số lượng các nút mà dữ liệu được nhóm lại không? – bshelt141
- 1. Di chuyển hàng cụ thể từ một khung dữ liệu
- 2. Spark 2.0 thiếu tia lửa
- 3. cột cắt dữ liệu tia lửa và chuyển đổi
- 4. Cách chọn một số hàng có tên hàng cụ thể từ khung dữ liệu trong R
- 5. Bộ phân chia trên tia lửa apache
- 6. Phân vùng RDD trong tia lửa Streaming
- 7. Tia lửa Apache trong bộ nhớ đệm
- 8. Cách đặt tên cột thành hàm toDF() trong khung dữ liệu tia lửa bằng cách sử dụng mảng chuỗi?
- 9. Một "tia lửa" trong Haskell
- 10. Kết nối sparklyr với kết nối tia lửa từ xa
- 11. ghi các dòng dữ liệu tia lửa dưới dạng các mục trong bảng dynamoDB
- 12. Tại sao người thực thi tia lửa nhận được SIGTERM?
- 13. tải chủ đề từ tin nhắn kafka trong tia lửa
- 14. Nhận tất cả các cây từ bộ dữ liệu hàng (có id cụ thể) trong tsql
- 15. SSRS: Nhận các giá trị từ một hàng dữ liệu cụ thể?
- 16. Làm cách nào để thả các cột có cùng giá trị trong tất cả các hàng qua gấu trúc hoặc khung dữ liệu tia lửa?
- 17. Vỏ tia lửa EMR không chọn lọ
- 18. "sparkContext bị tắt" trong khi chạy tia lửa trên tập dữ liệu lớn
- 19. hàng Loại bỏ từ khung dữ liệu R
- 20. Giết một nhiệm vụ tia lửa đơn
- 21. Tách 1 cột thành 3 cột trong tia lửa scala
- 22. Làm cách nào để có thể tạo nhãn tia lửa?
- 23. Loại bỏ hiển thị tên hàng từ khung dữ liệu
- 24. ClassNotFoundException: org.apache.spark.SparkConf với tia lửa trên hive
- 25. Làm cách nào để thay đổi nhãn hàng cụ thể trong khung dữ liệu Pandas?
- 26. Apache truy vấn tia lửa qua C#
- 27. RDD tổng hợp trong tia lửa
- 28. Có thể nhận cài đặt ngữ cảnh tia lửa hiện tại trong PySpark không?
- 29. Phân loại sử dụng tia lửa sql
- 30. Thay thế các giá trị null bằng 0 sau khi kết nối dữ liệu tia lửa bên ngoài tham gia
Có thể trùng lặp của [Cách đọc các dòng cụ thể từ sparkContext] (http://stackoverflow.com/questions/35221033/ làm thế nào để đọc-cụ thể-dòng-từ-sparkcontext) –
Đây là về DataFrames, và [Làm thế nào để đọc các dòng cụ thể từ sparkContext] (http://stackoverflow.com/questions/35221033/how-to-read-specific -lines-from-sparkcontext) là về RDDs –