Tôi đã tìm kiếm một thời gian nếu có bất kỳ cách nào để sử dụng lớp Scala
trong Pyspark
và tôi chưa tìm thấy bất kỳ tài liệu nào cũng như hướng dẫn về chủ đề này.Cách sử dụng lớp Scala bên trong Pyspark
Hãy nói rằng tôi có thể tạo một lớp đơn giản trong Scala
có sử dụng một số thư viện của apache-spark
, một cái gì đó như:
class SimpleClass(sqlContext: SQLContext, df: DataFrame, column: String) {
def exe(): DataFrame = {
import sqlContext.implicits._
df.select(col(column))
}
}
- Có cách nào có thể sử dụng lớp này trong
Pyspark
? - Có quá khó khăn không?
- Tôi có phải tạo tệp
.py
không? - Có hướng dẫn nào cho biết cách thực hiện điều đó không?
Nhân tiện, tôi cũng đã xem mã spark
và tôi cảm thấy hơi lạc mất và tôi không có khả năng sao chép chức năng của mình cho mục đích của riêng tôi.