tôi đang cố gắng làm việc với Pyspark trong IntelliJ nhưng tôi không thể tìm ra cách cài đặt đúng/thiết lập dự án. Tôi có thể làm việc với Python trong IntelliJ và tôi có thể sử dụng vỏ pyspark nhưng tôi không thể nói cho IntelliJ cách tìm các tệp Spark (nhập kết quả pyspark trong "ImportError: Không có mô-đun tên pyspark").Viết và chạy pyspark trong IntelliJ IDEA
Mọi mẹo vặt về cách bao gồm/nhập khẩu tia lửa để IntelliJ có thể làm việc với nó được đánh giá cao.
Cảm ơn.
UPDATE:
tôi đã cố gắng đoạn mã này:
from pyspark import SparkContext, SparkConf
spark_conf = SparkConf().setAppName("scavenge some logs")
spark_context = SparkContext(conf=spark_conf)
address = "C:\test.txt"
log = spark_context.textFile(address)
my_result = log.filter(lambda x: 'foo' in x).saveAsTextFile('C:\my_result')
với các thông báo lỗi sau:
Traceback (most recent call last):
File "C:/Users/U546816/IdeaProjects/sparktestC/.idea/sparktestfile", line 2, in <module>
spark_conf = SparkConf().setAppName("scavenge some logs")
File "C:\Users\U546816\Documents\Spark\lib\spark-assembly-1.3.1-hadoop2.4.0.jar\pyspark\conf.py", line 97, in __init__
File "C:\Users\U546816\Documents\Spark\lib\spark-assembly-1.3.1-hadoop2.4.0.jar\pyspark\context.py", line 221, in _ensure_initialized
File "C:\Users\U546816\Documents\Spark\lib\spark-assembly-1.3.1-hadoop2.4.0.jar\pyspark\java_gateway.py", line 35, in launch_gateway
File "C:\Python27\lib\os.py", line 425, in __getitem__
return self.data[key.upper()]
KeyError: 'SPARK_HOME'
Process finished with exit code 1
Các biến là PYTHONPATH và SPARK_HOME, đối với những người trong chúng ta đằng sau bức tường lửa độc tài. –
Và SPARK_HOME nên bao gồm đường dẫn cho đến thư mục chứa bin, python, vv và không cho đến khi python. –