2015-11-02 34 views
5

tôi đang cố gắng làm việc với Pyspark trong IntelliJ nhưng tôi không thể tìm ra cách cài đặt đúng/thiết lập dự án. Tôi có thể làm việc với Python trong IntelliJ và tôi có thể sử dụng vỏ pyspark nhưng tôi không thể nói cho IntelliJ cách tìm các tệp Spark (nhập kết quả pyspark trong "ImportError: Không có mô-đun tên pyspark").Viết và chạy pyspark trong IntelliJ IDEA

Mọi mẹo vặt về cách bao gồm/nhập khẩu tia lửa để IntelliJ có thể làm việc với nó được đánh giá cao.

Cảm ơn.

UPDATE:

tôi đã cố gắng đoạn mã này:

from pyspark import SparkContext, SparkConf 
spark_conf = SparkConf().setAppName("scavenge some logs") 
spark_context = SparkContext(conf=spark_conf) 
address = "C:\test.txt" 
log = spark_context.textFile(address) 

my_result = log.filter(lambda x: 'foo' in x).saveAsTextFile('C:\my_result') 

với các thông báo lỗi sau:

Traceback (most recent call last): 
File "C:/Users/U546816/IdeaProjects/sparktestC/.idea/sparktestfile", line 2, in <module> 
spark_conf = SparkConf().setAppName("scavenge some logs") 
File "C:\Users\U546816\Documents\Spark\lib\spark-assembly-1.3.1-hadoop2.4.0.jar\pyspark\conf.py", line 97, in __init__ 
File "C:\Users\U546816\Documents\Spark\lib\spark-assembly-1.3.1-hadoop2.4.0.jar\pyspark\context.py", line 221, in _ensure_initialized 
File "C:\Users\U546816\Documents\Spark\lib\spark-assembly-1.3.1-hadoop2.4.0.jar\pyspark\java_gateway.py", line 35, in launch_gateway 

File "C:\Python27\lib\os.py", line 425, in __getitem__ 
return self.data[key.upper()] 
KeyError: 'SPARK_HOME' 

Process finished with exit code 1 

Trả lời

3

Đặt đường dẫn env cho (SPARK_HOMEPYTHONPATH) trong cấu hình chạy/gỡ lỗi chương trình .

Ví dụ:

SPARK_HOME=/Users/<username>/javalibs/spark-1.5.0-bin-hadoop2.4/python/ 
PYTHON_PATH=/Users/<username>/javalibs/spark-1.5.0-bin-hadoop2.4/python/pyspark 

Xem ảnh chụp đính kèm trong IntelliJ Idea

Run/Debug configuration for PySpark

+0

Các biến là PYTHONPATH và SPARK_HOME, đối với những người trong chúng ta đằng sau bức tường lửa độc tài. –

+0

Và SPARK_HOME nên bao gồm đường dẫn cho đến thư mục chứa bin, python, vv và không cho đến khi python. –

1

Ví dụ, một cái gì đó thuộc loại này:

from pyspark import SparkContext, SparkConf 
spark_conf = SparkConf().setAppName("scavenge some logs") 
spark_context = SparkContext(conf=spark_conf) 
address = "/path/to/the/log/on/hdfs/*.gz" 
log = spark_context.textFile(address) 

my_result = (log. 

...here go your actions and transformations... 

).saveAsTextFile('my_result') 
Các vấn đề liên quan