HDFS Truy cập từ Docker-hadoop-spark - bàn làm việc qua khí cầu zeppelin

Tôi đã cài đặt https://github.com/big-data-europe/docker-hadoop-spark-workbench HDFS Truy cập từ Docker-hadoop-spark - bàn làm việc qua khí cầu zeppelin

Sau đó bắt đầu nó lên với docker-compose up. Tôi đã điều hướng đến the various urls mentioned in the git readme và tất cả dường như đang hoạt động.

sau đó tôi bắt đầu một khí cầu zeppelin apache địa phương với:

./bin/zeppelin.sh start

Trong các thiết lập thông dịch Zeppelin tôi đã lèo lái sau đó châm ngòi thông dịch và cập nhật các chủ để trỏ đến các cụm địa phương cài đặt với docker

thạc sĩ: được cập nhật từ số local[*] thành spark://localhost:8080

Sau đó, tôi chạy trong sổ ghi chép có mã sau:

import org.apache.hadoop.fs.{FileSystem,Path} 

FileSystem.get(sc.hadoopConfiguration).listStatus(new Path("hdfs:///")).foreach(x => println(x.getPath))

tôi nhận được ngoại lệ này trong nhật ký khí cầu zeppelin:

INFO [2017-12-15 18:06:35,704] ({pool-2-thread-2} Paragraph.java[jobRun]:362) - run paragraph 20171212-200101_1553252595 using null [email protected] 
WARN [2017-12-15 18:07:37,717] ({pool-2-thread-2} NotebookServer.java[afterStatusChange]:2064) - Job 20171212-200101_1553252595 is finished, status: ERROR, exception: null, result: %text java.lang.NullPointerException 
    at org.apache.zeppelin.spark.Utils.invokeMethod(Utils.java:38) 
    at org.apache.zeppelin.spark.Utils.invokeMethod(Utils.java:33) 
    at org.apache.zeppelin.spark.SparkInterpreter.createSparkContext_2(SparkInterpreter.java:398) 
    at org.apache.zeppelin.spark.SparkInterpreter.createSparkContext(SparkInterpreter.java:387) 
    at org.apache.zeppelin.spark.SparkInterpreter.getSparkContext(SparkInterpreter.java:146) 
    at org.apache.zeppelin.spark.SparkInterpreter.open(SparkInterpreter.java:843) 
    at org.apache.zeppelin.interpreter.LazyOpenInterpreter.open(LazyOpenInterpreter.java:70) 
    at org.apache.zeppelin.interpreter.remote.RemoteInterpreterServer$InterpretJob.jobRun(RemoteInterpreterServer.java:491) 
    at org.apache.zeppelin.scheduler.Job.run(Job.java:175) 
    at org.apache.zeppelin.scheduler.FIFOScheduler$1.run(FIFOScheduler.java:139) 
    at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) 
    at java.util.concurrent.FutureTask.run(FutureTask.java:266) 
    at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$201(ScheduledThreadPoolExecutor.java:180) 
    at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:293) 
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) 
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) 
    at java.lang.Thread.run(Thread.java:748)

Làm thế nào tôi có thể truy cập vào HDFS từ khí cầu zeppelin và java/code tia lửa?

Nguồn

2017-12-15 Jas

Lý do ngoại lệ là đối tượng sparkSession là null vì một số lý do trong Zeppelin.

tham khảo: https://github.com/apache/zeppelin/blob/master/spark/src/main/java/org/apache/zeppelin/spark/SparkInterpreter.java

private SparkContext createSparkContext_2() { 
    return (SparkContext) Utils.invokeMethod(sparkSession, "sparkContext"); 
}

Có thể là một vấn đề cấu hình liên quan. Vui lòng xác minh chéo cài đặt/cấu hình và cài đặt cụm tia lửa. Hãy chắc chắn rằng tia lửa đang hoạt động tốt.

Tham chiếu: https://zeppelin.apache.org/docs/latest/interpreter/spark.html

Hy vọng điều này sẽ hữu ích.

Nguồn

2017-12-22 07:07:39 Marco99

HDFS Truy cập từ Docker-hadoop-spark - bàn làm việc qua khí cầu zeppelin

Trả lời

Các vấn đề liên quan