Tôi đã có tệp JSON nàylỗi _corrupt_record khi đọc một tệp JSON vào Spark
{
"a": 1,
"b": 2
}
đã được thu được bằng phương pháp Python json.dump. Bây giờ, tôi muốn đọc tệp này vào một DataFrame trong Spark, sử dụng pyspark. Sau tài liệu hướng dẫn, tôi đang làm điều này
sc = SparkContext()
sqlc = SQLContext (sc)
df = sqlc.read.json ('my_file.json')
in df.show()
tuyên bố in spits ra này mặc dù:
+---------------+
|_corrupt_record|
+---------------+
| {|
| "a": 1, |
| "b": 2|
| }|
+---------------+
Bất cứ ai cũng biết điều gì đang diễn ra và tại sao nó không diễn giải chính xác tệp?
Làm cách nào để khắc phục nếu tệp JSON của tôi lớn (một vài hàng 100 nghìn) và có nhiều dòng mới giữa các bản ghi (cột hoặc đối tượng)? cảm ơn. –