Tôi đang cố gắng phân tích tệp lưu trữ GitHub bằng yajl-py. Tôi tin rằng định dạng cơ bản của tệp là luồng của các đối tượng JSON, do đó, tệp đó không phải là JSON hợp lệ, nhưng nó chứa các đối tượng.Lỗi phân tích cú pháp Yajl với luồng githubarchive.org JSON trong Python
Để kiểm tra điều này ra, tôi cài đặt yajl-py
và sau đó sử dụng ví dụ phân tích cú pháp của họ (từ https://github.com/pykler/yajl-py/blob/master/examples/yajl_py_example.py) để cố gắng phân tích một tập tin:
python yajl_py_example.py < 2012-03-12-0.json
nơi 2012-03-12-0.json
là một trong những tập tin lưu trữ GitHub đó là được giải nén.
Dường như loại điều này sẽ hoạt động từ việc triển khai tham chiếu của chúng trong Ruby. Các gói Python không xử lý luồng JSON?
Bằng cách này, đây là lỗi tôi nhận được:
yajl.yajl_common.YajlError: parse error: trailing garbage
9478bbc3","type":"PushEvent"}{"repository":{"url":"https://g
(right here) ------^
"Tôi tin cơ bản định dạng của tệp là luồng của các đối tượng JSON "Bạn đã đi đến kết luận này như thế nào? Chúng tôi có thể kiểm tra các tập tin? –
Chắc chắn, bạn có thể xem tệp bằng 'wget http://data.githubarchive.org/2012-03-12-0.json.gz | gzip -d> 2012-03-12-0.json'. Đó là một vài megabyte, rất lớn. – Bialecki
Bạn đã tìm ra điều này chưa? Bạn có thử tùy chọn allow_multiple_values không? – Pykler