Tôi có tệp CSV 12 GB. Tôi hy vọng sẽ trích xuất chỉ một số cột từ dữ liệu này và sau đó viết một CSV mới mà hy vọng tôi có thể tải vào R để phân tích.Sử dụng Python để phân tích cú pháp 12GB CSV
Sự cố là tôi gặp phải lỗi bộ nhớ khi cố gắng tải toàn bộ danh sách cùng một lúc trước khi viết tệp CSV mới. Làm cách nào để phân tích cú pháp hàng dữ liệu theo hàng và sau đó tạo đầu ra CSV?
Dưới đây là những gì tôi có cho đến nay:
import pandas
colnames = ['contributor name', 'recipient name', 'recipient party', 'contributor cfscore', 'candidate cfscore', 'amount']
DATA = pandas.read_csv('pathname\filename.csv', names=colnames)
DATA.to_csv(''pathname\filename.csv', cols = colnames)
Có bạn nhìn vào csvkit? Tôi không biết nó hiệu quả hay tốc độ như thế nào. http://csvkit.readthedocs.org/en/0.7.3/ – A5C1D2H2I1M1N2O1R2T1
Bạn lấy tệp đó ở đâu? – dawg
Dùng thử [Google CRUSH Tools] (https://code.google.com/p/crush-tools/). Bộ công cụ đó có một mảng rộng các thói quen thao tác dữ liệu sẽ cho phép bạn cắt, xúc xắc và thậm chí làm một số tập hợp sơ bộ để có được dữ liệu thành một kích thước dễ quản lý hơn. Ngoài ra, nếu bạn có thể lấy dữ liệu vào một cơ sở dữ liệu đơn giản, 'dplyr' có thể là một lựa chọn tuyệt vời cho việc crunching dữ liệu vì nó rất có thể sẽ không ăn hết bộ nhớ của bạn. – hrbrmstr