Tôi có tệp có kích thước vừa phải (4GB CSV) trên máy tính không có đủ RAM để đọc trong (8GB trên Windows 64 bit). Trong quá khứ tôi chỉ nạp nó lên một nút cluster và đọc nó, nhưng cluster mới của tôi dường như tự ý giới hạn các tiến trình lên 4GB RAM (mặc dù phần cứng có 16GB cho mỗi máy), vì vậy tôi cần một bản sửa lỗi ngắn hạn .Chiến lược để đọc trong tệp CSV thành nhiều phần?
Có cách nào để đọc một phần tệp CSV thành R để phù hợp với giới hạn bộ nhớ có sẵn không? Bằng cách đó tôi có thể đọc trong một phần ba của tập tin tại một thời điểm, tập hợp nó xuống các hàng và cột tôi cần, và sau đó đọc trong phần ba tiếp theo?
Nhờ bình luận để chỉ ra rằng tôi có khả năng có thể đọc trong toàn bộ tập tin sử dụng một số thủ thuật bộ nhớ lớn: Quickly reading very large tables as dataframes in R
tôi có thể nghĩ ra một số cách giải quyết khác (ví dụ mở trong một trình soạn thảo văn bản tốt, lop tắt 2/3 của các quan sát, sau đó tải trong R), nhưng tôi muốn tránh chúng nếu có thể.
Vì vậy, đọc nó theo từng mảnh vẫn có vẻ là cách tốt nhất để thực hiện ngay bây giờ.
Điều này đã được thảo luận chi tiết ở đây, đặc biệt câu trả lời của JD Long khá hữu ích: http://stackoverflow.com/questions/1727772/quickly-reading-very-large-tables-as-dataframes-in-r –
gói ff có khung dữ liệu – mdsumner
Xin lỗi, điều đó trả lời câu hỏi đầu tiên. Rõ ràng SO tìm kiếm-fu của tôi cần mài giũa, như tôi đã tìm kiếm nhưng không thể tìm thấy nó. Nó bỏ cái thứ hai chưa được trả lời: cách đọc trong một tệp .CSV thành nhiều phần. –