Tôi đang tìm phương pháp hiệu quả (cả tài nguyên máy tính khôn ngoan và học tập/triển khai khôn ngoan) để kết hợp hai khung dữ liệu lớn hơn (kích thước> 1 triệu/300 KB RData).Các lựa chọn thay thế hiệu quả để hợp nhất cho dữ liệu lớn hơn. Khung hình R
"hợp nhất" trong cơ sở R và "tham gia" trong plyr xuất hiện để sử dụng hết bộ nhớ của tôi có hiệu quả làm hỏng hệ thống của tôi.
Ví dụ
tải test data frame
và thử
test.merged<-merge(test, test)
hoặc
test.merged<-join(test, test, type="all")
-
-
Các bài sau đây cung cấp một danh sách các lựa chọn thay thế hợp nhất và:
How to join (merge) data frames (inner, outer, left, right)?
Sau đây cho phép kiểm tra kích thước đối tượng:
https://heuristically.wordpress.com/2010/01/04/r-memory-usage-statistics-variable/
dữ liệu được tạo ra bởi anonym
sql.df hoặc data.table? –
Sau khi đưa ra các câu trả lời hay dưới đây, tôi có thể tìm thấy: http://stackoverflow.com/questions/4322219/whats-the-fastest-way-to-merge-join-data-frames-in-r (mặc dù câu hỏi không phải là về df lớn nhưng về tiết kiệm mili giây, nó đã nhận được câu trả lời tương tự như dưới đây). –